您的位置: 专家智库 > >

福建省科技计划项目(2004I014)

作品数:6 被引量:27H指数:3
相关作者:吴扬扬刘晨曦谷峰傅珊珊雷庆更多>>
相关机构:华侨大学更多>>
发文基金:福建省科技计划项目福建省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇中文期刊文章

领域

  • 6篇自动化与计算...

主题

  • 3篇网页
  • 2篇中文
  • 2篇中文网页
  • 2篇网页分类
  • 2篇文档
  • 2篇抽取
  • 1篇信息提取
  • 1篇序列数据
  • 1篇序列数据挖掘
  • 1篇映射
  • 1篇映射关系
  • 1篇数据抽取
  • 1篇数据库
  • 1篇数据挖掘
  • 1篇特征选取
  • 1篇体裁
  • 1篇体裁分类
  • 1篇去噪
  • 1篇权值
  • 1篇权值调整

机构

  • 6篇华侨大学

作者

  • 6篇吴扬扬
  • 2篇谷峰
  • 2篇刘晨曦
  • 1篇黄臻臻
  • 1篇傅珊珊
  • 1篇雷庆

传媒

  • 2篇广西师范大学...
  • 1篇清华大学学报...
  • 1篇计算机工程与...
  • 1篇福建电脑
  • 1篇山东大学学报...

年份

  • 2篇2007
  • 3篇2006
  • 1篇2005
6 条 记 录,以下是 1-6
排序方式:
中文网页体裁分类特征项的权值调整策略被引量:3
2007年
研究了中文网页体裁分类的特征项选取问题及权重计算方法,探讨不同特征空间对体裁类别的判别能力问题,给出了一种评价方法。据此,提出一种特征项的权值调整策略,实验结果验证了该方法的有效性。
黄臻臻吴扬扬
关键词:网页分类体裁特征选取权值调整
抽取XML文档到关系数据库被引量:4
2006年
XML在关系数据库中的存储问题是XML研究领域中的一个重要问题。在总结多种映射方法的基础上,提出了一种方法将多个相似的XML文档进行解析,根据映射关系,生成各自的关系模式,并分析归纳出一个集成的关系模式,然后创建一个关系数据库,并在映射关系的基础上提取并存储XML文档数据到关系数据库。此方法以较为简洁的结构保存了XML文档的数据信息,其最大的特点就是不用考虑文档的模式信息(DTD,XML Schema)。并通过一个具体的实验结果来说明这种方法的有效性。
傅珊珊吴扬扬
关键词:可扩展标记语言关系数据库映射关系
一种基于块分析的网页去噪音方法被引量:13
2007年
一张网页通常由许多信息块组成,除了主题内容块以外,还常常包含广告信息、导航条、版权信息等信息块。结合网页块大小、位置等信息以及网页本身的一些特点,提出了一种基于块分析的、自动调整阈值的去除噪音方法,该算法显著减少了网页的噪音,并通过网页分类对比实验证明了该算法的有效性。
刘晨曦吴扬扬
关键词:网页信息提取HTML
基于序列数据挖掘的中文网页特征选择方法被引量:2
2006年
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.
谷峰刘晨曦吴扬扬
关键词:序列数据挖掘PAT树中文网页分类
识别和抽取XM L文档中的关系信息及其出现模式被引量:3
2005年
W eb中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对W eb中的关系信息进行识别。该文以XM L作为研究对象,提出了一种XM L文档中识别和抽取关系信息及其出现模式的方法。该方法按照用户的挖掘请求搜集XM L文档;通过计算XM L文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取。实验结果表明提出的XM L相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据。
雷庆吴扬扬
关键词:关系信息数据抽取
文本分类关键技术被引量:3
2006年
本文介绍了文本分类的基本原理及关键技术,讨论目前的一些主要算法,对现有的文本分类算法进行分析和比较,并针对目前文本分类技术的不足之处,提出今后文本分类研究的方向和目标。
谷峰吴扬扬
关键词:文本分类向量空间模型
共1页<1>
聚类工具0