您的位置: 专家智库 > >

国家火炬计划(2004EB33006[0])

作品数:5 被引量:56H指数:4
相关作者:施化吉李星毅包从剑高文浩曾路平更多>>
相关机构:江苏大学北京交通大学南京航空航天大学更多>>
发文基金:江苏省高校自然科学研究项目国家火炬计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 2篇相似重复记录
  • 2篇聚类
  • 1篇信息集成
  • 1篇异构
  • 1篇语义
  • 1篇数据仓库
  • 1篇数据集
  • 1篇数据集成
  • 1篇数据集成方法
  • 1篇数据立方
  • 1篇数据立方体
  • 1篇数据异构
  • 1篇文本表示
  • 1篇文本聚类
  • 1篇向量
  • 1篇向量空间
  • 1篇向量空间模型
  • 1篇立方体
  • 1篇内码
  • 1篇基于本体

机构

  • 5篇江苏大学
  • 3篇北京交通大学
  • 2篇南京航空航天...

作者

  • 5篇施化吉
  • 4篇李星毅
  • 1篇包从剑
  • 1篇高文浩
  • 1篇曾路平
  • 1篇马素琴
  • 1篇鲁均云
  • 1篇丁云磊

传媒

  • 3篇计算机工程与...
  • 1篇电子科技大学...
  • 1篇计算机应用研...

年份

  • 1篇2010
  • 3篇2009
  • 1篇2007
5 条 记 录,以下是 1-5
排序方式:
数据仓库中的相似重复记录检测方法被引量:26
2007年
针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据集中检测和消除相似重复记录,为避免漏查,再选择其他关键字段或字段某些位重复多次检测。理论分析和实验表明,该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。
李星毅包从剑施化吉
关键词:相似重复记录数据仓库
基于内码序值聚类的相似重复记录检测方法被引量:8
2010年
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,并能够有效地解决大数据量的相似重复记录检测问题。
鲁均云李星毅施化吉马素琴
关键词:相似重复记录聚类
基于本体的异构数据集成方法被引量:14
2009年
本体具有很强的表达概念语义和推理的能力,为解决多数据源数据集成中语义异构的问题,本体被逐渐应用于其中。给出了一种基于混合本体的信息集成方法,通过建立局部本体、全局本体,以及它们之间的映射,使对全局本体的全局查询能够分解为对底层数据源的查询,重点讨论了该方法中本体的映射,在映射中加入了属性转换,解决了其它映射形式只能表达简单的映射或映射不易维护的问题,并且提高了系统的查全率和查准率。
李星毅高文浩施化吉
关键词:数据异构信息集成本体语义
基于单词相似度的文本聚类被引量:9
2009年
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点。针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类。实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果。
李星毅曾路平施化吉
关键词:文本聚类向量空间模型文本表示
基于数据立方体的高效关联规则挖掘算法被引量:2
2009年
关联规则挖掘过程中,为了得到侯选项集的支持度,需要将侯选项集与数据库中事务逐一进行比较,影响了算法的执行效率。针对该问题,提出一种基于数据立方体的关联规则挖掘算法ABDC。该算法结合了属性分组的思想,将生成的侯选项集进行编码后,利用数据库中事务的包含关系,在数据立方体中迅速查找到包含该侯选项集的所有事务在数据库中的出现频率,依次累加后根据最小支持量得到数据库中存在的频繁项集,不仅对事务数量的递增具有不敏感性,而且提高了算法的执行效率。实验结果表明,该算法对挖掘大量事务集中存在的关联规则是快速有效的。
施化吉丁云磊
关键词:关联规则数据立方体
共1页<1>
聚类工具0