您的位置: 专家智库 > >

鲁均云

作品数:1 被引量:8H指数:1
供职机构:江苏大学计算机科学与通信工程学院更多>>
发文基金:江苏省高校自然科学研究项目国家火炬计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇相似重复记录
  • 1篇内码
  • 1篇聚类

机构

  • 1篇江苏大学

作者

  • 1篇李星毅
  • 1篇施化吉
  • 1篇马素琴
  • 1篇鲁均云

传媒

  • 1篇计算机应用研...

年份

  • 1篇2010
1 条 记 录,以下是 1-1
排序方式:
基于内码序值聚类的相似重复记录检测方法被引量:8
2010年
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,并能够有效地解决大数据量的相似重复记录检测问题。
鲁均云李星毅施化吉马素琴
关键词:相似重复记录聚类
共1页<1>
聚类工具0