您的位置: 专家智库 > >

刘雪琼

作品数:2 被引量:4H指数:1
供职机构:北京林业大学更多>>
发文基金:中央高校基本科研业务费专项资金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 2篇相似重复记录
  • 1篇信息整合
  • 1篇去重
  • 1篇聚类
  • 1篇CANOPY

机构

  • 2篇北京林业大学

作者

  • 2篇刘雪琼
  • 1篇邓厚平
  • 1篇武刚

传媒

  • 1篇计算机应用

年份

  • 2篇2013
2 条 记 录,以下是 1-2
排序方式:
林业WEB黄页信息整合中数据去重关键技术研究
对互联网中海量、异构、动态、离散的WEB信息进行整合,是实现垂直搜索引擎,提供高效主题信息服务的基础。林业WEB黄页是重要的林业信息资源,整合Internet上不同站点的林业电子黄页,形成全面而专业的林业WEB黄页数据库...
刘雪琼
关键词:相似重复记录
Web信息整合中的数据去重方法被引量:4
2013年
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。
刘雪琼武刚邓厚平
关键词:相似重复记录
共1页<1>
聚类工具0