邓厚平
- 作品数:3 被引量:6H指数:2
- 供职机构:北京林业大学信息学院更多>>
- 发文基金:中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于爬虫和网站分类的主题信息源发现方法被引量:2
- 2016年
- 如何发现主题信息源是主题Web信息整合的前提。提出了一种主题信息源发现方法,将主题信息源发现转化为网站主题分类问题,并利用站外链接发现新的信息源。从网站中提取出能反映网站主题的内容特征词和结构特征词,建立描述网站主题的改进的向量空间模型。以该模型为基础,通过类中心向量法与SVM相结合对网站主题进行分类。提出一种能尽量少爬取网页的网络搜索策略,在发现站外链接的同时爬取最能代表网站主题的页面。将该主题信息源发现方法应用于林业商务信息源,通过实验验证了该方法的有效性。
- 邓厚平武刚
- 关键词:网站主题爬虫
- 林产品商务Web信息源发现技术研究
- 为解决“信息过载”问题和满足专业领域信息需求,面向主题的Web信息整合技术逐渐成为研究热点。Web信息整合技术将位于不同信息源的分散的主题信息进行整合并提供垂直信息服务。林产品商务网站中包含的林产品供求信息是一种重要的林...
- 邓厚平
- 关键词:爬虫
- Web信息整合中的数据去重方法被引量:4
- 2013年
- 针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。
- 刘雪琼武刚邓厚平
- 关键词:相似重复记录