您的位置: 专家智库 > >

国家自然科学基金(61072152)

作品数:1 被引量:4H指数:1
相关作者:黄宜华韦永壮袁春风更多>>
相关机构:南京大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇索引
  • 1篇中文
  • 1篇重复网页
  • 1篇网页
  • 1篇句号
  • 1篇剪切
  • 1篇CCD

机构

  • 1篇南京大学

作者

  • 1篇袁春风
  • 1篇韦永壮
  • 1篇黄宜华

传媒

  • 1篇计算机研究与...

年份

  • 1篇2013
1 条 记 录,以下是 1-1
排序方式:
CCDet:一种高效的大规模中文重复网页检测方法被引量:4
2013年
重复文档检测是信息检索领域中一个非常重要的问题.由于网页结构和内容的复杂性,现有方法在网页查重上没有达到很好的准确性,且只有少量工作用于处理包含关系网页检测问题;同时,由于网页数量的巨大,重复网页检测处理时需要考虑大规模数据的并行化算法.提出一种基于句号特征的大规模重复中文网页检测方法CCDet.CCDet采用了一种基于中文句号特征来完成重复文档的相似性比对方法,与现有的主要重复网页检测算法相比,CCDet大幅提高了检测具有重复关系网页和具有包含关系网页的准确性,并拥有较高的检测效率.同时,为了适应大规模新闻网页的查重处理,使用MapReduce编程框架实现了并行化的CCDet算法,使之能够并行化地进行重复网页检测.实验结果表明,并行化的CCDet算法具有较好的检测效果和计算性能,并具有良好的可扩展性.
韦永壮袁春风黄宜华
共1页<1>
聚类工具0