您的位置: 专家智库 > >

国家重点基础研究发展计划(2004CB3181096)

作品数:1 被引量:11H指数:1
相关作者:白硕张凯吴丽辉张刚更多>>
相关机构:中国科学院中国科学院研究生院更多>>
发文基金:国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息采集
  • 1篇哈希
  • 1篇哈希函数
  • 1篇URL
  • 1篇WEB信息
  • 1篇WEB信息采...

机构

  • 1篇中国科学院
  • 1篇中国科学院研...

作者

  • 1篇张刚
  • 1篇吴丽辉
  • 1篇张凯
  • 1篇白硕

传媒

  • 1篇小型微型计算...

年份

  • 1篇2006
1 条 记 录,以下是 1-1
排序方式:
Web信息采集中的哈希函数比较被引量:11
2006年
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
吴丽辉白硕张刚张凯
关键词:WEB信息采集哈希函数URL
共1页<1>
聚类工具0