国家重点基础研究发展计划(2004CB3181096)
- 作品数:1 被引量:11H指数:1
- 相关作者:白硕张凯吴丽辉张刚更多>>
- 相关机构:中国科学院中国科学院研究生院更多>>
- 发文基金:国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- Web信息采集中的哈希函数比较被引量:11
- 2006年
- 在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷.
- 吴丽辉白硕张刚张凯
- 关键词:WEB信息采集哈希函数URL