国家高技术研究发展计划(2007AA01Z154)
- 作品数:2 被引量:7H指数:1
- 相关作者:周模代亚非张建宇林武张燕更多>>
- 相关机构:北京大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于领域的历史网页检索算法
- 2010年
- 在历史网页检索系统中,存在着按时间顺序来对检索结果进行排序的特殊需求,在客观上要求系统能够比较准确地判断文档与查询词是否相关。针对这一特殊需求,引入领域的概念,将领域用于用户检索的表示,在领域的基础上设计了一种带衰减因子的BM25检索相关性计算算法。实验结果显示该检索算法是有效的,引入领域后检索结果的F值平均提高了56.68%。
- 张燕黄连恩林武
- 可扩展的DHT网络爬虫设计和优化被引量:7
- 2010年
- KAD网络是目前基于实际应用的一个最大的DHT网络,针对KAD网络的测量成为研究实际DHT的很好途径.各种针对覆盖网络的基于主动和被动的测量研究也正逐步展开,在主动测量中,网络爬虫是一项很重要的基础工作.通常,这类爬虫从一个起始的已知节点集开始扫描,然后通过迭代式地查询来获取更多的节点信息.设计爬虫的时候通常希望达到3个性能方面的目标:尽快完成对一个已知的节点集的扫描,尽可能抓取到更多的节点信息,尽量减少网络带宽的占用.由于这些目标之间存在互相制约关系,单纯优化其中的一项性能可能降低其它性能.文中提出了一个基本的DHT网络爬虫的框架,并提出基于该框架上可能的扩展,充分利用覆盖网络中的拓扑结构,对爬虫各部分工作的权重进行调整,从而降低爬虫总的工作量,达到对以上目标的优化.
- 周模张建宇代亚非
- 关键词:DHT爬虫网络测量