您的位置: 专家智库 > >

李跃健

作品数:1 被引量:2H指数:1
供职机构:同济大学电子与信息工程学院计算机科学与技术系更多>>
发文基金:上海市科委国际合作基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇体系结构
  • 1篇爬虫
  • 1篇网络
  • 1篇网络爬虫
  • 1篇过滤器
  • 1篇哈希
  • 1篇哈希算法
  • 1篇布隆过滤器

机构

  • 1篇同济大学

作者

  • 1篇朱程荣
  • 1篇李跃健

传媒

  • 1篇计算机技术与...

年份

  • 1篇2012
1 条 记 录,以下是 1-1
排序方式:
基于Larbin的网络爬虫体系结构的研究与改进被引量:2
2012年
Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,导致内存利用率的降低以及很多网页不能被抓取。通过研究布隆过滤器,将url的hash算法进行改进,把原本一对一的映射变成多对一的映射,减小了冲突概率,同时也将大大地提高Larbin在url内存方面的利用率。经过实验检验,使用布隆过滤器,同样8M内存,当达到10%的url占有率时,采用7个映射,可以使得冲突概率最小,达到0.82%,而没采用Bloom filter的冲突概率则达到了10%。
李跃健朱程荣
关键词:爬虫哈希算法布隆过滤器
共1页<1>
聚类工具0