张林才
- 作品数:6 被引量:11H指数:1
- 供职机构:辽宁石油化工大学计算机与通信工程学院更多>>
- 发文基金:广西教育厅科研项目广西大学博士科研启动基金广西省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Rabin指纹方法的URL去重算法被引量:10
- 2008年
- 针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断。实验表明,该算法能有效去除URL集合中重复的URL,提高检索速度。
- 梁正友张林才
- 关键词:WEBSPIDER
- 基于ProActive的分布式并行Web Spider研究
- 搜索引擎面对不断爆炸性增长的互联网信息,为了保证搜索的全面性和页面的有效性,就要求有更短的更新周期,于是对Web Spider的采集效率提出了更高的要求。单机的Web Spider的采集效率明显不能满足搜索引擎的更新需求...
- 张林才
- 关键词:PROACTIVE搜索引擎
- 文献传递
- 基于ProActive的分布式并行WebSpider设计
- 2008年
- 单机Web Spider的数据采集速度较慢,采用MPI技术或直接用Java开发分布式Web Spider代价较高。该文利用ProActive中间件提供的主动对象技术、网络并行计算技术、自动部署机制设计实现了P-Spider分布式并行Web Spider。实验结果表明,该P-Spider采集速率是单机多线程Web Spider的2.2倍。
- 张林才梁正友
- 关键词:WEB分布式
- 基于ProActive的P-Spider1.0改进
- 2010年
- 针对带中心节点结构的分布式并行Web Spider的中心节点负担过重、通信负载不均衡、可扩展性差的问题,提出基于Rabin指纹算法的URL去重改进算法和节点对等结构的改进方案,利用ProActive中间件设计开发改进的分布式并行Web Spider。对比实验表明,改进后的Web Spider采集效率更高,通信负载均衡,无节点瓶颈问题,具有良好的可扩展性。
- 张林才梁正友王红霞
- 关键词:网络蜘蛛分布式中心节点
- 异构机群系统上并行计算双序列的最长公共子序列
- 2010年
- 针对处理机节点具有不同计算速度、不同通信能力的情况,考虑计算和通信启动开销,给定处理机分配顺序,基于可分负载理论,提出一种存储受限异构机群系统的序列串最优分配线性规划模型,给出相应的序列串最优分配方法。实验结果表明,基于最优序列串分配方法的双序列最长公共子序列并行算法优于平均分配序列串算法,获得了较好的加速,并具有良好的可扩展性。
- 许莉莉魏鹰罗海鹏张林才
- 关键词:异构机群系统
- 节点对等Web Spider设计与实现被引量:1
- 2010年
- 由于互联网具有海量信息并且快速增长,提高搜索引擎的信息采集器Web Spider的数据采集和更新速度有重要意义。受计算资源限制,单机多线程Web Spider的采集速率不高。带中心节点的分布式并行Web Spider又容易产生中心节点瓶颈问题。利用ProActive网格网络并行分布计算中间件提供的主动对象技术、网络并行计算技术、自动部署机制等设计和实现了一个名为P-Spider2.0的节点对等的分布式并行Web Spider,并设计了一个基于Raibin算法的URL去重算法。实验表明该Web Spider方便管理和部署,并且比单机多线程Web Spider具有更高的采集速率。
- 张林才张燕王红霞
- 关键词:网络爬虫PROACTIVE分布式