国家自然科学基金(61272446) 作品数:4 被引量:15 H指数:2 相关作者: 何发镁 王旭仁 王彦丽 姚叶鹏 冉春风 更多>> 相关机构: 首都师范大学 北京理工大学 西南大学 更多>> 发文基金: 国家自然科学基金 北京市属高等学校人才强教计划资助项目 更多>> 相关领域: 自动化与计算机技术 更多>>
基于Tika和Lucene的桌面搜索引擎研究与实现 被引量:3 2014年 在桌面搜索引擎中,对于二进制文件格式的处理,通常需要针对每一种具体的文件格式编写独立的解析器,复杂度较高且不易维护。从分析开源搜索引擎Lucene出发,提出一种基于Tika和Lucene的桌面搜索引擎框架,能够使用统一的应用编程接口来处理不同二进制格式的文档。整个框架均为开放源代码形式,各模块间耦合度低,易于扩展。在实现方面,基于最新的Lucene4.1,实现了对桌面系统内文档的全文搜索;并在索引性能优化方面,相比于传统的参数配置优化和内存缓冲优化两方面,使用最新的DWPT(documents writer per thread)技术,使索引性能提升了35%。 王旭仁 郑秋辉 何发镁 李娜 王彦丽关键词:桌面搜索引擎 索引优化 一种并行LDA主题模型建立方法研究 被引量:12 2013年 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高. 王旭仁 姚叶鹏 冉春风 何发镁关键词:并行计算 主题建模 隧道传输系统中基于表项优化的高效转发模型 2015年 异构网络环境中,隧道报文在路由器数据层的处理涉及多次不同表项查找,报文转发时延和表项存储容量都面临着极大的挑战。该文主要研究隧道报文处理的核心功能及各项功能步骤间的关联,提出了表项聚合和表项拆分理论,并分析了二者的效用、代价及适用场景。并设计了基于表项优化的隧道设备高效转发模型,针对4over6过渡网关给出了具体实现方法。原型系统实验和分析证明了隧道网络表项优化机制和理论的正确性、高效性。表项优化研究也为其他网络设备的各类表项处理优化提供了重要参考。 陈文龙 齐宏伟 徐明伟 徐恪关键词:转发 Web页面细粒度数据抽取方法研究 2014年 尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。 王旭仁 杨硕 何发镁 王彦丽 张为群关键词:信息抽取 WEB挖掘 包装器