您的位置: 专家智库 > >

国家自然科学基金(61272446)

作品数:4 被引量:15H指数:2
相关作者:何发镁王旭仁王彦丽姚叶鹏冉春风更多>>
相关机构:首都师范大学北京理工大学西南大学更多>>
发文基金:国家自然科学基金北京市属高等学校人才强教计划资助项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 4篇自动化与计算...

主题

  • 1篇多线程
  • 1篇信息抽取
  • 1篇页面
  • 1篇引擎
  • 1篇数据抽取
  • 1篇搜索
  • 1篇搜索引擎
  • 1篇隧道
  • 1篇索引
  • 1篇索引优化
  • 1篇片断
  • 1篇主题建模
  • 1篇转发
  • 1篇桌面
  • 1篇桌面搜索
  • 1篇桌面搜索引擎
  • 1篇细粒度
  • 1篇线程
  • 1篇包装器
  • 1篇WEB挖掘

机构

  • 4篇首都师范大学
  • 3篇北京理工大学
  • 1篇清华大学
  • 1篇西南大学

作者

  • 3篇王旭仁
  • 3篇何发镁
  • 2篇王彦丽
  • 1篇冉春风
  • 1篇郑秋辉
  • 1篇杨硕
  • 1篇姚叶鹏
  • 1篇徐恪
  • 1篇李娜
  • 1篇陈文龙
  • 1篇徐明伟
  • 1篇齐宏伟
  • 1篇张为群

传媒

  • 2篇计算机工程与...
  • 1篇电子科技大学...
  • 1篇北京理工大学...

年份

  • 1篇2015
  • 2篇2014
  • 1篇2013
4 条 记 录,以下是 1-4
排序方式:
基于Tika和Lucene的桌面搜索引擎研究与实现被引量:3
2014年
在桌面搜索引擎中,对于二进制文件格式的处理,通常需要针对每一种具体的文件格式编写独立的解析器,复杂度较高且不易维护。从分析开源搜索引擎Lucene出发,提出一种基于Tika和Lucene的桌面搜索引擎框架,能够使用统一的应用编程接口来处理不同二进制格式的文档。整个框架均为开放源代码形式,各模块间耦合度低,易于扩展。在实现方面,基于最新的Lucene4.1,实现了对桌面系统内文档的全文搜索;并在索引性能优化方面,相比于传统的参数配置优化和内存缓冲优化两方面,使用最新的DWPT(documents writer per thread)技术,使索引性能提升了35%。
王旭仁郑秋辉何发镁李娜王彦丽
关键词:桌面搜索引擎索引优化
一种并行LDA主题模型建立方法研究被引量:12
2013年
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高.
王旭仁姚叶鹏冉春风何发镁
关键词:并行计算主题建模
隧道传输系统中基于表项优化的高效转发模型
2015年
异构网络环境中,隧道报文在路由器数据层的处理涉及多次不同表项查找,报文转发时延和表项存储容量都面临着极大的挑战。该文主要研究隧道报文处理的核心功能及各项功能步骤间的关联,提出了表项聚合和表项拆分理论,并分析了二者的效用、代价及适用场景。并设计了基于表项优化的隧道设备高效转发模型,针对4over6过渡网关给出了具体实现方法。原型系统实验和分析证明了隧道网络表项优化机制和理论的正确性、高效性。表项优化研究也为其他网络设备的各类表项处理优化提供了重要参考。
陈文龙齐宏伟徐明伟徐恪
关键词:转发
Web页面细粒度数据抽取方法研究
2014年
尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。
王旭仁杨硕何发镁王彦丽张为群
关键词:信息抽取WEB挖掘包装器
共1页<1>
聚类工具0