申兵一
- 作品数:3 被引量:5H指数:2
- 供职机构:武警工程学院通信工程系更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Lucene的PDF文档文本解析的实现被引量:3
- 2009年
- 互联网和信息技术的迅速发展,使得如何高效、快速地从海量信息中获取所需信息成为一个非常重要的问题。基于Lucene的搜索引擎的广泛应用,为我们实现高效查找提供了一种可能。本文研究了Lucene的系统结构及检索原理,提出了对PDF文档进行文本解析的方法,实现了对PDF文档文本数据的提取。
- 申兵一巩青歌
- 关键词:搜索引擎LUCENE索引文本解析
- 基于Lucene桌面搜索引擎系统的设计和实现
- 用户个人计算机硬盘容量越来越大,以及计算机网络技术时代方便快捷的信息获取方式,使得个人电脑上存储的资料急剧膨胀,而用户的信息查询需求越来越高,帮助用户快速有效地从本地电脑的海量信息中获取最需要的内容成为一个不可忽视的课题...
- 申兵一巩青歌
- 关键词:LUCENE文本解析倒排索引中文分词
- 文献传递
- 中文分词技术在搜索引擎中的应用研究被引量:2
- 2010年
- 中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。
- 申兵一巩青歌
- 关键词:搜索引擎中文分词信息检索未登录词识别歧义消解