金奕江
- 作品数:46 被引量:81H指数:6
- 供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 一种快速检索方法及系统
- 本发明涉及一种快速检索方法及系统,该方法包括:收集待检索对象列表及文档;在文档中标注出现在待检索对象列表中的待检索对象;抽取文档中已标注的待检索对象前后各若干个字符信息;将由同一待检索对象抽取的字符信息汇集为一个文档,得...
- 富羽鹏张敏刘奕群金奕江马少平
- 文献传递
- 一种基于用户行为信息的搜索引擎检索结果重排序方法
- 本发明属于互联网信息处理领域,其特征在于:它根据单个或多个搜索引擎日志,首先利用查询对应的用户数信息,从中筛选出用户关注的常用查询集合;随后计算常用查询集中各查询对应的用户点击页面对应的用户点击率,若利用多搜索引擎日志信...
- 岑荣伟刘奕群张敏金奕江马少平
- 文献传递
- 一种基于文档相似度的检索结果重排序方法被引量:9
- 2010年
- 对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。
- 周博岑荣伟刘奕群张敏金奕江马少平
- 关键词:计算机应用中文信息处理信息检索
- 群体智能支撑的互联网搜索技术及其应用
- 刘奕群张阔张敏王小川茹立云马少平许静芳王超佟子健张坤余浩李毅刘明荣仙云森金奕江
- 该成果属于信息技术领域。成果围绕现代互联网搜索技术提升的迫切需求,针对搜索引擎在组织、利用海量规模异构异质网络数据,理解、匹配高度动态复杂的用户信息需求等方面存在的技术挑战开展了深入研究探索。从互联网搜索用户的群体交互规...
- 关键词:
- 关键词:互联网搜索引擎系统
- 基于ASIC识别卡的脱机手写体汉字识别系统
- 脱机手写体汉字识别是汉字识别的一个热点,也是机器字符识别最为困难的一个课题.传统上我们采取纯软件识别的方法,这样识别率可以达到比较高的水平,但是识别速度很低.模板匹配是脱机手写体汉字识别的主要部分,它也是整个识别速度的瓶...
- 宁薇郑翔金奕江赵雁南马少平
- 关键词:脱机手写体汉字识别ASIC
- 文献传递
- 计算机语言学方法在中文文字识别后处理中的应用被引量:2
- 1996年
- 近年来,脱机手写汉字识别[OCR]研究取得了很大进步,识别率在提高,前十选识别可达95%以上,但第选识别率仍不够高。OCR 的研究者们已看到单纯的单字(Isolatedcharacter)识别的方法对整个文本识别是不够的。
- 夏莹马少平孙茂松朱小燕金奕江李国华
- 关键词:汉字识别文字识别汉字处理计算机语言学
- 利用上下文相关信息的汉字文本识别被引量:10
- 1996年
- 为了改善汉字文本识别率,本文提出了一种基于语料库统计概率的后处理方法,该方法利用上下文相关信息,超过词汇。对于汉字文本识别,把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率,采用动态规划方法,获得了令人满意的效果。
- 夏莹常新功马少平朱小燕金奕江
- 关键词:汉字识别语料库语言学
- 提高汉字识别器性能的线性判别筛选算法
- 该文提出了应用红性判别对汉字识别候选结果进行筛选以进一步提高识别率的算法。在通过实验考察了汉字之间的线性可分性的基础上,设计了应用方案和算法,并估算了可能达到的性能提高值。实验使用了Fisher线性判别准则。通过检验每一...
- 金奕江张敏马少平
- 关键词:汉字识别线性分类器模式识别
- 文献传递
- 锚文本检索有效性分析被引量:3
- 2011年
- 锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文本推荐的目标网页也往往与真实的用户体验不一致.为了解决上述问题,基于大规模真实用户的互联网浏览行为日志展开研究.首先提出了锚文本检索有效性的评估框架,然后分析了用户网络浏览点击行为与锚文本检索有效性之间的联系,挖掘了用户网络浏览点击行为中有助于筛选高质量锚文本的特征.基于这些特征,提出了两种超链接文档生成方法.实验结果表明,基于用户网络浏览点击行为特征筛选出的锚文本,与原始锚文本相比,能够明显地提升网络检索的性能.
- 周博刘奕群张敏金奕江马少平
- 关键词:锚文本网络信息检索
- 一种搜索引擎性能评价的自动化处理方法
- 本发明属于互联网信息处理领域,其特征在于:它首先从搜索引擎用户访问日志中提取出用户的查询信息,在此基础上对用户查询进行分类;随后,对于不同类型的用户查询,根据用户访问日志中的用户点击信息进行自动分析,得出对应这些查询的用...
- 刘奕群张敏金奕江马少平
- 文献传递