申文明
- 作品数:7 被引量:11H指数:2
- 供职机构:广西大学更多>>
- 发文基金:国家科技型中小企业技术创新基金更多>>
- 相关领域:自动化与计算机技术理学语言文字更多>>
- 搜索引擎的反作弊技术研究
- 作弊已经成为搜索引擎面临的一个重大挑战,作弊者利用各种作弊技术来骗取虚假排名.为了对付网页作弊也出现了很多反作弊的技术.当前主要的反作弊技术可以分为基于网页特征分析,基于网页链接分析和检测隐藏技术的方法.当前,大部分搜索...
- 申文明梁一平周小平
- 关键词:计算机网络搜索引擎
- 平行语料库的相似语句去重算法被引量:4
- 2009年
- 尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。
- 申文明黄家裕刘连芳
- 关键词:去重平行语料库
- 基于网页正文主题和摘要的网页去重算法被引量:6
- 2009年
- 针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。
- 周小平黄家裕刘连芳梁一平申文明
- 关键词:去重网页分词元搜索
- 基于概率模型的汉语和越南语的人名音译方法
- 本文利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名音译。音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%。
- 申文明刘连芳黄家裕温家凯
- 关键词:音译
- 基于概率模型的汉越人名音译
- 人名的翻译是命名实体翻译的一个重要问题,本文利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名互译。实验证明,本文的音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%。本文的音译方法还...
- 申文明刘连芳黄家裕温家凯
- 关键词:音译
- 文献传递
- 基于概率模型的汉语和越南语的人名音译方法被引量:1
- 2010年
- 利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名音译。音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%。
- 申文明刘连芳黄家裕温家凯
- 关键词:音译
- 基于平行语料库的越汉跨语言信息检索研究
- 随着世界经济一体化的进展,各国之间互联网交流更为广泛、频繁,互联网信息的多语种特点,给交流带来的语言障碍日显突出。为解决语言障碍问题,跨语言信息检索技术应运而生。目前国内外针对母语与英语之间的跨语言检索研究较多,在中国-...
- 申文明
- 关键词:跨语言信息检索平行语料库机器翻译
- 文献传递