您的位置: 专家智库 > >

申文明

作品数:7 被引量:11H指数:2
供职机构:广西大学更多>>
发文基金:国家科技型中小企业技术创新基金更多>>
相关领域:自动化与计算机技术理学语言文字更多>>

文献类型

  • 3篇期刊文章
  • 3篇会议论文
  • 1篇学位论文

领域

  • 6篇自动化与计算...
  • 1篇语言文字
  • 1篇理学

主题

  • 4篇翻译
  • 3篇音译
  • 3篇越人
  • 2篇语料
  • 2篇语料库
  • 2篇越南语
  • 2篇人名
  • 2篇搜索
  • 2篇平行语料
  • 2篇平行语料库
  • 2篇去重
  • 2篇去重算法
  • 2篇汉语
  • 1篇登录
  • 1篇信息检索
  • 1篇引擎
  • 1篇语句
  • 1篇元搜索
  • 1篇搜索引擎
  • 1篇索引

机构

  • 7篇广西大学

作者

  • 7篇申文明
  • 3篇刘连芳
  • 2篇周小平
  • 2篇梁一平

传媒

  • 3篇广西科学院学...
  • 1篇2009年中...

年份

  • 1篇2011
  • 3篇2010
  • 3篇2009
7 条 记 录,以下是 1-7
排序方式:
搜索引擎的反作弊技术研究
作弊已经成为搜索引擎面临的一个重大挑战,作弊者利用各种作弊技术来骗取虚假排名.为了对付网页作弊也出现了很多反作弊的技术.当前主要的反作弊技术可以分为基于网页特征分析,基于网页链接分析和检测隐藏技术的方法.当前,大部分搜索...
申文明梁一平周小平
关键词:计算机网络搜索引擎
平行语料库的相似语句去重算法被引量:4
2009年
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。
申文明黄家裕刘连芳
关键词:去重平行语料库
基于网页正文主题和摘要的网页去重算法被引量:6
2009年
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。
周小平黄家裕刘连芳梁一平申文明
关键词:去重网页分词元搜索
基于概率模型的汉语和越南语的人名音译方法
本文利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名音译。音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%。
申文明刘连芳黄家裕温家凯
关键词:音译
基于概率模型的汉越人名音译
人名的翻译是命名实体翻译的一个重要问题,本文利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名互译。实验证明,本文的音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%。本文的音译方法还...
申文明刘连芳黄家裕温家凯
关键词:音译
文献传递
基于概率模型的汉语和越南语的人名音译方法被引量:1
2010年
利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名音译。音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%。
申文明刘连芳黄家裕温家凯
关键词:音译
基于平行语料库的越汉跨语言信息检索研究
随着世界经济一体化的进展,各国之间互联网交流更为广泛、频繁,互联网信息的多语种特点,给交流带来的语言障碍日显突出。为解决语言障碍问题,跨语言信息检索技术应运而生。目前国内外针对母语与英语之间的跨语言检索研究较多,在中国-...
申文明
关键词:跨语言信息检索平行语料库机器翻译
文献传递
共1页<1>
聚类工具0