诺明花
- 作品数:25 被引量:67H指数:6
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金中国科学院西部行动计划项目国家科技重大专项更多>>
- 相关领域:自动化与计算机技术语言文字电子电信更多>>
- ISCAS机器翻译系统与评测技术报告
- 本文介绍了中国科学院软件所基础软件国家工程研究中心多语言信息处理研究室参加CWMT2011机器翻译评测任务的情况。本次评测,我们主要参加了藏汉政府公文领域以及汉英新闻领域两个子任务,本文主要介绍我们此次参与评测的系统框架...
- 熊维王震于新刘汇丹诺明花马龙龙张立强洪锦玲吴健
- 关键词:机器翻译
- 文献传递
- 基于大规模网络语料的藏文音节拼写错误统计与分析被引量:6
- 2017年
- 针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。
- 刘汇丹洪锦玲诺明花吴健
- 关键词:拼写检查藏文信息处理中文信息处理
- 基于关联度的汉藏多词单元等价对抽取方法被引量:1
- 2012年
- 针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。
- 诺明花刘汇丹吴健丁治明
- 关键词:藏文信息处理
- ISCAS机器翻译系统与评测技术报告
- 本文介绍了中国科学院软件所基础软件国家工程研究中心多语言信息处理研究室参加CWMT2011机器翻译评测任务的情况。本次评测,我们主要参加了藏汉政府公文领域以及汉英新闻领域两个子任务,本文主要介绍我们此次参与评测的系统框架...
- 熊维王震于新刘汇丹诺明花马龙龙张立强洪锦玲吴健
- 关键词:机器翻译
- 传统蒙古文“同形不同码”问题研究
- 2015年
- 设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出相同的字形。系统根据倒排索引、同形词列表统计出语料中传统蒙古文同形不同码的情况。实验结果显示,同形不同码问题在传统蒙古文中普遍存在,反映出了制定相关标准的迫切性。
- 安波诺明花吴健刘汇丹马龙龙
- 关键词:爬虫倒排索引语料库
- 双语对齐语料的加工方法及装置
- 本发明提供一种双语对齐语料的加工方法及装置,涉及机器翻译技术领域,用于解决现有技术中双语对齐语料加工方法效率低下的问题。所述方法包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文...
- 刘汇丹龙从军诺明花安波吴健
- 文献传递
- 基于关联度的汉藏多词单元等价对抽取方法
- 针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,本文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束汉藏多词单元等价对。CMWEPM模型根据...
- 诺明花刘汇丹吴健丁治明
- 关键词:藏文信息处理
- 文献传递
- 一种解决文件名乱码问题的ZIP文件解压缩方法
- 本发明提供一种解决文件名乱码问题的ZIP文件解压缩方法,包括以下步骤:根据当前操作系统使用的字符集编码确定目标编码;提取一文件名;根据提取的文件名确定源编码;如源编码与目标编码不相同,则将符合源编码的编码规则的文件名转换...
- 刘汇丹诺明花吴健芮建武贺也平刘奎恩
- 文献传递
- SegT:一个实用的藏文分词系统被引量:25
- 2012年
- 在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
- 刘汇丹诺明花赵维纳吴健贺也平
- 关键词:藏文分词格助词词频统计藏文信息处理中文信息处理
- Web藏文文本资源挖掘与利用研究被引量:6
- 2015年
- 该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
- 刘汇丹诺明花马龙龙吴健贺也平
- 关键词:WEB文本挖掘信息抽取藏文信息处理中文信息处理