完么扎西
- 作品数:14 被引量:31H指数:3
- 供职机构:青海师范大学民族师范学院更多>>
- 发文基金:国家社会科学基金长江学者和创新团队发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 融合依存句法的深度学习藏语句子分割研究
- 2022年
- 藏语句子分割是藏语自然语言处理中的一项重要且基础性的研究工作。该文根据藏语句子结构特征,在分析藏语句子分割规则与难点的基础上,提出一种融合依存句法的藏语句子分割模型。该模型首先通过词嵌入和藏语依存句法信息嵌入将输入序列映射成实值向量;然后构建融合藏语依存句法的双向LSTM,拼接词语和句法信息特征,提高上下文时序特征的学习能力;最后利用CRF预测出最佳句子分割点。通过对比实验,验证了该模型对藏语句子分割的有效性。实验结果表明,该模型的F_(1)值为99.4%。
- 头旦才让仁青东主尼玛扎西完么扎西完么扎西
- 关键词:藏语
- 现代藏语数量短语的句法语义规则研究被引量:1
- 2021年
- 数量短语作为表达“量”范畴的基本语法手段,是人们认识世界、表达世界的概念之一。文章通过对藏语语料的统计和分析,归纳了藏语数量短语的两种语法结构,并采用基于特征结构和合一运算的短语结构语法对两种结构的整体性质和内部组合情况进行了分析和研究,总结并归纳了15条句法语义规则。这种可计算并形式化的藏语言知识在藏语句法语义分析、藏语机器翻译、藏语自然语言理解等领域有着非常重要的利用价值。
- 完么扎西
- 关键词:语法结构句法功能
- 现代藏语信息熵的估算及语言模型的复杂度
- 2020年
- 本文将信息论的方法引入藏文信息处理技术研究领域,采用一种基于统计语言模型的信息熵估计方法,在300多万(音节)字的藏语单语语料规模上,对不同藏语语言模型估算了信息熵及其复杂度。
- 完么扎西
- 关键词:统计语言模型信息熵复杂度
- 基于统计的汉藏机器翻译系统关键技术研究与实现被引量:5
- 2018年
- 随着统计机器学习方法的迅速普及,机器翻译技术有了突飞猛进的进展,但是目前基于汉藏两种语言的机器翻译系统研究还处于启蒙阶段。文章主要研究和扩充了已有的统计翻译模型,对藏文文法的特殊性进行了适当的处理,包括藏文动词的时态处理、动词及物性处理、格助词处理等;为解决平行语料不足导致的数据稀疏问题,对基于中介语言的词语翻译模型进行了改进,融合了基于中介语言的统计翻译模型和直接翻译模型;应用"少监督"的方法,改善了统计机器翻译模型训练过程的盲目性、低效性、冗余性和表面性等缺陷,并将这种方法加入到现有的训练过程得到改善的训练方法。
- 群诺群诺完么扎西嘎玛扎西
- 藏语句法分析系统的研究与实现
- 句法分析是自然语言处理(NaturalLanguageProcession,NLP)领域中的关键问题之一,同时它也是公认的一个研究难题,其主要任务是自动分析出句子的语法结构,也就是说,将一个线性序列的句子转换成一个结构化...
- 完么扎西
- 关键词:藏语信息处理词性标注句子边界识别
- 文献传递
- 藏语词语兼类情况及识别规则库
- 2014年
- 同其他语言一样藏语词性的兼类现象普遍存在,这给词性标注工作带来了巨大困难,对兼类词的处理是藏语词性标注的关键所在。文章利用传统和现代藏语语法理论,在分析藏语真实文本的基础上,归纳了藏语兼类词的种类,提出了兼类词的标注原则。并根据词语搭配关系和词的组合结构构建了兼类词的识别规则库,利用该规则库可对兼类词的词性进行较准确的标注。
- 完么扎西
- 关键词:藏文信息处理兼类词
- 藏语自动分词中的数词识别方法研究
- 2015年
- 藏语自动分词技术是藏语自然语言处理的基础。文章通过分析藏语真实文本中的数词分类、数词词形以及数词结构等,提出了一种基于规则的识别方法。文章中的藏语数词识别思想为:在自动分词过程中,通过判断待切分的词(w)i和已切分的词(wi-1)来重新组合。经对小学一至六年级的数学藏文版教材及1500个含各类数词的句子语料进行测试后,数词的识别准确率达97.7%。
- 完么扎西尼玛扎西
- 藏语句子边界识别方法被引量:8
- 2012年
- 藏语句子边界识别是一项重要的基础性工作,它的准确率直接影响藏语句法分析、汉藏(或藏汉)平行语料库和藏汉(或汉藏)机器翻译等的研究工作。文章通过分析藏文文法知识,提出了一种比较简单而实用的词性规则法,其主要思想是:单垂符或双垂符的前后词性来判断句子是否结束。经测试,文章提出的藏语句子边界识别方法在文学类、诗歌类、医学类和新闻类等536句藏语语料中句子边界的识别准确率达到96.37%。
- 马伟珍完么扎西尼玛扎西
- 基于规则与统计相结合的藏文文本自动查错方法研究被引量:2
- 2022年
- 针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法。首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错。实验测试集由100篇新闻类语料构成,共包含49处错误。实验表明,该文方法能有效发现非字错误和真字词错误,该方法的查错召回率达到83.7%,查错准确率达到70.7%,F值达到76.7%。
- 完么扎西尼玛扎西
- 现代藏文信息熵及其属性被引量:2
- 2017年
- 文章将信息论的方法引入藏文信息处理技术研究领域,利用统计的方法研究了以字符为单位和以音节字为单位的藏文信息熵。通过对275万多音节字的大规模藏语单语语料进行统计,给出了以字符为统计单位和以音节字为统计单位的现代藏文的熵,其值分别为4.17和8.21比特,并从信息论的角度证明了藏文具有拼音文字和音节字特征的双重属性。
- 完么扎西尼玛扎西