才智杰
- 作品数:67 被引量:192H指数:8
- 供职机构:青海师范大学计算机学院更多>>
- 发文基金:国家社会科学基金国家自然科学基金教育部“春晖计划”更多>>
- 相关领域:自动化与计算机技术语言文字文化科学电子电信更多>>
- 藏文词向量表示关键技术研究
- 语言单元的向量表示是机器学习的基础性工作,其目标是以优化的向量表示语言单元,以便计算机能够更好地理解自然语言。近年来,随着神经网络技术的发展,向量表示在自然语言处理领域发挥了重要的作用。英、汉等语言的词、句子和文档表示取...
- 才智杰
- 关键词:自然语言处理神经网络藏文
- 文献传递
- 藏语判断句的句法结构树构建方法被引量:3
- 2017年
- 句法分析的研究一直是中文信息处理的重要领域,也是自然语言处理中一个重要的基础性任务.在机器翻译、信息抽取、语义检索和问答系统等很多的领域都有着广泛的应用前景,并且对句法分析提出了迫切的需求.因此,文章通过分析藏语判断句的特征,构造了其句法树生成规则,并通过PCFG解决句法歧义问题,即从歧义中选择概率最大的句法结构,最后通过CYK算法进行解码自动生成判断句句法结构树.
- 扎西吉才智杰拉玛扎西
- 关键词:NLPPCFG
- 藏语文语转换系统的开发研究
- 语音合成技术是信息处理领域的一项前沿技术,实现人机语音通信,将任意的文本转换成自然流畅的语音输出。藏语语音合成的研究刚刚起步,本文将给出藏语语音合成技术中文语转换(Text-To-Speech) 系统的设计方法和系统模块...
- 才智杰
- 关键词:藏文信息处理语音合成人工智能
- 基于判别式分类和重排序技术的藏文分词被引量:9
- 2014年
- 本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响。在构词粒度方面,分别考察了以基本字丁、基本字丁-音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构词粒度分词的F值最高,为91.21%;在分词结果重排序方面,提出一种基于词图的最短路径重排序策略,将判别式解码生成的切分结果压缩为加权有向图,图中节点表示音节间隔,而边所覆盖的音节作为候选切分并赋予不同权重,选择一条最短路径从而实现整句切分,最终分词结果的F值达到96.25%。
- 孙萌华却才让才智杰姜文斌吕雅娟刘群
- 关键词:判别式藏文分词
- 藏文字自动生成技术研究
- 2017年
- 字是语言文字的基本组成单位,文字自动生成是自然语言处理的基础,为自然语言处理中字属性分析、输入法设计、排序、语音处理和藏文字符信息熵研究等提供理论数据。文章在分析藏文字结构的基础上归纳了藏文构字规则,并以藏文字的核心字符基字的竖直方向上所含成分将藏文字分成了8个大类,对不同类型藏文字分析了其生成模型及生成算法,经测试可自动生成符合现代藏文文法的所有现代藏文字。
- 才智杰孙茂松才让卓玛
- 关键词:中文信息处理自动生成
- 现代藏文字构件分解系统
- 才智杰才让卓玛才让加柔特才藏太华却才让尖木措尚麻王宁芳胡枫
- “现代藏文字构件分解系统”研究了藏文信息处理领域中藏文字构件分解问题,该系统设计理念先进、研究方法科学、操作性强,分解准确可靠。该课题为分析、统计藏文字各部件出现的频率、分布规律和构成藏文字部件数等特征提供了技术支持。该...
- 关键词:
- 关键词:机器翻译系统
- 藏汉英电子词典的开发研究被引量:8
- 2005年
- 本文通过分析藏汉英电子词典的体系结构。
- 才智杰
- 关键词:互译
- 一种基于八词位标签的BiLSTM_CRF藏文分词方法
- 2024年
- 藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集,采用BiLSTM_CRF模型得到一种基于八词位标签的BiLSTM_CRF藏文分词方法。实验结果表明,该方法取得较好的分词效果,在测试数据集上的准确率、召回率和F1值分别达95.07%、95.57%和95.32%。
- 常芳玉才智杰
- 关键词:藏文分词
- 一种高质量藏文自动问答数据集的构建方法
- 本发明涉及藏文自动问答技术领域,提供一种高质量藏文自动问答数据集的构建方法,包括以下步骤:1)语料收集整理;2)句法描述处理;2.1)预处理;2.2)词法分析;2.3)句法分析;3)句子模板构建;4)问句模板构建;5)数...
- 才智杰 张洪溪
- 一种基于向量模型的藏文字拼写检查方法被引量:12
- 2018年
- 自动拼写检查是自然语言处理领域一项极具挑战性的研究课题,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。藏文字是一种表音拼音文字,由1~7个基本构件横向和纵向拼接而成。藏文文本中非真字出现的频率很高,是藏文字拼写检查的基础和重点。该文通过分析藏文文法中的构字规则,利用藏文字向量模型将藏文字用计算机易于操作的数字(向量)表示,建立基于规则约束的藏文字向量模型,进而设计该模型下的藏文字拼写检查模型及算法。算法简单易实现,经测试算法拼写检查的平均准确率达99.995%,平均每秒检查1 060个字。
- 才智杰孙茂松才让卓玛
- 关键词:自然语言处理向量模型拼写检查