国家自然科学基金(61163018)
- 作品数:12 被引量:47H指数:5
- 相关作者:才智杰才让卓玛孙茂松刘群赵海兴更多>>
- 相关机构:青海师范大学教育部陕西师范大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金教育部“春晖计划”更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于词对依存分类的藏语树库半自动构建研究被引量:8
- 2013年
- 依据依存句法理论,该文制订了藏语句法标注体系及层次结构。通过分析构建藏语依存树库中存在的问题,提出了半自动依存树库构建模式,针对藏语特性提出了融合丰富特征的词对依存分类模型和依存边标注模型,实现了依存树库构建可视化工具,校对构建了1.1万句藏语依存句法树后,在基线系统下经实验验证,依存识别正确率提高了3%,使构建藏语依存树库工作取得了有效进展。
- 华却才让姜文斌赵海兴刘群
- 一种基于TC_LSTM的藏文词拼写检查方法被引量:5
- 2020年
- 拼写检查能够快速检测文本错误,提高文本校对效率,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。该文在分析藏文拼写检查技术和语言模型的基础上,以藏文词拼写检查为目标,选用具有长远距离记忆功能的LSTM建立TC_LSTM语言模型,设计基于TC_LSTM的藏文词拼写检查算法。经测试,基于TC_LSTM语言模型的藏文词拼写检查取得了较好的效果。
- 华旦扎西才智杰班玛宝
- 关键词:自然语言处理拼写检查
- 藏文语料库深加工方法研究被引量:2
- 2012年
- 随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。结合973前期项目《藏文语料库分词标注规范研究》的开发经验,论述了班智达大型藏文语料库的建设,分词标注词典库和分词标注软件的设计与实现,重点讨论了词典库的索引结构及查找算法、分词标注软件的格词分块匹配算法和还原算法。
- 才藏太
- 关键词:分词词典
- 基于语料库的藏文字属性分析系统设计被引量:10
- 2011年
- 通过对藏语语料库的统计和现代藏文字结构的分析,研究现代藏文字属性分析系统的模型,设计基本构件字表库、组合构件字表库、粗粒度结构字表库及细粒度结构字表库,并阐述各字表库的结构特征,介绍藏文字属性分析算法。运用该算法及藏文字属性分析系统模型,解析现代藏文字的使用频度、结构、字长、构件分解、各构件的位置及频度等属性,从而为藏文键盘布局、藏文输入法研究、藏文搜索引擎、机器翻译和网络信息安全等提供理论依据。
- 才智杰才让卓玛
- 关键词:中文信息处理
- 藏文字符的向量模型及构件特征分析被引量:6
- 2016年
- 藏文字属性分析是藏文信息处理的一项基础性工作,对藏文信息处理的研究和藏语文教学具有重要的参考价值及指导意义。藏文字是一种特殊的拼音文字,由1~7个基本构件横向和纵向拼接而成。因而藏文字符的属性包括其组成的构件及其构件的位置特征,以及藏文字的使用频度、结构、字长等属性特征。该文通过分析藏文字的结构,分别建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,并在向量模型和稀疏域模型上研究了藏文字符的构件特征。
- 才智杰才让卓玛
- 关键词:中文信息处理向量模型
- 电子政务安全隐患与安全体系分析被引量:4
- 2012年
- 针对当前电子政务面临的各种安全隐患,通过分析影响电子政务发展的主要安全问题,提出安全技术和安全管理相结合的电子政务安全体系模型。此安全体系具有良好可扩展性和先进性,对电子政务系统的开发具有一定的理论和现实意义。
- 才让卓玛才智杰卓玛吉
- 关键词:电子政务安全技术安全管理安全隐患网络安全
- 一种多基元联合训练的藏文词向量表示方法被引量:3
- 2020年
- 词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。
- 才智杰才让卓玛才让卓玛
- 关键词:自然语言处理藏文
- 藏文词向量表示关键技术研究
- 语言单元的向量表示是机器学习的基础性工作,其目标是以优化的向量表示语言单元,以便计算机能够更好地理解自然语言。近年来,随着神经网络技术的发展,向量表示在自然语言处理领域发挥了重要的作用。英、汉等语言的词、句子和文档表示取...
- 才智杰
- 关键词:自然语言处理神经网络藏文
- 文献传递
- 基于WordNet的藏文语义词典半自动构建方法研究被引量:3
- 2014年
- 语义词典是人工智能、语义网与知识工程等研究领域的热点,它可以支持机器学习、自然语义理解、数据挖掘及机器翻译等技术。文章在藏语独特的文法理论研究基础上,利用对比英文和藏文词之间的语义关系、构建双语大型数据库和制定映射过程中词汇空缺等方法,构建了基于半自动匹配的藏文语义词典。本语义词典既兼容了国际通用的英文WordNet,又保留了藏语的特点,为藏文信息处理提供了重要的数据资源。
- 柔特
- 关键词:半自动WORDNET
- 基于语料库的藏语高频词抽取研究被引量:3
- 2012年
- 在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。
- 才让卓玛才智杰
- 关键词:信息处理高频词自动分词语料库