扎西吉
- 作品数:3 被引量:10H指数:2
- 供职机构:青海师范大学计算机学院更多>>
- 发文基金:教育部“春晖计划”国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 藏语判断句的句法结构树构建方法被引量:3
- 2017年
- 句法分析的研究一直是中文信息处理的重要领域,也是自然语言处理中一个重要的基础性任务.在机器翻译、信息抽取、语义检索和问答系统等很多的领域都有着广泛的应用前景,并且对句法分析提出了迫切的需求.因此,文章通过分析藏语判断句的特征,构造了其句法树生成规则,并通过PCFG解决句法歧义问题,即从歧义中选择概率最大的句法结构,最后通过CYK算法进行解码自动生成判断句句法结构树.
- 扎西吉才智杰拉玛扎西
- 关键词:NLPPCFG
- 藏文紧缩格识别方法被引量:6
- 2019年
- 分词是自然语言处理的一项基础性工作,对自然语言处理的后继工作有较大的影响。紧缩格的识别是藏文分词中最难、最重要的技术之一。通过剖析已有藏文紧缩词识别方法,分析藏文字词的特征,针对性地提出了识别藏文紧缩格的规则算法、添加—还原算法和最大熵模型的特征模板,从而得到基于规则、添加还原法与最大熵模型相结合的藏文紧缩格识别方法。实验数据表明,该方法识别藏文紧缩格的准确率、召回率和F1值分别达99. 26%、96. 47%、97. 85%,比现有最高的准确率有了较明显的提高。
- 拉玛扎西才智杰扎西吉
- 关键词:藏文自然语言处理分词
- 一种藏语语料网页数据的采集方法被引量:1
- 2017年
- 语料库是自然语言处理的基础,其建设方式从传统手工输入法转移到网页数据的采集。网页爬虫方法能够快速有效地从网页上获取大量的藏文网页文本信息。本文给出了一种藏语网页爬虫算法及URL的广度优先遍历选取策略,为藏语语料库的建设、藏文搜索引擎、网页信息提取等提供了理论基础。
- 扎西吉才智杰
- 关键词:语料库深度优先遍历