桑海岩
- 作品数:3 被引量:6H指数:2
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 哈萨克语固定词组自动抽取
- 固定词组的结构很难用语法去描述,因为它的形成主要是在语言发展的过程中人们语言习惯等固定下来的信息。固定词组内部结构具有的不规则性特点给短语识别带来了很大的困难,造成了短语的结构歧义、多标记歧义等。本文基于统计方法在开放式...
- 桑海岩
- 关键词:哈萨克语固定词组信息抽取
- 文献传递
- 基于最大熵的哈萨克语词性标注模型被引量:4
- 2013年
- 最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。
- 桑海岩古丽拉.阿东别克牛宁宁
- 关键词:自然语言处理词性标注最大熵模型哈萨克语
- 基于排序集成的哈萨克语固定短语抽取
- 2014年
- 短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。
- 桑海岩古丽拉·阿东别克孙瑞娜陈莉
- 关键词:固定短语互信息似然比