您的位置: 专家智库 > >

桑海岩

作品数:3 被引量:6H指数:2
供职机构:新疆大学信息科学与工程学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文

领域

  • 3篇自动化与计算...

主题

  • 3篇哈萨克语
  • 2篇抽取
  • 1篇短语
  • 1篇短语抽取
  • 1篇信息抽取
  • 1篇语言处理
  • 1篇似然比
  • 1篇自动抽取
  • 1篇自然语言
  • 1篇自然语言处理
  • 1篇最大熵
  • 1篇最大熵模型
  • 1篇互信息
  • 1篇固定词组
  • 1篇固定短语
  • 1篇词性
  • 1篇词性标注
  • 1篇词组
  • 1篇C-VALU...

机构

  • 3篇新疆大学
  • 1篇新疆财经大学

作者

  • 3篇桑海岩
  • 1篇古丽拉·阿东...
  • 1篇孙瑞娜
  • 1篇陈莉
  • 1篇牛宁宁

传媒

  • 2篇计算机工程与...

年份

  • 1篇2014
  • 2篇2013
3 条 记 录,以下是 1-3
排序方式:
哈萨克语固定词组自动抽取
固定词组的结构很难用语法去描述,因为它的形成主要是在语言发展的过程中人们语言习惯等固定下来的信息。固定词组内部结构具有的不规则性特点给短语识别带来了很大的困难,造成了短语的结构歧义、多标记歧义等。本文基于统计方法在开放式...
桑海岩
关键词:哈萨克语固定词组信息抽取
文献传递
基于最大熵的哈萨克语词性标注模型被引量:4
2013年
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。
桑海岩古丽拉.阿东别克牛宁宁
关键词:自然语言处理词性标注最大熵模型哈萨克语
基于排序集成的哈萨克语固定短语抽取
2014年
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。
桑海岩古丽拉·阿东别克孙瑞娜陈莉
关键词:固定短语互信息似然比
共1页<1>
聚类工具0