您的位置: 专家智库 > >

国家自然科学基金(60963017)

作品数:7 被引量:16H指数:2
相关作者:田生伟禹龙冯冠军黄俊翟献民更多>>
相关机构:新疆大学更多>>
发文基金:国家自然科学基金国家社会科学基金博士科研启动基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇期刊文章
  • 2篇会议论文

领域

  • 7篇自动化与计算...
  • 2篇语言文字

主题

  • 6篇维吾尔
  • 6篇维吾尔语
  • 2篇语料
  • 2篇语料库
  • 2篇随机场
  • 2篇条件随机场
  • 2篇互信息
  • 1篇代表点
  • 1篇信道
  • 1篇有限状态自动...
  • 1篇语料库构建
  • 1篇噪声
  • 1篇噪声信道
  • 1篇正文提取
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇冗余
  • 1篇树库
  • 1篇双语
  • 1篇双语平行语料...

机构

  • 9篇新疆大学

作者

  • 7篇田生伟
  • 4篇禹龙
  • 3篇冯冠军
  • 2篇吐尔根·依布...
  • 1篇梁建飞
  • 1篇阿布都热依木...
  • 1篇黄俊
  • 1篇姜子进
  • 1篇翟献民
  • 1篇早克热·卡德...
  • 1篇钟军
  • 1篇高阳

传媒

  • 2篇计算机应用与...
  • 2篇计算机应用
  • 1篇计算机工程
  • 1篇现代图书情报...
  • 1篇新疆大学学报...

年份

  • 5篇2012
  • 2篇2011
  • 2篇2010
7 条 记 录,以下是 1-9
排序方式:
基于CRFs自动构建维吾尔语情感词语料库被引量:6
2011年
提出维吾尔语情感语料库的构建规范,设计和实现维吾尔语情感语料库辅助整理系统。该系统结合维吾尔语情感语料的具体特点,多方面分析维吾尔语情感词汇的特征,利用条件随机场(CRFs)模型进行维吾尔语情感词汇的自动识别。测试结果验证该系统能够大幅度降低人工劳动,高效快速地标注维吾尔语情感词语料。
冯冠军禹龙田生伟
关键词:维吾尔语语料库构建
Web环境下自动获取汉、维语料库被引量:1
2011年
句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页。提取出有正文的网页,根据html特征,建立html树,提出一种将html树结构作为识别网页正文内容重要特征的网页分析方法,并根据正文内容信息相似性提取网页正文。对提取出的正文进行句子切分,分别创建句子级的汉、维语料库,为以后创建句子级的汉维双语平行语料库服务。
姜子进吐尔根.依布拉音赛依旦.阿不力米提田生伟
关键词:双语平行语料库正文提取
维吾尔语句法树库标注体系
本文通过研究国内外相关的句法树库标注体系建设理论,再结合维吾尔语自身的特点,制定了维吾尔语句法树库标注体系规范,该标注体系包含两个标注集:功能语块标记集及短语标注标记集,在此基础上,采用了人工标注与自动标注相结合的方式完...
阿布都热依木·热合曼艾山·吾买尔吐尔根·依布拉音帕里旦·吐尔逊哈里旦木·阿布都克里木
关键词:维吾尔语
文献传递
基于混合策略的维吾尔语名词词干提取系统
本文对维吾尔语名词形态结构进行研究,并构造了名词有限状态自动机(FSM),然后针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,最后根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处...
早克热·卡德尔艾山·吾买尔吐尔根·依布拉音帕里旦·吐尔逊买热哈巴·艾力
关键词:维吾尔语有限状态自动机噪声信道词干提取最大熵
文献传递
汉维主题网页自动获取技术的研究被引量:2
2012年
为了获得大量用于机器翻译研究的汉维(维吾尔)文语料,提出一种从网页中自动获取主题信息的方法。考虑到有主题网页中主题信息分布相对集中、文本密度较高,并且这类网页中大量的噪音信息是由链接引入的,提出的算法首先将链接分为噪音链接和非噪音链接,并在源码中删除噪音链接的锚文本和非噪音链接的HTML标签,然后利用容器标签将源码划分为若干部分并删除文本长度和文本密度均小于各自阈值的源码块。针对汉维网页做了实验,实验结果表明,算法在设置合适的阈值的情况下良好率达到90%以上。
梁建飞吐尔根.依布拉音田生伟赛依旦.阿不力米提
关键词:主题信息
Web文本中维吾尔语领域术语的自动发现被引量:1
2012年
针对维吾尔语领域术语获取难度大,人工扩充领域术语工作量大、效率低等特点,利用词汇共现原理,以维吾尔语连接词和互信息(MI)为工具,快速扩充原始维吾尔语领域术语;建立了以维吾尔语领域术语为特征模板,利用条件随机场(CRF)模型实现Web文本中维吾尔语领域术语的自动发现方法,并在此基础上实现长维吾尔语领域术语的自动发现。实验表明,对短维吾尔语领域术语的自动发现准确率为97.59%,召回率为93.38%,对长维吾尔语领域术语的自动发现正确率达到55.72%。
钟军田生伟禹龙
关键词:维吾尔语互信息条件随机场
面向维吾尔语文本的改进后缀树聚类被引量:2
2012年
针对后缀树聚类选取基类时,基类短语出现信息不规范、重复和冗余的问题,提出了一种改进后缀树聚类算法。该算法首先以短语互信息算法改进基类的选取,选出遵守维吾尔语语法规则的基类短语;然后,利用短语归并算法对选取的重复基类短语进行归并;最后,在前两步的工作基础上,利用短语去冗余算法处理冗余的基类短语。实验证明,与传统后缀树聚类(STC)相比,改进后缀树聚算法的全面率、准确率都得到了提高。这表明,改进算法有效地改善了聚类效果。
翟献民田生伟禹龙冯冠军
关键词:维吾尔语后缀树互信息冗余
非平衡语料下改进的SVM-KNN算法被引量:1
2012年
结合SVM和KNN方法改进而成的SVM-KNN分类器,较SVM在准确度上有较大提高.但在处理非平衡语料时,性能反而不如SVM分类器.其基本原理如下:对距超平面较远的数据,SVM-KNN使用SVM进行分类,较近的用KNN分类器.因KNN分类器对包含较多数据的类有偏向性,使得SVM-KNN的分类性能大幅降低.本文就这一缺点提出了改进的方法:在KNN分类的部分,统计出每个类对应的支持向量的数目,加入以支持向量数目的权重进行惩罚,使得偏向性得以校正,F-measure值有较大提高.
高阳田生伟吐尔根.依不拉音
关键词:支持向量机最近邻分类
基于维吾尔语情感词的句子情感分析被引量:5
2012年
提出基于自动标注的维吾尔语情感词分析句子情感的方法。将8种情感类别作为情感类别集合。判断句子中是否含有转折性连词,若有则屏蔽含有转折性连词句子的前半部分,通过条件随机场模型自动标注句子中的情感词,依据标注的情感词,为句子的每种情感类别打分,得分最高的情感类型作为句子的候选情感。识别句中维语的否定成分,根据否定成分出现的奇偶次数对句子的候选情感修正,得到句子的最终情感类型。实验结果表明,在句子情感分析上该方法可取得较好的效果。
黄俊田生伟禹龙冯冠军
关键词:维吾尔语条件随机场模型
共1页<1>
聚类工具0