国家高技术研究发展计划(2012AA011102)
- 作品数:34 被引量:270H指数:10
- 相关作者:周国栋刘挺秦兵李艳翠孙静更多>>
- 相关机构:苏州大学哈尔滨工业大学河南科技学院更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 利用扩展标记集的词结构分析被引量:2
- 2014年
- 该文给出了一种与传统分词不同的词法分析选择,提出了一种利用扩展标记集来实现词内部结构分析的方法。首先阐述了词的内部结构特点,把结构中的前后缀视为特殊的词,进而通过识别出每一个词的前后缀来识别词的内部结构。方法是把词内部结构识别问题转换成序列标注问题,通过扩展标记集,采用CRF模型来实现词的内部结构分析。最终实验表明,无论是在总体性能上,还是在各层结构的识别上都取得了较高的准确度。
- 孙静方艳丁彬周国栋
- 基于表示学习的中文分词算法探索被引量:34
- 2013年
- 分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。
- 来斯惟徐立恒陈玉博刘康赵军
- 关键词:中文分词
- 基于中文拼音输入法数据的汉语方言词汇自动识别被引量:1
- 2013年
- 方言研究领域中的语音研究、词汇研究及语法研究是方言研究的三个重要组成部分,如何识别方言词汇,是方言词汇研究首要的环节。目前,汉语方言词汇研究的语料收集与整理主要通过专家人工整理的形式进行,耗时耗力。随着信息技术的发展,人们的交流广泛通过网络进行,而输入法数据包含海量的语料资源以及地域信息,可以帮助进行方言词汇语料的自动发现。然而,目前尚没有文献研究如何利用拼音输入法数据对方言词汇进行系统化分析,因此在本文中,我们探讨借助中文输入法的用户行为来自动发现各地域方言词汇的方法。特别的,我们归纳得到输入法数据中表征方言词汇的两类特征,并基于对特征的不同组合识别方言词汇。最后我们通过实验评价了两类特征的不同组合方法对方言词汇识别效果的影响。
- 张燕张扬孙茂松
- 关键词:中文拼音输入法
- 中文篇章级句间关系自动分析被引量:6
- 2015年
- 篇章级句间关系分析包括语义单元的切分和各个单元之间的语义关系识别.已有的研究主要面向英文,到目前为止,尚无可用的中文篇章级句间关系自动分析系统发布.在中文篇章关系语料库的基础上,首次实现面向中文的篇章级句间关系自动分析系统,包括语义单元切分、连词识别、显式语义关系识别以及隐式语义关系识别等.实验结果显示:该系统在显式句间关系识别上F-score为89.8%,隐式句间关系识别上F-score为55.5%.
- 姬建辉张牧宇秦兵刘挺
- 关键词:语义单元
- 基于HNC概念关联性的领域判定研究被引量:3
- 2013年
- 在概念层次网络理论中,领域是语境单元的一个要素,而领域判定是语境单元萃取的重要课题之一。该文提出一种利用领域概念以及概念关联式进行领域判定的方法,通过在概念基元层面进行频数统计、概念合并及概念汇总实现领域的判定。对政治、经济、军事三个领域的语料进行测试,结果表明,使用概念关联式能够改进领域判定的效果,其F1值分别达到90.61%、90.83%、90.99%,比不使用概念关联式的情况分别提高了7.7%、12.76%、5.01%。最后,与基于关键词方法的对比结果也显示使用概念基元的方法效果较好。
- 池哲洁张全
- 基于众包的词汇联想网络的获取和分析被引量:6
- 2013年
- 词典是汉语自然语言处理中非常重要的一类资源,它能为汉语词法句法以及语义分析等提供资源支撑。该文采用众包方法构建汉语语义相关性词典,该词典是通过触发词联想的方式间接获取的,因此又称为词汇联想网络。词汇联想网络相比传统词典具有以下特点:(1)获取代价低;(2)面向互联网,易扩展;(3)词语关系从人的认知角度来建立,符合人的直觉。该文详细介绍词汇联想网络的获取方法并对已获取的数据进行分析,另外,将词汇联想网络与《知网》、《同义词词林》以及微博文本ngram进行比较说明其上述特点。
- 丁宇车万翔刘挺张梅山
- 关键词:众包
- 基于有监督学习方法的多文档文本情感摘要被引量:3
- 2014年
- 该文研究有监督学习方法在多文档文本情感摘要中的应用。利用从亚马逊中文网和亚马逊英文网上收集的产品评论语料,抽取文本内特征、PageRank特征、情感特征和评论质量特征,基于有监督方法进行多文档文本情感摘要抽取。实验结果表明有监督学习方法比无监督学习方法在ROUGE值上有显著的提高,情感特征和评论质量特征均有助于文本情感摘要。
- 李艳翠林莉媛周国栋
- 关键词:情感特征有监督学习最大熵分类器
- 汉语篇章连接词识别与分类被引量:7
- 2015年
- 基于自建的汉语篇章结构语料库以及语料库中连接词和连接词关系类别的标注,抽取自动句法树和标准句法树的句法、词法和位置特征,利用有监督的方法进行连接词识别和分类。实验结果表明,连接词识别的F1值为69.2%,连接词自动识别并分类的总正确率为89.1%。
- 李艳翠孙静周国栋
- 关键词:汉语篇章
- 中文文本中评价对象省略识别方法被引量:1
- 2015年
- 为了研究中文情感文本中评价对象省略现象的识别方法,将评价对象省略识别建模为一个二元分类问题,利用机器学习算法进行自动学习。探讨当前句位置无关特征、当前句位置相关特征和上下文相关特征对评价对象省略识别的作用。3个不同领域的实验结果表明,新提出的基于机器学习的评价对象省略识别方法能够获得较好的识别效果。
- 朱珠汪蓉李寿山周国栋
- 关键词:情感分析评价对象抽取
- 基于逗号的汉语子句识别研究被引量:22
- 2013年
- 根据篇章分析的任务和实践,结合传统研究,提出汉语的基本篇章单位为子句,并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系,并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息,在标注结果中抽取句法、词汇、长度等特征进行实验,子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征,使用它们也可获得较高的子句识别准确率。最后仅使用词法信息,子句识别准确率可达84.5%。实验证明子句的定义合理,基于逗号的子句识别在理论上和实验上均可行。
- 李艳翠冯文贺周国栋朱坤华
- 关键词:逗号