您的位置: 专家智库 > >

王瑞波

作品数:21 被引量:96H指数:7
供职机构:山西大学计算机与信息技术学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金更多>>
相关领域:自动化与计算机技术理学更多>>

文献类型

  • 18篇期刊文章
  • 1篇会议论文

领域

  • 17篇自动化与计算...
  • 4篇理学

主题

  • 5篇语义
  • 4篇随机场
  • 4篇条件随机场
  • 4篇汉语
  • 3篇语义角色
  • 3篇语义角色标注
  • 3篇正交
  • 3篇正交表
  • 3篇色标
  • 3篇排歧
  • 3篇中文
  • 3篇最大熵
  • 3篇最大熵模型
  • 3篇角色标注
  • 2篇信息处理
  • 2篇神经网
  • 2篇神经网络
  • 2篇随机场模型
  • 2篇条件随机场模...
  • 2篇中文信息

机构

  • 19篇山西大学
  • 7篇太原工业学院

作者

  • 19篇王瑞波
  • 17篇李济洪
  • 11篇李国臣
  • 2篇杨杏丽
  • 2篇李茹
  • 2篇张晟
  • 2篇张力文
  • 1篇张娜
  • 1篇赵存秀
  • 1篇宋毅君
  • 1篇杨静
  • 1篇吕雷
  • 1篇王钰
  • 1篇王凯华
  • 1篇王蔚林
  • 1篇杜伟杰
  • 1篇高亚慧
  • 1篇张帅
  • 1篇杨耀文
  • 1篇刘展鹏

传媒

  • 9篇中文信息学报
  • 3篇太原师范学院...
  • 2篇中北大学学报...
  • 1篇计算机研究与...
  • 1篇南京大学学报...
  • 1篇应用概率统计
  • 1篇软件学报

年份

  • 3篇2017
  • 2篇2016
  • 2篇2015
  • 4篇2014
  • 3篇2013
  • 1篇2011
  • 2篇2010
  • 1篇2009
  • 1篇2008
21 条 记 录,以下是 1-10
排序方式:
基于条件随机场模型的汉语功能块自动标注被引量:8
2010年
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.
李国臣王瑞波李济洪
关键词:条件随机场模型句法分析
一种均衡的RHS交叉验证被引量:2
2015年
在统计机器学习中,交叉验证方法利用对一个数据集的多次切分,来构造多次重复实验,并以此估计机器学习模型的预测误差.然而交叉验证估计的稳定性与数据集的切分方式有着密切的关系.也就是说,不同的切分方式会导致训练集中所含共同样本的个数不同,当共同样本较多时,交叉验证估计具有较大的方差.为此构造了一种均衡的RHS(Repeated Half-sampling)交叉验证,使得训练集所含共同样本的个数的总和最小,并且任意两个切分之间的共同样本个数保持均衡,进而降低泛化误差估计的方差,进而有效地提高泛化误差估计的稳定性.从理论上证明了6次均衡的RHS交叉验证估计的方差小于组块3×2交叉验证,并且进一步通过模拟实验验证这一结论.同时,从实验结果可以说明6次均衡的RHS交叉验证估计的方差小于随机RHS交叉验证估计的方差.进一步,在真实数据集上大量的实验验证了这些结论.
杨静王瑞波李济洪
关键词:泛化误差
汉语框架自动识别中的歧义消解被引量:10
2011年
该文研究了汉语框架自动识别中的歧义消解问题,即对给定句子中的目标词,基于其上下文环境,从现有的框架库中,为该目标词自动标注一个合适的框架。该文将此任务看作分类问题,使用最大熵建模,选用词、词性、基本块、依存句法树上的若干特征,并使用开窗口技术和BOW策略,以目前汉语框架语义知识库中的88个词元的2 077条例句为训练、测试语料,进行了3-fold交叉验证实验,最好结果取得69.28%的精确率(Accuracy)。
李济洪高亚慧王瑞波李国臣
关键词:框架语义最大熵模型
融合分词隐层特征的汉语基本块识别
2016年
该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现了以整句似然函数(而非单字似然函数)作为优化目标的算法。实验结果表明:1)以整句似然函数为优化目标的基本块识别的F值比单字似然情形要高出1.33%,特别是在多字块识别中,其召回率比单字似然情形要高出4.68%;2)融合分词任务模型中的隐层特征的汉语基本块识别模型的结果比不做融合的模型要高出2.17%,说明融合分词隐层特征的交替联合学习方法是有效的。
李国臣刘展鹏王瑞波李济洪
关键词:神经网络模型
交叉验证中类别切分不均衡对分类性能的影响分析被引量:3
2013年
交叉验证被广泛应用于模型的泛化误差估计,特别是2折交叉验证在分类模型比较中得到广泛的应用.主要针对Logistic分类回归模型采用2折交叉验证的不同切分方法且特征(自变量)取值均为0,1时对模型性能的影响进行了模拟.结果表明,当2折交叉验证的两份数据中的类别分布相同或相近时,准确率、召回率、F值及精确率的2折交叉验证估计的偏差最小,且估计的偏差随着2折交叉验证中类别的差异增加而增加.当2折交叉验证中数据的类别分布相差较大时,模型性能的估计明显地变差.因此,采用交叉验证切分数据时,应尽量保持每份数据的类别分布与总体一致.
赵存秀王瑞波李济洪
基于词分布式表征的汉语框架排歧模型被引量:6
2017年
框架排歧是根据句子中目标词的上下文语境,从框架库中为该目标词自动选择一个合适的框架。该任务在一定程度上解决了动词中一词多义的现象。该文基于词语及句子的分布式表征,提出了基于距离和基于词语相似度矩阵的框架排歧模型。与传统方法相比,该模型有效避免了人工选择特征,克服了特征空间维度过高、特征之间没有关联性等缺点,使框架排歧的准确率达到65.71%。并与当前最好的模型,进行显著性和一致性检验,进一步验证了词分布式表征对框架排歧任务的有效性。
张力文王瑞波李茹李茹
汉语框架语义角色的自动标注被引量:40
2010年
基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.
李济洪王瑞波王蔚林李国臣
关键词:语义角色标注正交表条件随机场
基于同义词词林信息特征的语义角色自动标注被引量:7
2016年
该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。
李国臣吕雷王瑞波李济洪李茹
关键词:语义角色标注同义词词林条件随机场正交表
基于词分布式表征的汉语框架排歧模型
框架排歧是根据句子中目标词的上下文语境,从框架库中为该目标词自动选择一个合适的框架.该任务在一定程度上解决了动词中一词多义的现象.本文基于词语及句子的分布式表征,提出了基于距离和基于词语相似度矩阵的框架排歧模型.与传统方...
张力文王瑞波李茹张晟
关键词:汉语词汇
基于词分布表征的汉语框架排歧研究被引量:4
2015年
框架排歧目的在于根据句子中目标词的上下文环境,从现有的框架库中为该目标词自动标注一个合适的框架.将框架排歧任务看作分类问题,首次将词的低维分布表征信息作为模型特征引入到汉语框架排歧研究中,来探讨仅从词特征出发,不同的特征表示对框架排歧模型的影响.实验选取了88个词元中2 077条例句为数据集,并将目标词周围的词分布表征信息加入到最大熵算法中进行建模.实验结果表明,使用词分布表征信息的框架排歧模型可以达到58.11%的精度,该结果与传统的仅使用词特征时(47.47%)的结果相比有大幅度提高.这说明词分布表征对汉语框架排歧任务是有重要作用的.
党帅兵李国臣王瑞波李济洪
关键词:最大熵模型
共2页<12>
聚类工具0