国家自然科学基金(60970014)
- 作品数:8 被引量:32H指数:3
- 相关作者:王素格李德玉陈红星贾俊芳吴苏红更多>>
- 相关机构:山西大学山西大同大学太原科技大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金山西省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Co-training训练CRF模型的评价对象识别被引量:1
- 2013年
- 评价对象是指某段评论中评价词语所修饰的对象或对象的属性。为了识别评论中的评价对象,提出基于Co-training的训练CRF模型方法。该方法首先人工标注少量的原始数据集,使用Co-training方式对未标注数据进行自动识别,以扩大已标注训练数据。通过原始标注数据集和Co-training方式标注数据集,训练CRF模型。在汽车领域中,对待标注汽车评论语料中评价对象识别的精确率为67.483%,召回率为67.832%。
- 张彩琴王素格乔磊
- 关键词:CRF模型CO-TRAINING
- Web环境下基于SOAOffice中间件的合同生成与数据抽取方案被引量:4
- 2012年
- 合同生成是合同管理系统中一个重要组成部分。通过分析以往Web环境下合同管理系统存在的缺陷,给出一种新的合同生成方法。本方法解决了以往合同管理系统存在的多个问题,将合同生成与合同管理有机地结合起来,实现了合同签订模板化、合同审批网络化、数据抽取自动化、合同管理高效化、准确化、标准化。这种方法是在设计合同生成及后期管理数据结构的基础上,制作各类word合同模板并通过SOAOffice中间件实现Web环境下数据抽取与组合,完成合同网上审批及管理功能。
- 剌奋华陈红星李德玉翟岩慧
- 关键词:数据抽取
- 一种有效的高维分类数据聚类方法研究被引量:2
- 2011年
- 随着数据规模的不断增大,提高K-modes聚类算法或模糊K-modes聚类算法的运行效率成为了一个重要问题.为了提高其算法执行效率,提出了一种基于分治法的高维分类数据聚类方法.该方法并不是一次性对所有的数据进行聚类,而是将分类数据集分成若干个子集,对每个子集同时进行聚类,最后对聚类结果进行融合以形成最终的聚类结果.实验结果表明大多数情况下较传统的方法在聚类的速度上有显著的提高.
- 贾俊芳李德玉
- 关键词:聚类分析模糊聚类分治法分类数据评价指标
- 文本褒贬倾向判别研究
- 2011年
- 在文本的向量空间表示模型下,针对文本褒贬倾向判别问题,提出了一种基于潜在语义分析的特征权重计算方法。除词频信息外,该方法考虑了潜在语义分析所提供的同义词、近义词信息对特征权重的影响。采用基于Fisher判别准则的特征选择方法,以支持向量机作为分类器,在2739篇语料(2008年中文倾向性分析评测)上进行了实验。实验结果表明,提出的特征权重计算方法对文本褒贬倾向判别是有效的。
- 李银花王素格
- 关键词:概率潜在语义分析FISHER判别准则支持向量机
- 基于概率潜在语义分析的词汇情感倾向判别
- 本文利用概率潜在语义分析,给出了两种用于判别词汇的情感倾向的方法。一种是使用概率潜在语义分析获得每个目标词和基准词之间的相似度矩阵,再利用投票法决定每个目标词的情感倾向;二是利用概率潜在语义分析对目标词进行语义聚类和扩展...
- 宋晓雷王素格李红霞
- 关键词:概率潜在语义分析数据稀疏语义聚类情感倾向
- 文献传递
- 基于依存关系的旅游景点评论的特征-观点对抽取
- 特征-观点对的抽取是观点挖掘中重要的研究课题之一,本文利用依存语法对句子的分析,研究了评论文本中特征-观点对的抽取。利用词对间的依存关系,构建了用于获取含情感倾向组块的规则以及候选评价对象的识别算法,在此基础上,设计了具...
- 吴苏红王素格
- 关键词:组块情感倾向
- 文献传递
- 基于依存关系的旅游景点评论的特征-观点对抽取被引量:17
- 2012年
- 特征—观点对的抽取是观点挖掘中非常重要的研究课题之一。该文首先利用依存语法对句子进行了依存分析,在此基础上研究了旅游评论文本中特征-观点对的抽取。利用词对间的依存关系,构建了获取含有特征和观点词语的组块规则,并设计了候选特征的识别算法和特征—观点对的抽取算法。该文对山西旅游景点评论语料进行了实验,结果表明,特征—观点对的抽取整体的F1值达到了87.10%,验证了方法的有效性。
- 王素格吴苏红
- 关键词:组块
- 基于BootStrapping的集成分类器的中文观点句识别方法被引量:8
- 2013年
- 领域相关的大规模和高质量的标注训练数据是分类器性能的重要保证,而标注训练语料是一件费时费力的工作。该文提出了一种采用小规模标注语料识别中文观点句的方法。首先采用Bootstrapping方法扩展训练语料,分别训练贝叶斯、支持向量机和最大熵分类器。最后,通过给三个训练好的分类器赋权获得一个集成分类器。实验结果表明,集成后的分类器性能优于单分类器,并且该方法在使用部分标注训练数据的情况下也能取得与采用全部标注训练数据相近的实验结果。
- 吕云云李旸王素格
- 关键词:BOOTSTRAPPING集成分类器
- 面向观点挖掘的汽车本体知识库的构建
- 建立了面向观点挖掘的汽车本体知识库,可为挖掘汽车整体信息和特性信息观点提供强大的数据资源。本文以汽车领域知识为背景,根据汽车知识的关系,构建了汽车本体知识库的概念关系。在此基础上,利用Web汽车评论真实语料库,自动获取了...
- 冯淑芳王素格
- 关键词:本体知识库
- 文献传递
- 相对知识粒度序决策表的属性约简方法
- 2011年
- 序决策表中的知识约简越来越受到关注,在优势类和知识粒度的基础上,引入了序决策表中的一种知识相对粒度,度量了属性集在序决策表中的相对不确定性,进而给出了属性相对重要度的定义。并设计了序决策表的一种启发式属性约简算法,通过实例分析和验证了算法的有效性。
- 贾俊芳