山西省自然科学基金(2007011042) 作品数:11 被引量:102 H指数:5 相关作者: 王素格 李德玉 宋晓雷 魏英杰 李红霞 更多>> 相关机构: 山西大学 中北大学 科学出版社 更多>> 发文基金: 山西省自然科学基金 国家自然科学基金 教育部科学技术研究重点项目 更多>> 相关领域: 自动化与计算机技术 更多>>
基于支持向量机的文本倾向性分类研究 被引量:6 2008年 文本倾向性分类可以广泛应用到信息检索,产品质量在线跟踪,民情民意调查分析以及聊天系统等.本文提出了基于限定词性词语与信息增益、基于情感倾向词汇与信息增益的两种混合特征选择方法,并设计了基于支持向量机的分类器.以汽车产品、篮球赛事以及中日关系3种中文评论文本为训练与测试语料,对本文所提方法进行了实验验证,结果表明:限定词性词语与信息增益的混合特征选择优于信息增益与情感倾向词汇混合特征选择方法. 王素格 杨安娜 李德玉 魏英杰 李伟 张武关键词:支持向量机 信息增益 面向特定领域产品评价对象自动识别研究 随着Internet技术的迅猛发展以及电子商务的不断普及,产品评价对象的识别已成为中文信息处理的一个研究热点。本文首先抽取候选评价对象。通过综合使用词形模板和词性模板以及在对候选评价对象评分之前进行预处理,提高了候选评价... 宋晓雷 王素格 李红霞关键词:K均值聚类 文献传递 基于同义词的词汇情感倾向判别方法 被引量:37 2009年 词汇的情感倾向直接影响短语、句子、段落、篇章等更高层次语言粒度的情感倾向。对于基准词选取问题,该文提出了基于类别区分能力与情感词词表相结合的方法。考虑到词汇与其同义词很大程度上具有相同的情感倾向,我们提出了基于同义词的词汇情感倾向判别方法,这种方法一定程度上避免了数据稀疏问题。实验结果表明,基于同义词的词汇情感倾向判别方法优于仅采用目标词与基准词的词汇情感倾向判别方法。 王素格 李德玉 魏英杰 宋晓雷关键词:计算机应用 中文信息处理 同义词 基于商空间粒度聚类的异常入侵检测 2010年 针对异常入侵检测技术中传统聚类方法需要被检测类大小均衡的问题,在商空间粒度理论的基础上,论述了商空间粒度变换可以使复杂问题在不同的粒度世界求解,最终使整个问题得到简化。分析了商空间划分与聚类操作的相似性,提出了基于商空间的粒度聚类方法,并将该方法与入侵检测技术相结合,构建了基于商空间粒度聚类的入侵检测系统,用于对KDD CUP 1999数据集的异常入侵检测。实验结果表明,该入侵检测系统的性能明显优于基于传统聚类方法的入侵检测系统,从而证明了该方法的正确性和有效性。 王丽芳 韩燮关键词:商空间 粒度计算 聚类 异常入侵检测 基于领域知识的问答对自动提取方法 被引量:5 2010年 问答系统旨在用准确、简洁的答案回答用户用自然语言提出的问题。以旅游信息服务为应用背景,提出了基于领域知识的问答对自动提取方法。考察了常见旅游问题,建立了领域知识,在此基础上,设计了用户问题模式匹配算法和答案提取算法,对于不能匹配模式的问题,采用句子相似度计算得到相关的答案。实验结果表明,提出的方法是可行的,实现了旅游问题的自动问答。 王素格 宋晓雷 李红霞关键词:问答系统 领域知识库 模式库 基于概率潜在语义分析的词汇情感倾向判别 本文利用概率潜在语义分析,给出了两种用于判别词汇的情感倾向的方法。一种是使用概率潜在语义分析获得每个目标词和基准词之间的相似度矩阵,再利用投票法决定每个目标词的情感倾向;二是利用概率潜在语义分析对目标词进行语义聚类和扩展... 宋晓雷 王素格 李红霞关键词:概率潜在语义分析 数据稀疏 语义聚类 情感倾向 文献传递 基于混合语言信息的词语搭配倾向判别方法 被引量:8 2010年 具有较强褒贬倾向的词语搭配对于文本的情感分析具有重要的价值。该文提出了一种混合语言信息的词语搭配的倾向判别方法。该方法首先根据词语搭配六种模式的特点,确定出各模式的概率潜在语义模型,然后利用这些语义模型判别搭配的情感倾向。最后对部分包含情感词的搭配再利用规则修正其先前标注的情感倾向。基于汽车语料的实验结果表明,基于混合语言信息的词语搭配情感倾向判别方法优于单纯基于概率潜在语义模型或规则的方法。 王素格 杨安娜关键词:计算机应用 中文信息处理 词语搭配 面向观点挖掘的汽车本体知识库的构建 建立了面向观点挖掘的汽车本体知识库,可为挖掘汽车整体信息和特性信息观点提供强大的数据资源。本文以汽车领域知识为背景,根据汽车知识的关系,构建了汽车本体知识库的概念关系。在此基础上,利用Web汽车评论真实语料库,自动获取了... 冯淑芳 王素格关键词:本体知识库 文献传递 基于布尔推理的极大相容块构造方法 2009年 极大相容块是非完备信息系统中的最小知识单元,在非完备信息系统的知识表示、属性约简、粒度分析及知识获取方面有重要的应用价值。提出了一种获取非完备信息系统中极大相容块的方法。通过定义的区分关系,构造了新的布尔函数,证明了极大相容块与构造的布尔公式的素蕴含之间存在一一对应的关系。因此,这种新的布尔函数可以被用来获得系统的所有极大相容块,这将有助于非完备信息系统中的知识获取。 李德玉 张伟关键词:布尔函数 基于统计方法的面向旅游问句分类实验研究 被引量:3 2009年 根据旅游领域知识的特点,设计了面向旅游问句的分类体系。利用信息增益、互信息、交叉熵和2χ统计四种特征选择方法及支持向量机分类器,对网上常见的旅游真实问句分类进行了实验研究,实验结果表明:在现有问句分类体系下,信息增益的特征选择方法在特征空间维数为550维时,分类旅游问句的结果是最佳的。 张雪芬 李德玉 王素格 南瑞贤关键词:支持向量机