您的位置: 专家智库 > >

吴金源

作品数:5 被引量:39H指数:4
供职机构:北京工业大学计算机学院多媒体与智能软件技术北京市重点实验室更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 1篇学位论文

领域

  • 5篇自动化与计算...

主题

  • 3篇情感
  • 3篇文本分类
  • 2篇数据集
  • 2篇情感分类
  • 2篇文本情感
  • 2篇文本情感分类
  • 2篇不均衡数据
  • 2篇不均衡数据集
  • 1篇信息增益
  • 1篇蚁群
  • 1篇朴素贝叶斯
  • 1篇文本分类算法
  • 1篇聚集信息素
  • 1篇基于知识
  • 1篇加权
  • 1篇加权和
  • 1篇半监督学习
  • 1篇贝叶斯

机构

  • 5篇北京工业大学
  • 4篇北京市科学技...
  • 1篇南阳师范学院

作者

  • 5篇吴金源
  • 4篇冀俊忠
  • 4篇吴晨生
  • 1篇赵学武
  • 1篇张玲玲

传媒

  • 3篇北京工业大学...
  • 1篇计算机工程

年份

  • 1篇2016
  • 4篇2014
5 条 记 录,以下是 1-5
排序方式:
基于类别加权和方差统计的特征选择方法被引量:11
2014年
为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后,将2种策略相融合,实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法.
冀俊忠吴金源吴晨生杜芳华
关键词:文本分类不均衡数据集
面向不均衡数据和情感词典构建的特征选择方法研究
随着现代科技的飞速发展,人类世界已进入大数据时代,大量有价值的信息被淹没在数据的汪洋中,所以发现和挖掘这些有用信息一直是近年来人工智能领域中一个备受关注的研究热点。作为一种关键的文本信息处理技术,文本自动分类方法得到了人...
吴金源
关键词:文本分类不均衡数据集
文献传递
基于知识语义权重特征的朴素贝叶斯情感分类算法被引量:11
2014年
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.
冀俊忠张玲玲吴晨生吴金源
关键词:朴素贝叶斯文本情感分类信息增益
基于蚁群聚集信息素的半监督文本分类算法被引量:4
2014年
半监督文本分类中已标记数据与未标记数据分布不一致,可能导致分类器性能较低。为此,提出一种利用蚁群聚集信息素浓度的半监督文本分类算法。将聚集信息素与传统的文本相似度计算相融合,利用Top-k策略选取出未标记蚂蚁可能归属的种群,依据判断规则判定未标记蚂蚁的置信度,采用随机选择策略,把置信度高的未标记蚂蚁加入到对其最有吸引力的训练种群中。在标准数据集上与朴素贝叶斯算法和EM算法进行对比实验,结果表明,该算法在精确率、召回率以及F1度量方面都取得了更好的效果。
杜芳华冀俊忠吴晨生吴金源
关键词:文本分类半监督学习聚集信息素
基于特征选择技术的情感词权重计算被引量:13
2016年
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难.针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法.首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益(information gain,IG)和卡方统计量(chi-square,CHI),将特征选择技术应用于情感词权重计算.实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.
吴金源冀俊忠赵学武吴晨生杜芳华
关键词:文本情感分类
共1页<1>
聚类工具0