重庆市自然科学基金(8721)
- 作品数:2 被引量:6H指数:1
- 相关作者:冯剑琳李曲龙昊冯玉才何玉更多>>
- 相关机构:华中科技大学更多>>
- 发文基金:重庆市自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- SAT-FOIL+:基于句子级关联的文本分类被引量:1
- 2005年
- 以往基于词语关联的方法在挖掘频繁项集和关联规则时,都是将整个文本看作一个亨务来处理的,然而文本的基本语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,我们把一篇文档里的一个句子作为一个单独的事务,从而提出了一种基于句子级关联的分类方法SAT-FOIL。并在本文中提出新的得分模型来获得改进的新算法SAT-FOIL+。通过在标准的文本集Reuters上的大量实验,不仅证明新模型的优越性,而且证明了SAT-FOIL+分类效果同其他几种分类方法是可比的,并且要远远好于以往的基于文档级关联的分类方法。另外,挖掘出来的分类规则还具有易读性,并且易修改。
- 冯玉才李曲何玉冯剑琳
- 关键词:文本分类频繁项目集
- R-means:以关联规则为簇中心的文本聚类被引量:5
- 2005年
- 本文将k-means与关联规则(或频繁项目集)相结合,提出了一种新的文本聚类算法R-means。R-means算法以关联规则作为簇中心,通过类似于k-means的迭代优化得到最终的簇。因此R-means不仅继承了k-means的简单性,而且用关联规则产生的簇描述易于为人们所理解。在几个实际数据集上的实验表明该算法可以得到高精度和高性能。
- 龙昊冯剑琳李曲
- 关键词:关联规则频繁项目集信息检索