山东大学自主创新基金(2009TS033)
- 作品数:3 被引量:8H指数:2
- 相关作者:许信顺王法波王刚刘伟涛更多>>
- 相关机构:山东大学更多>>
- 发文基金:山东大学自主创新基金山东省自然科学基金教育部留学回国人员科研启动基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种新的基于多示例学习的场景分类方法被引量:3
- 2010年
- 多示例学习是近年来才出现的一种新的学习框架,并以其对多义性对象的出色表示能力而被成功地运用在图像分类任务中。首先提出了一种新的图像多示例包生成方式,采用特征的概率分布表示图像,并对图像像素分布提取一个高斯混合模型,将每个高斯分布作为一个示例,生成图像的多示例包。然后,在对图像进行分类时,采用了信息瓶颈聚类把多示例包转化成单示例,从而将传统的单示例分类器用在该问题上。为了提高分类器的泛化能力,对多个分类器进行了集成。选取了5类自然场景图像进行试验,结果显示所提出的方法平均性能优于当前常用的一些多示例学习算法。
- 王刚许信顺
- 关键词:多示例学习高斯混合模型期望最大化算法
- 文本分类中一种新的特征选择方法被引量:4
- 2010年
- 文本分类面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。针对该问题,提出了一种基于信息论的特征再提取方法,旨在删除稀疏分布的特征、保留有利于分类的特征。使用该方法时配合特征选择方法,可进一步降低特征维数。实验结果表明,该方法能将特征维数降低到几百维,而且能提高分类器的性能。
- 王法波许信顺
- 关键词:文本分类互信息信息增益
- 一种使用未标记样本聚类信息的自训练方法被引量:1
- 2010年
- 为了有效地利用结构信息,提出了一种新的自学习算法,算法中利用聚类方法从自标记样本中选择可信度高的样本,同时用一个数据编辑方法从这些可信度高的样本中剔除被错标的可能性较高的样本。算法在UCI数据上进行了验证,效果和收敛速度比对比算法要好,说明引入聚类选择候选样本是有效的。
- 刘伟涛许信顺
- 关键词:聚类半监督学习