您的位置: 专家智库 > >

国家自然科学基金(60672056)

作品数:13 被引量:64H指数:5
相关作者:俞能海邵正荣陈超吉翔华沈道义更多>>
相关机构:中国科学技术大学天津大学微软公司更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 13篇期刊文章
  • 2篇会议论文

领域

  • 15篇自动化与计算...

主题

  • 4篇聚类
  • 2篇图像
  • 2篇图像标注
  • 2篇子空间
  • 2篇自动图像
  • 2篇文本
  • 2篇文本聚类
  • 2篇线性判别分析
  • 2篇决策树
  • 2篇均值聚类
  • 2篇基于主题
  • 1篇多特征融合
  • 1篇信息抽取
  • 1篇信息检索
  • 1篇遗传算法
  • 1篇英文
  • 1篇语义分析
  • 1篇语义聚类
  • 1篇正则
  • 1篇正则化

机构

  • 14篇中国科学技术...
  • 2篇天津大学
  • 1篇教育部
  • 1篇微软公司

作者

  • 12篇俞能海
  • 5篇陈超
  • 5篇邵正荣
  • 3篇王雷
  • 3篇吉翔华
  • 3篇沈道义
  • 2篇庄连生
  • 2篇刘佳宾
  • 2篇庞彦伟
  • 1篇尹华罡
  • 1篇胡国平
  • 1篇芮晓光
  • 1篇袁平波
  • 1篇华先胜
  • 1篇周维
  • 1篇王斌
  • 1篇张纯青
  • 1篇何芳
  • 1篇麦林
  • 1篇李东方

传媒

  • 4篇小型微型计算...
  • 2篇电子与信息学...
  • 1篇中国科学技术...
  • 1篇数据采集与处...
  • 1篇计算机工程与...
  • 1篇计算机仿真
  • 1篇中文信息学报
  • 1篇Journa...
  • 1篇中国图象图形...

年份

  • 3篇2010
  • 3篇2009
  • 4篇2008
  • 5篇2007
13 条 记 录,以下是 1-10
排序方式:
基于主题子空间的文本模糊C均值聚类方法被引量:3
2007年
模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.
吉翔华陈超邵正荣俞能海
关键词:模糊C均值聚类文本聚类
小规模和非平衡数据下的目标分类
针对小规模和非平衡的训练数据集下的目标分类问题,本文提出了一种新的目标分类学习算法 gentleBoost- BFKO(Balance Feature Knock ore)。该算法利用数据扩充算法 BFKO 在 gent...
周维庄连生俞能海
文献传递
一种基于成对约束的半监督最大间隔聚类算法被引量:1
2010年
最大间隔聚类是近来聚类分析的一个研究热点,为进一步提高其聚类准确性,提出一种基于成对约束的半监督最大间隔聚类算法.该算法在最大间隔聚类的目标函数中添加针对成对约束的损失项,从而对违反给定约束条件的分界面进行惩罚.对所得到的非凸优化问题,本文提出一种基于约束凹凸过程的迭代算法来进行高效求解.实验表明,本文提出的算法能极大地提高最大间隔聚类的准确性,其聚类性能也明显优于其他两种半监督聚类算法.
胡洋王井东俞能海华先胜
关键词:聚类
一种新的基于语义聚类和图算法的自动图像标注方法被引量:12
2007年
针对图像检索中的语义鸿沟问题,提出了一种新颖的自动图像标注方法。该方法首先采用了一种基于软约束的半监督图像聚类算法(SHMRF-Kmeans)对已标注图像的区域进行语义聚类,这种聚类方法可以同时考虑图像的视觉信息和语义信息。并利用图算法——Manifold排序学习算法充分发掘语义概念与区域聚类中心的关系,得到两者的联合概率关系表。然后利用此概率关系表标注未知标注的图像。该方法与以前的方法相比可以更加充分地结合图像的视觉特征和高层语义。通过在通用图像集上的实验结果表明,本文提出的自动图像标注方法是有效的。
芮晓光袁平波何芳俞能海
关键词:半监督聚类软约束图像标注
一种基于流形正则化的半监督人脸识别方法被引量:1
2009年
在基于流形正则化的框架下提出了一种半监督学习算法(MLapRLS)并将其用于人脸识别.首先构建所有样本的最近邻图来估计数据空间的几何结构,并对多变量线性回归的目标函数增加该流形正则化项,得到针对多类问题的MLapRLS.该方法能充分利用少量有标签样本和大量易于获取的无标签样本来帮助学习以提取有效特征.在Extended YaleB和CMU PIE人脸数据库上的实验结果证明了该方法的有效性.
王雷俞能海庄连生沈道义
关键词:人脸识别半监督学习流形学习正则化
结合提升自举FLD投影的特征提取算法被引量:1
2009年
针对两类分类问题,提出一种基于自适应提升(Adaptive Boosting,Adaboost)算法的分类特征提取算法.首先对训练样本集进行自举采样从而生成一定数量的训练样本自举子集,然后通过对每个自举子集的Fisher线性判别分析(FLD),得到相应数量的一维自举投影向量.在Adaboost算法迭代的每一步中,具有最小的加权最近邻分类误差的一维自举投影向量被作为分类特征选出,用来构成最终的强分类器.该算法可以有效地克服传统特征提取算法性能依赖于数据分布以及提取准则不直接与训练误差相关的弱点.实验结果表明,相比传统算法,该算法的分类准确度有较明显的提升,并且特别适用于数据分布复杂的情况.
沈道义俞能海庞彦伟王雷
关键词:自举ADABOOSTFISHER线性判别分析
一种Web 2.0环境下互联网热点挖掘算法被引量:6
2010年
利用Web2.0下用户丰富的反馈信息进行互联网热点挖掘具有重要的应用价值。该文将Web2.0下用户在互联网上的信息活动看作为热度活动,并利用热量传递模型对其建模,然后基于该模型提出适用于Web2.0环境下的话题抽取与热度评价算法。实验结果表明热量传递算法有效地利用了用户反馈信息,适用于Web2.0下互联网环境。
李东方俞能海尹华罡
关键词:互联网WEB2.0
基于加权词频的信息检索相似度评价模型被引量:2
2008年
在信息检索领域,相似度评价模型是一个重要的研究课题。基本的评价模型有布尔模型,向量空间模型和概率模型。后两种模型在许多的信息检索系统中被采用,但是它们都没有考虑查询词在文档中的位置信息对相似性度量起到的作用。一些研究考虑了诸如HTML标签之类的信息,但是确定加权系数的方案不是太理想。针对这些问题,文中提出了一种基于加权词频的相似度评价模型(Weighted Term Frequency Model,WTFM),而引入的权重系数可以通过模拟退火算法学习得到。实验结果表明,权重系数的引入提高了系统的相关度评价质量。
张纯青陈超邵正荣俞能海
关键词:信息检索相关度评价模拟退火算法
基于机器学习的科技文摘关键词自动提取方法被引量:15
2007年
提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。
刘佳宾陈超邵正荣吉翔华
关键词:决策树词性分析
一种针对大规模网络图像的自动标注改善算法被引量:2
2009年
在对网络图像进行索引时,人们往往利用网页中图像周围的文字作为其近似标注信息,但是这些文字信息质量不高,不足以良好地描述图像内容。该文提出一种综合利用图像视觉特征、相关文本信息以及词汇间语义关系的方法对这些不精确的文本信息进行改善,从而提高图像的索引和搜索质量。在大规模数据集上的实验证明了所提出的方法能够有效改善图像的标注。
王斌俞能海
关键词:自动图像标注
共2页<12>
聚类工具0