您的位置: 专家智库 > >

吉翔华

作品数:4 被引量:21H指数:3
供职机构:中国科学技术大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 3篇期刊文章
  • 1篇学位论文

领域

  • 4篇自动化与计算...
  • 1篇文化科学

主题

  • 3篇文本聚类
  • 3篇聚类
  • 2篇文本
  • 2篇均值聚类
  • 2篇基于主题
  • 1篇英文
  • 1篇数字图
  • 1篇数字图书馆
  • 1篇图书
  • 1篇图书馆
  • 1篇子空间
  • 1篇自动提取方法
  • 1篇文摘
  • 1篇模糊C-均值...
  • 1篇模糊C均值聚...
  • 1篇决策树
  • 1篇科技文摘
  • 1篇关键词
  • 1篇词性
  • 1篇词性分析

机构

  • 4篇中国科学技术...

作者

  • 4篇吉翔华
  • 3篇陈超
  • 3篇邵正荣
  • 2篇俞能海
  • 1篇刘佳宾

传媒

  • 1篇小型微型计算...
  • 1篇计算机工程与...
  • 1篇Journa...

年份

  • 4篇2007
4 条 记 录,以下是 1-4
排序方式:
基于主题子空间的文本模糊C均值聚类方法被引量:3
2007年
模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.
吉翔华陈超邵正荣俞能海
关键词:模糊C均值聚类文本聚类
基于科学文献的数字图书馆中文本聚类的研究
随着Internet网络的日益普及,人们越来越依赖网络来获取各种信息,传统的信息发布和获取模式受到了巨大的冲击。同时,随着电子出版物的盛行,网络作为学习和科研的主要手段也越来越为广大的学生和科研工作者所推崇。 ...
吉翔华
关键词:文本聚类数字图书馆
文献传递
基于机器学习的科技文摘关键词自动提取方法被引量:15
2007年
提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。
刘佳宾陈超邵正荣吉翔华
关键词:决策树词性分析
基于主题概念空间的文本模糊c-均值聚类方法(英文)被引量:3
2007年
为了改善文本聚类的准确度,提出用基于主题概念子空间的模糊c-均值聚类(TCS2FCM)方法来分类文本.采用5个评估函数的加权值来提取关键短语;利用WordNet对相应的关键短语提取概念短语并生成最后的类别描述.初始中心和初始隶属度矩阵的建立是决定模糊c-均值聚类效果的关键,使用能够代表文本主题的概念短语来建立相互正交的主题概念子空间,利用主题子空间中的概念向量来初始化聚类中心和隶属度矩阵.实验结果表明:不同于传统模糊c-均值聚类的随机化初始,与文本内容相关的初始化有助于改进最后的聚类结果,提高聚类精度.
吉翔华陈超邵正荣俞能海
关键词:模糊C-均值聚类文本聚类
共1页<1>
聚类工具0