吉翔华
- 作品数:4 被引量:21H指数:3
- 供职机构:中国科学技术大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于主题子空间的文本模糊C均值聚类方法被引量:3
- 2007年
- 模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果.
- 吉翔华陈超邵正荣俞能海
- 关键词:模糊C均值聚类文本聚类
- 基于科学文献的数字图书馆中文本聚类的研究
- 随着Internet网络的日益普及,人们越来越依赖网络来获取各种信息,传统的信息发布和获取模式受到了巨大的冲击。同时,随着电子出版物的盛行,网络作为学习和科研的主要手段也越来越为广大的学生和科研工作者所推崇。
...
- 吉翔华
- 关键词:文本聚类数字图书馆
- 文献传递
- 基于机器学习的科技文摘关键词自动提取方法被引量:15
- 2007年
- 提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。
- 刘佳宾陈超邵正荣吉翔华
- 关键词:决策树词性分析
- 基于主题概念空间的文本模糊c-均值聚类方法(英文)被引量:3
- 2007年
- 为了改善文本聚类的准确度,提出用基于主题概念子空间的模糊c-均值聚类(TCS2FCM)方法来分类文本.采用5个评估函数的加权值来提取关键短语;利用WordNet对相应的关键短语提取概念短语并生成最后的类别描述.初始中心和初始隶属度矩阵的建立是决定模糊c-均值聚类效果的关键,使用能够代表文本主题的概念短语来建立相互正交的主题概念子空间,利用主题子空间中的概念向量来初始化聚类中心和隶属度矩阵.实验结果表明:不同于传统模糊c-均值聚类的随机化初始,与文本内容相关的初始化有助于改进最后的聚类结果,提高聚类精度.
- 吉翔华陈超邵正荣俞能海
- 关键词:模糊C-均值聚类文本聚类