您的位置: 专家智库 > >

国家自然科学基金(61272233)

作品数:1 被引量:2H指数:1
相关作者:郑方唐国瑜夏云庆更多>>
相关机构:清华大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇义类
  • 1篇文本聚类
  • 1篇文档
  • 1篇文档聚类
  • 1篇聚类

机构

  • 1篇清华大学

作者

  • 1篇夏云庆
  • 1篇唐国瑜
  • 1篇郑方

传媒

  • 1篇中文信息学报

年份

  • 1篇2013
1 条 记 录,以下是 1-1
排序方式:
基于词义类簇的文本聚类被引量:2
2013年
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空间,然后将文档表示在词义类簇空间上,获得每篇文档在每个词义类簇的概率。在词义类簇空间构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空间构造后,该文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空间上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。
唐国瑜夏云庆张民郑方
关键词:文档聚类
共1页<1>
聚类工具0