江西省自然科学基金(2008GZS0052)
- 作品数:7 被引量:23H指数:3
- 相关作者:王明文何世柱石松柯丽黎佳更多>>
- 相关机构:江西师范大学江西科技师范学院江西财经大学更多>>
- 发文基金:江西省自然科学基金国家自然科学基金江西省教育厅青年科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于特征加权的半监督聚类研究
- 2011年
- 目前在半监督聚类的研究中,尤其是当有类标信息的类的数量少于整个数据集的类的数量时,其聚类效果并不好。本文在现有半监督聚类技术的基础上,通过特征加权来提高同一类文档的相似性,从而得到更好的聚类效果。为了验证这一思想的有效性,实验不仅在单语言数据集上进行,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验。实验结果表明,该方法体现出良好的性能。
- 黎佳王明文何世柱柯丽
- 关键词:特征加权多语言半监督聚类
- 免疫进化的投影寻踪模型在文本分类中的应用被引量:4
- 2011年
- 投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。针对文本分类中维数灾难问题,采用投影寻踪模型,将高维的文本数据降到超低维。投影寻踪的关键是构造能够找到最佳投影方向的有效算法,本文根据免疫进化的思想提出了免疫进化的投影寻踪模型,该模型能有效地寻找最佳的投影方向。将该方法应用于Reuters-21578文档集和复旦文档集,实验结果表明此方法不仅能有效解决文本分类中难数灾难问题,而且得到了很好的分类性能。
- 廖海波万中英王明文
- 关键词:免疫进化算法投影寻踪文本分类
- 基于聚类分析的搜索引擎自动性能评价被引量:2
- 2010年
- 传统的搜索引擎性能评价方法需要人工标注标准答案集,需花费大量的人力物力,并且评价结果依赖于人工标注的准确性,效率较低。该文基于聚类分析的思路,提出了一种搜索引擎性能评价指标和自动进行搜索引擎性能评价的方法,此方法能自动计算信息类查询的覆盖范围,并根据其覆盖范围对检索结果进行聚类,通过类间距和类内距等指标实现检索性能的自动评价。实验结果表明,基于聚类指标的评价方法与人工标注的评价方法的评价结果是相一致的。
- 吴世勇王明文
- 关键词:信息检索性能评价聚类分析
- 模拟退火的投影寻踪模型在文本分类中的应用
- 在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低...
- 廖海波万中英王明文
- 关键词:模拟退火投影寻踪文本分类
- 文献传递
- 基于频率共现熵的跨语言网页自动分类研究被引量:3
- 2011年
- 研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分类模型、向量空间分类模型和信息瓶颈模型相比体现出良好的性能.
- 柯丽王明文何世柱黎佳罗远胜
- 关键词:跨语言网页分类贝叶斯分类
- 基于WEB资源的ComPaper10th中权威学者挖掘
- 文献检索中,自动发现指定研究领域的权威文献和权威学者,使用户对特定领域有全面、深刻、细致的认识和了解,不仅能使科研工作者能快速的进行相关研究,对普通用户了解领域知识也有很好的帮助。首先基于Lucene开源项目构建了一种文...
- 王明文何世柱
- 文献传递
- 基于Markov网络团的信息检索扩展模型被引量:3
- 2011年
- 全局分析方法是一种常用而能有效改善信息检索效果的查询扩展方法。通过计算词间相似度构造M arkov网络模型;然后由此模型加强候选词集中的词相关性描述,并提取了在Markov网络中词间的团结构;通过在查询中加入查询词所在团中的其他候选词进行查询扩展。实验表明基于Markov网络团的信息检索模型的检索效果优于基于一般的相似性矩阵查询扩展的检索效果;基于团提取方法的查询扩展的检索效果优于普通的基于提取方法的查询扩展检索效果。
- 石松王明文涂伟何世柱
- 关键词:查询扩展MARKOV网络
- 结合相关类别信息的大规模文本层次分类研究被引量:2
- 2011年
- 深层分类模型是一种解决大规模文本层次分类问题的有效范式。本文基于该范式提出一种改进型模型,首先将一种新方法用于单独评价搜索阶段的效果;然后利用类别和文档信息共同选择候选类别;最后基于类中心训练Rocchio分类器,同时利用相关类别的分类结果确定最终类别。在ODP数据集上的实验表明,相对于最新型的深层分类方法,该模型具有一定优势。
- 何世柱王明文周军军石松
- 关键词:ROCCHIO
- 基于MR的并行决策树分类算法的设计与实现被引量:9
- 2011年
- 决策树分类方法是实现数据挖掘中分类任务的一种有效方法,但在大规模测试数据集上运行时其实现性能受到严重影响。本文设计和实现一种基于MapReduce架构的并行决策树分类算法。实验结果表明:基于MapReduce的决策树分类算法比同类算法在其他并行编程模型下的实现在计算节点较多的情况下能得到更优的性能。
- 朱敏万剑怡王明文
- 关键词:MAPREDUCE决策树分类SPRINT