赵伟燕
- 作品数:3 被引量:5H指数:2
- 供职机构:内蒙古科技大学信息工程学院更多>>
- 发文基金:国家自然科学基金内蒙古自治区自然科学基金教育部“春晖计划”更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hadoop平台的TFIDF算法并行化研究
- 随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效的获得有用信息至关重要,因此自动文本分类技术尤为重要。云计算将计算任务分布在由很多计算机构成的资源池上,因此应用系...
- 赵伟燕
- 关键词:云计算HADOOP平台TFIDF算法文本分类
- 文献传递
- 基于Hadoop平台的TFIDF算法并行化研究被引量:2
- 2014年
- 针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验。实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化。
- 王静宇赵伟燕
- 关键词:MAPREDUCE并行化TFIDF算法
- 基于MapReduce编程模型的TFIDF算法研究被引量:1
- 2013年
- 随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要。现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了对比实验,同时与传统串行算法进行了对比。实验证明,使用TFIDF文本分类算法可实现对海量数据的高速有效分类。
- 赵伟燕王静宇
- 关键词:文本分类MAPREDUCE并行化TFIDF算法