沈春辉
- 作品数:4 被引量:54H指数:1
- 供职机构:浙江大学计算机科学与技术学院更多>>
- 发文基金:中央高校基本科研业务费专项资金中国博士后科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于MapReduce的分布式近邻传播聚类算法被引量:54
- 2012年
- 随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.
- 鲁伟明杜晨阳魏宝刚沈春辉叶振超
- 关键词:近邻传播聚类分布式计算MAPREDUCE数据划分聚类融合
- 支持海量小文件和动态备份数的数字图书馆存储系统的构建方法
- 本发明公开了一种支持海量小文件和动态备份数的数字图书馆存储系统的构建方法,包括以下三部分内容:(1)系统的构建采用采用两层体系架构,即传输层和存储层;传输层主要用于存储层与数字图书馆门户之间的数据传输,负载均衡、缓存以及...
- 庄越挺鲁伟明沈春辉吴江琴魏宝刚
- 数字图书馆中海量数据存储组织的研究与实现
- 多媒体资源的海量增长,使得数据的高效存储和组织成为数字图书馆分布式服务体系中的重要应用之一。本文针对数字图书馆中海量数据的自身特点和用户的访问习惯,致力于研究和实现一种适用于大规模数据集的数据存储组织机制,满足数字图书馆...
- 沈春辉
- 关键词:数字图书馆海量数据分布式存储信息检索数据存储
- 支持海量小文件和动态备份数的数字图书馆存储系统的构建方法
- 本发明公开了一种支持海量小文件和动态备份数的数字图书馆存储系统的构建方法,包括以下三部分内容:(1)系统的构建采用采用两层体系架构,即传输层和存储层;传输层主要用于存储层与数字图书馆门户之间的数据传输,负载均衡、缓存以及...
- 庄越挺鲁伟明沈春辉吴江琴魏宝刚
- 文献传递