蔡斌雷
- 作品数:14 被引量:7H指数:2
- 供职机构:山东省科学院更多>>
- 发文基金:国家自然科学基金山东省科技发展计划项目国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术理学经济管理电子电信更多>>
- 面向数据流的优化聚类算法研究
- 近年来,国内外学者对数据流上的聚类分析问题进行了大量的研究工作,但仍存在不少问题尚待研究和解决。大多数基于网格的聚类算法,对网格单元缺乏有效的存储结构;现有算法对簇边缘的数据点不能准确聚类,也不能有效处理噪声点;序列数据...
- 蔡斌雷
- 关键词:数据流聚类漏洞检测索引树
- 文献传递
- 一种基于方差的文档分类方法
- 本发明的基于方差的文档分类方法,包括:a).采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;b).采用现有的分词方法进行分词,并计算词频;c).对词频做归一化处理;d).计算每篇文档词频的方差;e).归纳...
- 赵燕清魏墨济朱世伟于俊凤李晨蔡斌雷王蕾冯海洲王爱萍
- 文献传递
- 面向大规模流数据的可扩展分布式实时处理方法被引量:2
- 2016年
- MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求。对此提出一种面向大规模流数据的可扩展、分布式实时处理方法。该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、单遍分析,以提高对流数据的实时分析能力。实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性。
- 蔡斌雷郭芹朱世伟任家东
- 关键词:分布式计算流数据处理MAPREDUCE
- 基于Spark的云数据中心性能异常实时检测方法
- 2016年
- 针对当前云计算环境下数据中心性能异常检测方法的实时性、可扩展性问题,提出一种云数据中心环境下基于Spark的性能异常实时检测方法Spark—ADOPD(Spark-based Anomaly Detection OverPerformance DataInRealtime).方法设计基于Spark的分布式、可扩展流数据聚类算法对采集的云数据中心性能数据进行自动分类,建立性能异常预测模型;定义相似度函数,通过计算持续到达的性能数据与预测模型的相似度,挖掘性能异常行为,以动态调整资源分配.实验结果证明Spark-ADOPD具有较好的实时性和准确性.
- 蔡斌雷郭芹
- 关键词:异常检测流数据聚类SPARK资源调度
- 一种基于混合粒度分布式内存网格索引的KNN查询方法
- 本发明公开了一种基于混合粒度分布式内存网格索引的KNN查询方法,具体实现过程为:进行数据预处理的步骤:基于网格和密度,将整体数据进行空间划分,得到总体数据分布的概要估计;进行数据查询的步骤:建立混合粒度的分布式内存网格索...
- 蔡斌雷朱世伟郭芹杨子江于俊凤魏墨济李思思徐蓓蓓李晨巴志超鞠镁隆
- 文献传递
- 数字家庭服务检索系统
- 本实用新型涉及一种根据人的需求自动检索检索相关服务,并协调控制家电设备运行的数字家庭服务检索系统。它包括多个智能家电,智能家电同过物联网与云端服务器连接,它还设有一个服务选择终端,服务选择终端与云端服务检索数据库通信,云...
- 赵燕清魏墨济朱世伟王蕾于俊凤蔡斌雷冯海洲李涵王爱萍
- 文献传递
- 一种基于混合粒度分布式内存网格索引的KNN查询方法
- 本发明公开了一种基于混合粒度分布式内存网格索引的KNN查询方法,具体实现过程为:进行数据预处理的步骤:基于网格和密度,将整体数据进行空间划分,得到总体数据分布的概要估计;进行数据查询的步骤:建立混合粒度的分布式内存网格索...
- 蔡斌雷朱世伟郭芹杨子江于俊凤魏墨济李思思徐蓓蓓李晨巴志超鞠镁隆
- 文献传递
- 基于网络度量指标的文档分类方法
- 本发明的基于网络度量指标的文档分类方法,包括样本训练阶段和文档分类阶段,样本训练阶包括:a).样本采集;b).文本分词;c).词性分析;d).去除虚词和人名;e).统计词频;f).构建特征集合<Image file="D...
- 魏墨济杨子江朱世伟于俊凤李晨蔡斌雷王蕾冯海洲王彦
- 文献传递
- 基于网络度量指标的文档分类方法
- 本发明的基于网络度量指标的文档分类方法,包括样本训练阶段和文档分类阶段,样本训练阶包括:a).样本采集;b).文本分词;c).词性分析;d).去除虚词和人名;e).统计词频;f).构建特征集合<Image file="2...
- 魏墨济杨子江朱世伟于俊凤李晨蔡斌雷王蕾冯海洲王彦
- 基于Hadoop MapReduce的分布式数据流聚类算法研究
- 数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时的发现任意形状的簇,也不能及时删除数据流中的噪声点.本文提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Strea...
- 蔡斌雷任家东朱世伟郭芹
- 关键词:数据流聚类MAPREDUCE框架