周晓云 作品数:18 被引量:112 H指数:6 供职机构: 东南大学 更多>> 发文基金: 国家自然科学基金 国家教育部博士点基金 福建省教育厅科技项目 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
DMVR:一种基于Cache的动态物化视图置换算法 被引量:1 2006年 采用硬盘cache机制实现的物化视图选择算法具有良好的动态适应能力,能够根据用户查询的变化即时地进行物化视图集的调整,但这类算法都是基于内存机制的简单移植,未考虑物化视图从硬盘回读的代价,在代价模型构建方面存在不足,为此提出一种基于cache的动态物化视图置换算法DMVR,其具有严格的数学模型,可以很好地适用于物化视图的动态选择与调整.同时为了适应系统负荷率较高的情况,又提出了DMVR的改进算法DMVR-IDLE,以保证高频度查询条件下数据仓库对用户查询仍具有较好的响应速度.实验表明DMVR算法与DMVR-IDLE算法是有效可行的. 张柏礼 孙志挥 周晓云 张净关键词:数据仓库 物化视图 CACHE机制 一种大规模高维数据集的高效聚类算法 被引量:3 2006年 大规模高维数据集的聚类算法已成为当前聚类研究的热点,由于高维的原因,聚类往往隐藏在数据空间的某些子空间中,传统的聚类算法无法获得有意义的聚类结果.此外,高维数据中含有的大量的随机噪声也会带来额外的效率问题.为了解决以上问题,该文在CLIQUE算法的基础上提出了一种基于最优区间分割和数据集划分的聚类算法—OpCluster,并使用仿真数据对该算法加以验证,实验结果表明,OpCluster对大规模高维数据集具有很好的聚类效果. 周晓云 孙志挥 张柏礼关键词:聚类算法 子空间聚类 数据划分 基于相异性选择的密度聚类算法研究 被引量:2 2006年 在最优K相异性算法(OptiSim)的基础上,提出一种扩展的最优K相异性算法(EOptiSim),由于EOptiSim在处理组合数据库和分布式数据库方面能弥补基本的OptiSim方法的不足,所以通过在DBSCAN算法之前应用OptiSim或EOptiSim多样化代表性子集选择技术,在显著降低I/O耗费和内存需求的同时,不仅能够有效地聚类单一的大规模空间数据库,而且还能聚类大规模组合数据库或分布式数据库.实验结果表明本文的算法是可行、有效的. 胡文瑜 孙志挥 周晓云关键词:聚类分析 密度聚类算法 高维数据流聚类及其演化分析研究 被引量:15 2006年 基于数据流数据的聚类分析算法已成为研究的热点.提出一种基于子空间的高维数据流聚类及演化分析算法CAStream,该算法对数据空间进行网格化,采用近似的方法记录网格单元的统计信息,并将潜在密集网格单元快照以改进的金字塔时间结构进行存储,最后采用深度优先搜索方法进行聚类及其演化分析.CAStream能够有效处理高维数据流,并能发现任意形状分布的聚类.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性. 周晓云 孙志挥 张柏礼 杨宜东关键词:数据流 聚类分析 高维数据流子空间聚类发现及维护算法 被引量:24 2006年 近年来由于数据流应用的大量涌现,基于数据流模型的数据挖掘算法研究已成为重要的应用前沿课题.提出一种基于Hoeffding界的高维数据流的子空间聚类发现及维护算法——SHStream.算法将数据流分段(分段长度由Hoeffding界确定),在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果,同时针对数据流的动态性,算法对聚类结果进行调整和维护.算法可以有效地处理高维数据流和对任意形状分布数据的聚类问题.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性. 周晓云 孙志挥 张柏礼 杨宜东关键词:数据流 聚类算法 子空间聚类 一种基于加权的高效关联规则挖掘算法的设计与实现 被引量:15 2004年 文章研究了在大型事务数据库中挖掘加权关联规则的问题,给出了加权频繁模式树的定义,在挖掘算法MIN-WAL(O)和MINWAL(W)的基础上,提出了一种基于加权频繁模式树的加权关联规则挖掘算法-WFPTA,并做了相应的算法比较,试验结果表明算法WFPTA是有效的。 周晓云 孙志挥 倪巍伟关键词:数据挖掘 关联规则 加权关联规则 静态物化视图的动态Cache优化算法 被引量:5 2006年 针对静态物化视图集动态适应能力的不足,提出一种动态cache优化算法DCO(dynamiccacheoptimization).它在保持静态算法获取最优物化集能力的基础上,将cache机制直观、快速的动态特性结合进来,以提高数据仓库的动态自适应性能.在cache机制具体实现中提出了一种新颖的空间申请方法,可以充分利用系统剩余空间提高查询响应性能.实验结果在表明算法有效、可行的同时,也显示出该算法可以在一定程度上克服静态物化集存在的空间-性能饱和效应(space-performancesaturationeffect,简称SPSE),使通过增加物化空间进一步提高数据仓库对查询的响应速度成为可能. 张柏礼 孙志挥 周晓云 杨宜东 朱玉全关键词:数据仓库 物化视图 高维数据流聚类分析及离群点检测研究 数据挖掘是在海量数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法,是20世纪90年代初解决“数据丰富、知识贫乏”问题应运而生的一种新技术.十多年来,众多学者围绕数据挖掘这一主题开展深入而系统的研究与探索工... 周晓云关键词:知识发现 数据流 数据流挖掘 聚类分析 离群点检测 文献传递 一种基于单调递减阈值函数的高维数据集聚类算法 1引言聚类分析是数据挖掘领域中的一项重要的研究课题,它既可以作为一个单独的工具以发现数据库中数据分布的一些深入的信息,也可以作为其他数据挖掘分析算法的一个预处理步骤。目前,高维数据集的高效聚类已成为聚类分析算法的巨大挑战... 周晓云 孙志挥 张柏礼 胡文瑜文献传递 基于特征向量的分布式聚类算法 被引量:8 2006年 提出了一种新的表达数据集的方法———特征向量,它通过坐标和密度描述了某一密集空间,以较少的数据量反映站点数据的分布特性。在此基础上提出了一种基于特征向量的分布式聚类算法———DCBFV(D istributed C lustering Based on Feature Vector),该算法可有效降低网络通信量,能够对任意形状分布的数据进行聚类,提高了分布式聚类的时空效率和性能。理论分析和实验结果表明DCBFV是高效可行的。 李锁花 孙志挥 周晓云关键词:数据挖掘 分布式聚类 特征向量