国家科技基础条件平台建设计划(2004DKA20310) 作品数:8 被引量:49 H指数:4 相关作者: 胡孔法 陈崚 达庆利 张长海 陈凌 更多>> 相关机构: 扬州大学 东南大学 中华人民共和国环境保护部 更多>> 发文基金: 国家科技基础条件平台建设计划 江苏省自然科学基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 环境科学与工程 自然科学总论 更多>>
基于XML的数据交换技术研究与实现 被引量:4 2007年 提出基于XML技术的信息交换模型,采用XML文档作为底层的信息交换载体,建立了Internet/ Intranet环境下的信息集成交换平台,开发实现了相应的软件构件,为低层本地实现异构数据库系统间信息的集成与共享提供了一种有力的方法.并在重大环境污染事故危险源管理系统中实现了各级环保部门之间的XML数据交换,同时探讨了XML在企业间信息交换的工作机理和应用模式. 刘海东 缪旭波 胡孔法 陈崚关键词:XML 异构数据库 信息交换 一种高效挖掘高维数据的频繁闭合模式算法 被引量:2 2007年 为了克服传统高维数据挖掘频繁闭合模式算法迭代产生子表,引起算法执行时间长和存储开销大等问题,提出了一种高效挖掘高维数据的频繁闭合模式的算法EMHCP.EMHCP算法采用一种新型结构位图表来压缩存储数据,在仅扫描数据库一次后,建立位图转换表.根据位图转换表来构建混合树结构,采用深度优先的方式和有效的剪枝策略高效挖掘出所有的闭合模式.从而有效地缩小了搜索空间,加快了处理速度.通过在生物数据库应用的实验结果表明,EMH-CP算法比已有的CARPENTER和TD-close等算法更为有效. 胡孔法 唐小丽 达庆利 陈崚关键词:数据挖掘 频繁闭合模式 混合树 序列模式挖掘算法综述 被引量:14 2007年 目前的主要序列模式挖掘算法可以分为3类:①基于Apriori的候选码生成-测试的方法;②基于垂直格式的候选码生成-测试的方法;③基于模式增长的方法.在介绍序列模式挖掘基本概念的基础上,描述了典型的挖掘算法,着重分析第②类序列模式挖掘算法的关键技术,并对各种算法进行详细的分析与比较,总结出它们的优缺点:前两类方法因产生巨大的候选序列而致挖掘代价剧增,而第③类模式增长方法避免了候选序列的产生,但挖掘长模式效率低. 张长海 胡孔法 陈凌关键词:序列模式挖掘 数据分布 DHMC:一种有效的高维Cube并行分布式存储结构 被引量:6 2007年 在数据仓库系统中,数据立方体(Cube)及其预聚集处理在OLAP起到非常重要的作用.对于一个d维的data Cube可以生成2d个聚集Cuboids和multiply from i=1 to d(|Di|+1)个聚集数据单元,但对于一个高维Cube,要创建这些所有聚集Cuboids是不现实的.提出通过共享分段立方体Mini-Cube的高维Cube并行分布式存储结构(DHMC),将高维Cube划分成若干个低维共享分段立方体Mini-Cube,利用并行分布式处理技术来创建这些分割的分段共享Mini-Cube及其聚集Cuboids,来实现高维Cube的并行创建和增量更新维护,从而解决高维OLAP聚集海量数据的存储与查询问题.理论分析与实验结果均表明DHMC性能最佳. 胡孔法 陈崚 赵茂先 达庆利 纪兆辉关键词:并行分布式 国家环境数据中心建设探讨 被引量:16 2006年 结合我国环境数据共享现状,对国家环境数据中心的建设思路、总体目标、技术框架、主要建设内容等进行了研究和探讨。国家环境数据中心由国家级数据节点和省级数据节点组成,建设内容主要包括共享技术保障体系建设、数据资源建设、共享与服务网络平台建设三部分。 李顺 徐富春 孔益民 张波关键词:数据中心 环境数据 数据共享 电子政务 分布式环境下全局序列模式挖掘技术研究 被引量:3 2007年 由于分布式环境下挖掘全局序列模式常常产生过多候选序列,加大了网络通信代价。为此提出一种基于分布式环境下的全局序列模式快速挖掘算法。该算法将各站点得到的局部序列模式压缩到一种语法序列树上,避免了重复的序列前缀传输;基于合并树中节点序列规则和简单的特点,提出一种项扩展和序列扩展剪枝策略,有效地约减了候选序列,减少了网络传输量,从而快速生成全局序列模式。理论和实验表明,在大数据集环境下该算法性能优越,能够有效地挖掘全局序列模式。 胡孔法 张长海 陈崚 宋爱波 达庆利关键词:数据挖掘 数据仓库系统中一种高效的多维层次聚集算法 被引量:6 2007年 如何减少联机分析处理中多表连接和压缩维属性连接关键字,对查询数据进行有效地分组聚集操作,成为联机分析处理查询处理的关键问题。为此,提出了一种基于多维层次编码的新型预聚集算法MDHEPA。该算法充分利用编码长度较小的多维层次编码及其前缀,对事实表中的数据进行快速地分组聚集计算,大大减少和简化了多表连接操作,提高了联机分析处理查询效率。理论分析和实验结果表明,该算法是有效的。 胡孔法 陈崚 顾颀 蔡俊杰 董逸生关键词:联机分析处理 多表查询 基于单维分割的高维数据聚类算法HDCA-SDP 2008年 提出一种基于单维分割的高维数据聚类算法HDCA-SDP,该算法利用单维空间能划分数据的性质,对整个数据集进行逐维聚类,解决了传统聚类算法带来的维度困扰问题,对数据集大小和数据空间维数具有良好的可伸缩性,且聚类结果的精度比传统的高维聚类算法有较大的提高.实验结果表明,该算法在处理高维大规模数据时是有效的. 刘佳佳 胡孔法 陈凌关键词:聚类算法 高维聚类 国家环境数据中心建设研究 结合我国环境数据共享现状,对国家环境数据中心的建设思路、目标、总体结构、主要建设内容等进行了研究和探讨。国家环境数据中心依托电子政务内外网、Internet建设,主要为各级环境管理人员、科技工作者、公众等提供数据共享服务... 李顺 王利强 张波 孙强 吴班 虞朝晖关键词:数据中心 环境数据 数据共享 电子政务 文献传递