广东省教育部产学研结合项目(2007B090400095) 作品数:15 被引量:49 H指数:4 相关作者: 潘久辉 刘波 张晓刚 杨路明 邹先霞 更多>> 相关机构: 暨南大学 中南大学 香港城市大学 更多>> 发文基金: 广东省教育部产学研结合项目 广东省科技计划工业攻关项目 广东省自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
数据集成中XML Schema到关系模式的转换方法 被引量:3 2010年 根据XML Schema中组件的定义及组件之间的嵌套关系,建立一系列从XML Schema转换成关系模式的结构映射规则和语义映射规则。基于这些规则实现一种转换算法,从Schema中提取出关系模式,并且证明映射得到的关系模式满足4NF。结果表明得到的关系模式不仅包含了XML Schema中所有的结构和内容信息,还能保留大部分语义约束信息,减少存储冗余。 聂玲 刘波关键词:XML SCHEMA 映射规则 语义约束 采用属性相关分析的异常数据检测方法 被引量:7 2011年 为了发现数据库中的异常数据,提出了两个数据项集之间相关可信度的新概念,并研究了基于该度量的异常数据检测规则的计算算法,产生的规则适合于离散型属性孤立点的检测。在计算检测规则中,最小相关可信度阈值不需由用户指定,而是根据1-数据项集的频率确定;利用相关可信度的性质,可以减小检测规则计算算法的时间复杂度。实验结果表明,采用该方法计算获得的相关规则进行异常数据检测,不仅效率较高,而且检测的准确率、查全率也较高。 刘波 潘久辉关键词:异常数据 基于语义约束的实视图自维护方法 被引量:1 2010年 在实化视图自维护方法的基础上,提出了一种新的算法。该算法使用源表之间的语义约束优化视图增量计算表达式,减少了增量查询的个数和访问源表副本的次数,从而降低了访问数据库的开销,提高了增量计算的效率。同时,给出了实验证明。 谭兵 许娇阳 王俊贤 任洪庆关键词:实化视图 语义约束 通过源关系补偿降低实化视图维护查询代价 2012年 为了解决分布式环境下实化视图维护时基于补偿查询修正维护查询结果所导致的计算及传输代价较高的问题,提出了一个实化视图维护方案:源关系补偿维护(SRCM)方案.它通过补偿并发更新冲突把维护查询涉及的源关系回退到所需状态,然后直接计算并返回正确查询结果.基于代价模型的分析及模拟实验结果表明,SRCM方案与以前的SWEEP和MEDWRAP方案相比,有效地降低了维护查询的整体代价. 张晓刚 杨路明 潘久辉关键词:实化视图 规则评估方法与数据质量挖掘系统 被引量:4 2009年 为从数据挖掘结果中获得真正有用的规则,探讨了评估规则的度量,提出了度量关系的新概念,并应用于发现与评估有用规则集的算法中。经过度量函数之间的相关分析,确定适合的度量,并据此对规则进行兴趣度评估,指导用户对有用规则的选择。此外,为了解决数据集成系统中存在"垃圾"数据的问题,提出了数据质量挖掘与控制系统框架,将数据挖掘规则应用于数据质量管理中。使用经过评估筛选得到的规则,能够检测数据库中的异常和不完整数据,解决数据集成过程中部分数据质量问题。通过企业信息集成实例,说明了规则评估及应用方法的有效性。 刘波 潘久辉 刘佩珊关键词:数据挖掘 数据质量 基于数据库日志的变化数据捕获研究 被引量:19 2012年 变化数据捕获方法是数据集成基础设施的战略组成部分,不断推动ETL、EAI等技术的发展.许多数据库厂商都提供了自己的CDC(Change data capture)产品,但只限于针对本身的数据库系统,价格也比较昂贵.虽然通过扫描数据库日志文件可以捕获变化数据,但大多数数据库系统都不提供日志文件的内部格式而只是提供日志访问的程序接口,如Oracle,SQL Server和DB2等.这些提供的接口有的访问活动日志,有的访问稳定日志,有的访问归档日志,因此很难保证读取日志文件的可靠性.现有的研究主要是如何利用程序应用接口读取日志文件,忽略了对可靠性的分析.本文针对读取不同类型的日志文件的可靠性条件进行了分析,提出了可靠读取规则及读取算法;并提出了从日志文件中有效抽取变化数据算法,实验证明了可靠性分析模型. 邹先霞 贾维嘉 潘久辉关键词:数据库日志 可靠性 共享多版本源视图的多实化视图异步增量维护 2013年 为了解决补偿和多版本在多实化视图维护上性能不理想的问题,提出了共享多版本源视图的多实化视图异步增量维护方案SMVM(源多版本视图维护).在SMVM中,集成端的实化视图直接定义在多个数据源的共享引用多版本源视图上,并且在收到源视图的数据更新后,向其他相关数据源发送基于版本的维护查询,以此来进行多实化视图的异步增量维护.这样在完全避免数据源并发更新导致增量查询异常的同时,提高了多个实化视图异步增量维护的整体性能,且基于元组标志的视图增量补偿方法使得对源视图的维护更有效.实验结果验证了SMVM的可行性和有效性. 张晓刚 杨路明 潘久辉关键词:异步 多版本 共享 视图增量计算的延迟部分补偿算法 被引量:1 2011年 为解决异步传播算法中视图增量计算时间过长、占用系统资源过多及某些错误补偿问题,提出了在数据源上进行延迟部分补偿的算法。该算法要求获取数据源的基表增量时记下增量的事务时间,在实化视图层记录已用于视图增量计算的基表增量的最大事务提交时间。当计算实化视图新的增量时,比较同一个数据源在实化视图层上的记录时间与增量子查询的执行时间,如果这段时间基表产生新的增量,则进行补偿查询。补偿过程采用单个数据源上的时间进行比较,避免了全局时间问题,也解决了现有部分补偿算法可能产生的错误。该算法利用基表之间的主外码约束来减少计算次数,提高计算效率。分析和实验表明,该算法在计算效率和正确性方面都有所提高。 邹先霞 潘久辉 贾维嘉关键词:实化视图 数据仓库 通过诊断图分析的快速诊断算法 被引量:4 2009年 基于模型诊断的主要思想是:根据系统的逻辑模型以及系统的输入,通过逻辑的推理理论能推导出系统在正常情况下的预期行为,如果观测到的系统实际行为与系统预期行为有差异,则说明系统存在故障.当系统故障时,可通过逻辑的推理理论来确定引发故障的元件集合.由于经典的基于模型诊断采用的是逻辑推理的手段来产生诊断集合,这导致了传统的基于模型诊断算法的效率非常低下.文中在原有模型诊断基础上,重新定义了诊断,并提出了一种用于诊断的诊断图的数据结构.在此基础上给出了一种基于诊断图分析的快速诊断算法.由于文中的诊断方法是一种过程化的方法,与Reiter的模型诊断的基于逻辑的方法有着本质的不同.因此,文中的方法能很好地克服经典模型诊断效率过低的问题,为诊断问题的求解带来新的前景.实验结果证明了这种新的诊断方法的高效性. 陈蔼祥 陈清亮 潘久辉 姜云飞 杨晋吉面向数据集成的一种高效一致性查询方法 被引量:3 2014年 一阶查询的SQL可表达性使得基于数据库修复的一阶查询重写方法在解决不一致数据库上的一致性查询问题上更具实际应用价值,但现有方法生成的一致性查询重写的执行效率不够理想.本文重点考虑在数据集成环境下如何有效地提高一致性查询的执行效率,同样针对合取查询类Cforest提出了基于OR-database集成模式的一致性查询重写算法ConsRewrite_OR.基于线性工作度量的查询代价分析以及Oracle 10g上的TPC-H模拟实验都充分地说明本文算法产生的一致性查询与Fuxman的查询重写相比在集成数据库上具有更好的执行效率. 张晓刚 杨路明 潘久辉关键词:查询重写