宋晓燕
- 作品数:7 被引量:17H指数:3
- 供职机构:沈阳航空工业学院计算机学院更多>>
- 发文基金:辽宁省自然科学基金国家科技型中小企业技术创新基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种ODS环境下的混合数据清洗策略
- 2006年
- DB-ODS-DW三层体系结构满足了信息处理的多层次需求,ODS在其中承担了重要的角色.为了提高ODS中的数据质量,进入到ODS环境中的数据必须经过清洗.在给出ETL过程中数据清洗模型的基础上,针对已知和未知的错误类型,以及语义上的错误,提出了一种自动清洗和人为清洗相混合的数据清洗策略,具有较好的现实意义.
- 刘哲夏秀峰宋晓燕林桐
- 关键词:数据仓库数据清洗
- 数据仓库实视图增量维护策略研究
- 数据仓库中的数据大多来源于多个分散、异构及自治的底层业务数据库,其信息以实视图的形式存储。通过物理上的预先存储,加快了查询响应时间,大大提高了数据仓库的性能。然而,底层数据库中的数据是不断变化的,为使数据仓库实视图能够同...
- 宋晓燕
- 关键词:数据仓库实视图聚集函数触发器
- 文献传递
- 基于扩展元数据的预聚集增量更新改进算法
- 2008年
- 在数据仓库中通常采用预聚集操作生成聚合数据的方法提高查询效率,由于维表不可避免发生纠错改变和自然改变,从而引发了预聚集的纠错改变和自然改变.在对现有更新方法研究的基础上,提出一种利用扩展元数据中当前标志指示符和聚集相关指示符来简化更新过程的方法,避免了对事实表进行不必要的修改;同时针对不同的聚集函数提出了不同的处理方法,分析结果表明,提出的方法有效可行.
- 夏秀峰宋晓燕刘哲林桐
- 一种中文地址类相似重复信息的检测方法被引量:7
- 2008年
- 数据仓库中相似重复记录的识别与消除是数据清洗的热点问题,其中地址类信息对相同实体识别起着非常重要的作用.针对中文地址类信息的处理,建立了包含分词规则的元数据库,提出一种相似重复检测模型.在此基础上,描述了基于特征字符的分词算法和利用可变权值策略计算记录相似度的算法.实验结果表明该方法能有效解决中文地址类重复信息的检测,提高了算法的执行效率及检测精度.
- 刘哲夏秀峰宋晓燕林桐
- 关键词:相似重复记录中文地址分词
- 基于元数据仓的ODS模型创建技术的研究被引量:3
- 2007年
- 在数据仓库系统DB-ODS-DW三层体系结构中,ODS具有承上启下的重要作用。传统的ODS对元数据的管理没有一个统一的平台,致使元数据管理成本较高,并难于维护。提出了一种针对于ODS的元数据管理的元数据仓技术,该方法使ODS元数据的管理更加规范化,且与元数据存储库相比具有复杂度小,成本低的优点。在此基础上,提出了一种基于元数据仓的ODS创建模型。
- 林桐刘哲宋晓燕夏秀峰
- 关键词:公共仓库元模型
- 基于CWM的ODS元模型设计技术的研究与实践被引量:2
- 2008年
- 在数据仓库系统的DB-ODS-DW三层体系结构中,ODS充当了承上启下的重要角色,但传统的ODS构建技术和元数据管理方法成本较高,而且在不同厂商的数据仓库和业务分析工具之间的互操作困难.以特种设备检验机构为背景,以特种设备事故分析需求为驱动,提出了一种基于公共仓库元模型的ODS元模型构建技术,进而使用JMI对元模型予以实现.该方法可提高模型的重用性,并对各工具间提供了公共的交换机制,降低了开发成本.
- 夏秀峰林桐宋晓燕于戈
- 关键词:公共仓库元模型
- 数据仓库系统中渐变维度更新策略的研究被引量:4
- 2006年
- 数据仓库通常按多维模型组织数据,随时间的推移,维度不可避免地会发生变化,此时,需要及时对维度进行更新,以免影响数据仓库中数据的准确性。首先从理论上总结了数据仓库系统中维度更新的经典策略。针对复杂需求,需要混合使用基本渐变维度来实现更新,同时提出了一种将清除旧数据和保存历史相结合的方法,可进一步提高决策分析的高效性。
- 宋晓燕刘哲林桐夏秀峰
- 关键词:数据仓库