公共文化服务平台

共 6 条记录，以下是 1-6

全选清除导出

排序方式：

非结构化数据存储管理研究被引量：8: 2013年; 非结构化数据通常指相对于关系数据而言没有固定的显式结构的数据，比如视频、音频、图像、文档等非结构化数据。根据权威数据咨询机构或研究机构的预测报告显示，近5～10年的数据量将呈指数级增长，而其中的非结构化数据占到当前数字信息总量的70％~85％。面对如此庞大的数据量和信息量，如何有效管理非结构化数据、获得有价值的信息或知识显得迫在眉睫。（非结构化）数据管理可以简单化为3个目标，即：实现数据的“存得下、管得了、用的上”。本文将主要围绕前两个基本目标介绍目前的非结构化数据存储管理的研究情况。同时介绍中国人民大学非结构数据管理（UnstructuredDataManagement，UDM）研究小组基于“自由表”数据模型和BUD（BankofUnstructuredData）参考体系模型在这一个问题上所作的初步研究与探索工作，以及在原型平台myBUD中的若干存储管理技术。; 张孝周宁南; 关键词：非结构化数据管理自适应算法分布式存储系统

大数据集成中确定数据准确属性值的WR方法: 据集成是提供高质量数据进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多...; 周宁南张孝王珊; 关键词：数据库数据集成

大数据集成中确定数据准确属性值的WR方法被引量：1: 2016年; 大数据集成是提供高质量数据以进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度，得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR（weighted-rule）方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重，在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法，并证明它能够在O（n／＋2）内推导出每对属性值间的带权重的准确程度，形成推导准确属性值的约束条件.面对约束条件中可能的冲突，提出了目标求解算法，在O（n）时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验，验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3~15倍，在效果上提升7%~80%.; 周宁南盛万兴刘科研张孝王珊; 关键词：数据质量数据清洗

MyBUD自适应分布式存储管理的设计与实现被引量：3: 2012年; 面对日益增长的非结构化数据管理需求,实现了基于"自由表"数据模型和BUD(bank of unstructured data)参考体系模型的非结构化数据管理平台MyBUD系统。提出了一种能够根据非结构化数据的类型和访问特点自适应地选择分布式存储子系统的方法,同时也对MyBUD进行了TPCC测试和非结构化数据存取实验。结果表明,这种自适应的数据存储方法为MyBUD系统提供了高效的可扩展存储层,为采用数据库方法实现对结构化和非结构化数据统一管理的进一步研究工作奠定了基础。; 周宁南张孝孙新云琚星星刘奎呈杜小勇王珊; 关键词：非结构化数据管理自适应算法分布式存储系统面向服务架构

基于动态时间规整的时序数据相似连接被引量：8: 2018年; 由于蕴含事物发展规律,时序数据上的数据挖掘正成为大数据决策的重要组成部分.作为时序数据挖掘的一种基本操作,时序数据相似连接可以找出给定相似度度量下的所有相似时序数据对.研究表明,动态时间规整(Dynamic Time Warping,DTW)正在文本挖掘、趋势预测等越来越多的科学与社会应用领域中成为时序数据上目前最佳的相似性度量方法.该文首次提出采用DTW作为相似性度量方法的时序数据相似连接问题.特别地,该文首次提出了基于阈值和基于Top-k的两种DTW度量上的时间序列相似连接任务.除了服务于进一步的时序数据挖掘算法,这两个任务还具有机器翻译、关联检测等广泛的直接应用.但是,直接的相似连接方法因为时序数据的规模大、DTW计算复杂性高而不能在实际中工作.尽管存在很多基于DTW的索引和上下界计算方法,这些工作主要关注DTW度量上的快速检索而非相似连接.因此,这些方法都假设存在一个固定的时序数据作为查询,并根据查询使用时间和空间复杂度很高的方法构建索引或进行预计算.但在文中的相似连接问题中,所有时序数据都是查询,因此这些方法的构建索引和预计算的时间比直接的相似连接方法需要的处理时间还长.为此,该文针对两种相似连接任务提出了两个基于DTW上下界的剪裁框架用于减少准确DTW相似性的计算次数.基于划分,该文为DTW度量设计了新颖的上下界计算方案.由于细粒度的划分带来上下界接近准确的DTW相似性但需要更长的计算时间,而粗粒度的划分需要更短的计算时间和与准确DTW相似性有较大差距的上下界,该文设计了基于二分查找的机制来自动找到合适的划分粒度,实现了整体的高处理性能.面对单机不能容纳全部时序数据和运行时间长的情况,该文将提出的两种相似连接处理框架利用MapReduce并行计算框架扩展到了分布�; 周宁南张孝刘城山王珊; 关键词：动态时间规整时序数据

MyBUD自适应分布式存储管理的设计与实现: 面对日益增长的非结构化数据管理需求，实现了基于“自由表”数据模型和BUD参考体系模型的非结构化数据管理平台MyBUD系统。提出了一种能够根据非结构化数据的类型和访问特点自适应地选择分布式存储子系统的方法，同时也对MyBU...; ZHOU Ningnan周宁南ZHANG Xiao张孝SUN Xinyun孙新云JU Xingxing琚星星LIU Kuicheng刘奎呈DU Xiaoyong杜小勇WANG Shan王珊; 关键词：数据库系统存储管理自适应算法体系架构服务质量

全选清除导出

共1页<1>

周宁南

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

周宁南

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈