搜索到38篇“ 数据偏斜“的相关文章
一种数据偏斜分布下的Hilbert编码和解码方法
本发明涉及一种数据偏斜分布下的Hilbert编码和解码方法,属于图像存储,空间数据库索引等技术领域。包括Hilbert曲线状态视图构建阶段,构建编码和解码的映射表,用于实现编码值和坐标之间的映射、及其到下一阶状态的映射;...
李孟娟贾连印李润鑫梁彬彬王维晨岳跃华张钰娜
数据偏斜分布下的二维Hilbert编解码算法被引量:3
2022年
高效的Hilbert曲线的编解码算法作为Hilbert曲线应用的基础,具有重要的研究意义。现有算法多未考虑数据偏斜分布的影响,因此在数据偏斜分布时效率较低。该文发现:对于特定的前m阶坐标,其对应的前m阶编码值与其第1阶编码值呈现特定的倍数关系;对于特定的前m阶编码值,其对应的前m阶坐标与其第1阶坐标呈现特定的倍数关系。基于这一发现,在融合高效位操作、快速置位检测等技术的基础上,提出了跳过前m阶的编码(skipping the first m orders Hilbert encoding, SFO-HE)算法和跳过前m阶的解码(skipping the first m orders Hilbert decoding, SFO-HD)算法。这2个算法无需对前m阶逐阶编解码,可有效提高数据向Hilbert空间4个顶点偏斜时的编解码效率。扩展实验表明:该文算法对数据偏斜分布具有更好的适应性,在特定偏斜分布时效率大幅优于现有算法。
贾连印孔明王维晨李孟娟游进国丁家满
关键词:HILBERT曲线编解码算法
一种数据偏斜分布下的Hilbert编码和解码方法
本发明涉及一种数据偏斜分布下的Hilbert编码和解码方法,属于图像存储,空间数据库索引等技术领域。包括Hilbert曲线状态视图构建阶段,构建编码和解码的映射表,用于实现编码值和坐标之间的映射、及其到下一阶状态的映射;...
李孟娟贾连印李润鑫梁彬彬王维晨岳跃华张钰娜
文献传递
数据偏斜条件下个人文本数据分类的研究与实现
随着智能化时代的到来,计算机数据管理正逐步由手工化向智能化转变,个人信息的智能管理也成为了热门的研究领域。如何高效管理日益增多的个人文档,提高工作效率,是数据分析与挖掘领域的重要研究课题。近年来,文本分类技术的不断进步使...
高立群
关键词:数据偏斜文本分类
基于数据偏斜条件下Reduce任务放置机制的研究
随着网络技术的不断发展,互联网已经越来越普及,各行各业都受到它的影响,网络用户数目不断攀升,这也使得互联网中所产生的数据朝着大和杂的方向发展,对这类型数据的分析处理和挖掘搜索已经成为互联网行业新的方向,同时这些都为分布式...
马稳
关键词:数据传输
文献传递
数据偏斜条件下面向性能与能耗的任务调度算法研究
随着互联网技术的不断蓬勃发展,信息化已经逐渐渗透到各行各业,与人类的生活密不可分。互联网用户数量的成倍增长,直接导致了海量数据爆发式的增长,使得分布式计算与云计算有了发展的平台。如何使用更为高效的计算框架来从海量数据中提...
祁玲
关键词:海量数据任务调度数据偏斜
文献传递
一种基于数据偏斜的改进KNN文本分类被引量:6
2010年
KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能.
刘海峰陈琦刘守生苏展
关键词:文本分类改进KNN相似度
数据偏斜的高效并行join运算算法研究
2008年
通过分析ABJ+算法和Hybrid hash join算法,并对两个算法进行了结合和改进,提出了一种能克服各种数据偏斜的并行二元连接运算算法,可在不同的数据偏斜情况下启动不同的模块,克服数据偏斜造成的负载不平衡现象。
卢姝颖朱平
关键词:数据偏斜并行数据库HYBRID
数据偏斜和工作量平衡的度量
2004年
在进行并行关联规则挖掘时,数据偏斜和工作量平衡这两个数据分布特征影响着剪枝的有效性.本文提出了用定量的方式对数据偏斜和工作量平衡进行度量,并对不同值的组合进行了分析,以便在以后研究算法时可以有效地调整这两个特征值以提高剪枝的性能.
费晓燕鲁汉榕
关键词:数据偏斜
一个机群环境下抗数据偏斜的JOIN算法
2004年
提出了一种计算机机群环境下JOIN算法,防止数据偏斜对机群执行效率的影响.给出了数据分布树的形式化定义,构造了基于数据分布树的数据均衡分布机制、抗数据偏斜的JOIN算法.分析和实验表明,该算法适合于海量数据查询并能有效地解决机群并行环境下数据偏斜所造成的查询性能低下的问题.
那丽春陈庆奎徐宇清
关键词:计算机机群数据偏斜JOIN算法海量数据

相关作者

洪晓光
作品数:99被引量:106H指数:6
供职机构:山东大学
研究主题:数据库 XML 查询优化 XML文档 查询
董继润
作品数:45被引量:108H指数:6
供职机构:山东大学计算机科学与技术学院计算机科学与技术系
研究主题:数据库 面向对象 分布式数据库 主动数据库 并行数据库
张秋余
作品数:298被引量:1,409H指数:17
供职机构:兰州理工大学
研究主题:语音 感知哈希 语音检索 数字水印 语音感知
李孟娟
作品数:11被引量:0H指数:0
供职机构:云南师范大学
研究主题:HILBERT 查表 HILBERT曲线 编码过程 编解码算法
王新军
作品数:119被引量:718H指数:15
供职机构:山东大学经济学院
研究主题:并行数据库 健康 老年人 经济增长 实证分析