钱江波 作品数:175 被引量:483 H指数:12 供职机构: 宁波大学信息科学与工程学院 更多>> 发文基金: 国家自然科学基金 浙江省自然科学基金 宁波市自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 电子电信 理学 更多>>
LSM树中基于热度预测的异构布隆过滤器方案 被引量:4 2021年 日志结构合并(Log-Structured-Merge,LSM)树中常使用布隆过滤器减少无效磁盘I/O.但是用户无法无限制地细化布隆过滤器的粒度,原因是在一些数据量庞大而数据项较小的工作流中,这些元数据需要占用大量存储空间.其次在一些内存受限的环境下,内存缓冲区无法容纳更多的过滤器数据,造成缓冲区与磁盘的频繁数据交换.针对上述问题本文提出LSM树中的异构布隆过滤器方案,在LSM树的每一层维护热度预测模型,新生成的SSTable通过预测的热度来分配不同粒度的布隆过滤器,然后使用特定缓存管理方案来维护缓存中的过滤器数据并处理工作流热度发生改变的情况.实验证明,本文的方案在保持相同外存占用与内存消耗的情况下,读取吞吐量比采用原始LSM树结构的LevelDB提升22%~53%. 俞加平 陈华辉 钱江波 董一鸿关键词:读取性能 布隆过滤器 存储管理 一种高维大数据全k近邻查询算法 被引量:3 2015年 全k近邻(all k-nearest neighbor,AkNN)查询,是k近邻查询的一个变型,旨在在一个查询过程中为给定数据集的每个对象确定k个最近邻。提出了一种在Hadoop分布式平台下处理高维大数据的AkNN查询算法。首先使用行条化思想结合p-stable LSH算法将高维数据对象降维,然后结合空间填充曲线Z-order的优良特性,把降维后的数据嵌入一维空间中,接着进行范围查询。整个过程使用MapReduce框架分布式并行处理。实验结果表明。所提出的算法可以高效处理高维大数据的AkNN查询。 王忠伟 陈叶芳 肖四友 钱江波关键词:高维 MAPREDUCE 挖掘数据流中的频繁模式 被引量:47 2005年 发现数据流中的频繁项是数据流挖掘中最基本的问题之一·数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用·针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法·算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘·通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε·分析和实验表明算法有较好的性能· 刘学军 徐宏炳 董逸生 王永利 钱江波关键词:数据流 流数据挖掘 无线传感器网络数据管理关键技术研究 谢志军 金光 钱江波 吕玲红 于凯 张绪昌 何伟 郑军 设计了一种传感器网络中基于域聚簇的自适应区域连接算法,提出了一种基于域的分布式自动成簇算法和基于支配能力的迭代过滤技术,研究了传感器网络存储技术,提出了感知数据命名的方法和一种多分辨率的基于压缩的数据存储模型.项目将RF...关键词:关键词:无线传感器网络 数据管理 一种基于高维数据过滤器的近似成员查询方法 本发明公开了一种基于过滤器的高维数据近似成员查询方法,通过定义新的距离敏感哈希函数支持的新结构<Image file="DDA0000593739590000011.GIF" he="158" imgContent="d... 陈叶芳 钱江波 陈华辉文献传递 基于数据挖掘决策树的犯罪风险预测模型 被引量:32 2003年 简要介绍了数据挖掘技术在犯罪行为分析上的利用和决策树构造方法,结合一个犯罪人员数据集市的样本数据,采用决策树分析方法进行了尝试性的数据挖掘,给出了一个较为成功的挖掘思路和模式,得出了有效的分析结论。 金光 钱家麒 钱江波 黄蔚民关键词:数据挖掘 决策树 基于时间和关系感知的图协同过滤跨域序列推荐 被引量:3 2023年 跨域序列推荐旨在从给定的某用户在不同领域中的历史交互序列中挖掘其偏好,预测其在多个领域中最可能与之交互的下一个项目,以缓解数据稀疏对用户意图捕捉和预测的影响.受协同过滤思想启发,提出一种基于时间和关系感知的图协同过滤跨域序列推荐(timeandrelation-awaregraph collaborative filtering for cross-domain sequential recommendation,TRaGCF)算法,充分挖掘用户高阶行为模式同时利用跨域用户行为模式双向迁移,解决序列推荐中的数据稀疏问题.首先,为获得用户行为序列中项目间复杂的时序依赖关系,提出时间感知图注意力(time-aware graph attention,Ta-GAT)学习项目的域间序列级表示;其次,通过域内用户-项目交互二部图挖掘用户的行为偏好,提出关系感知图注意力(relation-aware graph attention,Ra-GAT)学习项目协同表示和用户协同偏好表示,为用户偏好特征的跨域迁移提供基础;最后为同步提高2个领域中的推荐效果,提出用户偏好特征双向迁移模块(user preference feature bi-directional transfer module,PBT),实现迁移用户域间共有偏好,保留用户域内特有偏好.在Amazon Movie-Book和Food-Kitchen数据集上验证了算法的正确性和有效性.实验结果表明,在跨域序列推荐场景下考虑项目间深层复杂的关联关系对挖掘用户意图十分必要;实验还验证了在跨域迁移用户偏好过程中保留域内用户特有偏好对全面用户画像的重要性. 任豪 刘柏嵩 孙金杨 董倩 钱江波关键词:数据稀疏 一种面向大规模数据的自适应最近邻查询方法 本发明公开了一种面向大规模数据的自适应最近邻查询方法,特点是首先获取包含多个原始大规模数据的数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始数据集构造成若干个子数据集,然后学习得到与每个子... 任艳多 钱江波 孙瑶 胡伟文献传递 一种用于海明空间下近似成员查询的布隆过滤电路 本发明公开了一种用于海明空间下近似成员查询的布隆过滤电路,特点是包括多个并联的过滤单元和一个或门,过滤单元的输入端与输入信号连接,过滤单元的输出端与或门的输入端连接,或门的输出端输出过滤信号,优点在于多个并联的过滤单元和... 钱昱成 钱江波 黄志鹏 陈叶芳 陈华辉分布式数据流增量聚集 被引量:9 2006年 分布式处理是数据流管理中的主流技术,聚集是分布式数据流系统中一种重要的连续查询类型.在分布式数据流环境中,由于需要连续计算聚集值,并且在分布式网络中连续传送聚集值,导致系统的通信开销非常大.为了有效地减少网络中数据流的传输量,提出了一种近似增量聚集算法(approxi-matelyincremental aggregate over distributed data stream,AIADDS).算法增量地计算网络中各个站点的聚集值,只有当聚集值的改变超出给定的阈值才向其他站点传送聚集改变量,这样,可以显著地降低网络的数据传输量.作为算法核心的VSB-Tree能够有效地合并、存储来自孩子站点的聚集值,同时增量地向它的父站点传送聚集改变量.理论分析和实验结果表明,算法是行之有效的. 王永利 徐宏炳 董逸生 钱江波 刘学军关键词:数据流 分布式系统