复旦大学计算机科学技术学院上海市数据科学重点实验室
- 作品数:21 被引量:136H指数:6
- 相关作者:史喜斌曹海更多>>
- 相关机构:苏州大学计算机科学与技术学院山东大学计算机科学与技术学院上海交通大学电子信息与电气工程学院计算机科学与工程系更多>>
- 发文基金:国家自然科学基金上海市科学技术委员会资助项目上海市科学技术发展基金更多>>
- 相关领域:自动化与计算机技术经济管理石油与天然气工程航空宇航科学技术更多>>
- 基于Spark的遥感数据分析方法被引量:1
- 2015年
- 随着遥感技术的快速发展,遥感数据呈爆炸式增长,给遥感数据计算带来巨大的挑战。采用基于内存计算的Spark分布式计算框架以克服该问题,并选择YARN作为资源调度系统和采用HDFS为分布式存储系统。Spark是一个开源的分布式计算框架,基于弹性分布式数据集(RDD)概念,采用先进的有向无环图执行机制以支持循环数据流操作,通过一次数据导入内存就可以完成多次迭代运算。因而,特别适合基于多次迭代的大数据计算分析方法,相较于每轮迭代需把数据导入内存的Map Reduce有更大的优势。将该计算框架应用于海量遥感数据分析,验证需要多次迭代的奇异值分解(SVD)算法在该数据分析中的有效性。实验表明,随着迭代次数增加,基于Spark的SVD运算效率相对于Map Reduce有明显提高,通常可提高一个数量级。
- 陈峰科孙众毅池明旻
- 关键词:遥感数据HADOOPSPARKMAPREDUCE
- 一种基于时空稀疏注意力的时空图挖掘算法
- 2023年
- 当前用于时空图挖掘的算法通常基于专家预定义或者经过特征增强的静态图结构,这些静态的图结构往往依赖于主观先验知识构建,并且不包含时间动态性的变化。为完成自动获取时空图数据中动态图特征的任务,提出一种基于时空稀疏注意力的时空图挖掘算法(STSAN)。构造空间稀疏注意力层,通过对每个时间片上节点间的关系进行度量生成稀疏图,并在各个稀疏图结构上使用注意力机制完成节点空间(纵向)特征的提取。时间稀疏注意力层通过类似的方式完成节点时序(横向)特征的提取。在此基础上,将空间稀疏注意力层和时间稀疏注意力层堆叠为时空稀疏Transformer模块,完成时空依赖关系建模。实验结果表明,与DCRNN、STGCN等方法相比,该算法在2个公开的交通数据集上能够获得2.65%~16.35%的性能提升,将所提出的空间稀疏注意力层直接用于替换现有算法的空间特征模块,能够在原算法基础上获得平均3.18%~9.14%的性能提升。
- 谢毅王强李海宏金诚任洪润薛雯熊贇
- 关键词:图结构动态性
- 基于特征迭代的短文本去重算法被引量:4
- 2015年
- 由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。
- 曹海孙婧史喜斌
- 关键词:共享最近邻迭代去重
- 基于角色的网络表征学习方法
- 2021年
- 网络表征学习技术被广泛应用于获取网络中节点的特征及其语义。已有网络表征学习方法主要研究邻接矩阵或邻接矩阵的幂,使得向量空间中一个节点的相似节点存在于网络中与它相近的局部区域,而未考虑全局区域的结构等价性。根据角色信息,提出基于角色的矩阵分解(Role-MF)模型来获取节点表示。Role-MF模型将角色信息融合在随机游走方法中,在考虑局部信息的同时利用角色信息设计明确的目标矩阵,并通过奇异值分解得到节点表征。实验结果表明,与现有的DWMF、DeepWalk等模型相比,Role-MF模型可以保留结构等价性,当训练比例为10%和90%时,F1值和AUC等各项指标在节点分类和链路预测中都取得了更好的效果。
- 徐攸王晓萍熊贇
- 关键词:矩阵分解随机游走
- 基于图双向选择注意力的公司任职预测算法
- 2024年
- 基于员工与公司潜在的双向选择关系来预测未来员工的去向以及公司的人才引进情况,这些预测信息对于金融、招聘等从业人员在判断公司未来发展和寻找潜在求职者等工作具有指导意义。为了获得节点间的双向选择信息并强化节点信息以增强预测效果,在公司与员工及其相关数据构建成的异质图下利用自编码器和三层注意力机制来生成用于任职预测的双向选择向量及节点向量。根据在真实数据集上的实验,该方法在任职预测任务下的预测效果要优于现有方法,同时提高了预测的可解释性。
- 潘文韬熊贇朱扬勇
- 基于多粒度特征蒸馏的遥感图像场景分类研究被引量:2
- 2021年
- 深度神经网络广泛应用于遥感图像场景分类任务中并能大幅提高分类精度,但隐藏层数较少的神经网络在标记数据不足的遥感场景分类中泛化能力较低,而隐层较多的网络往往需要较大的计算量和模型存储空间,限制了其在嵌入式设备上的应用。提出一种针对遥感图像场景分类的多粒度特征蒸馏方法,将深度网络不同阶段的特征与最终的类别概率同时作为浅层模型的监督信号,使得浅层模型能够同时学习高级与低级的语义特征,从而提高浅层模型的分类性能与泛化能力。在UC Merced Land-Use和SIRI-WHU2个数据集上的实验结果表明,该方法能使模型在大幅降低网络参数量和计算量的情况下明显提高分类性能,与传统知识蒸馏方法相比,其分类精度更高。
- 刘瑄池明旻
- 关键词:遥感图像卷积神经网络
- 一种自适应的分布式数据流处理调整技术被引量:4
- 2015年
- 由于数据流速率的不稳定特性,将数据流查询部署在固定数量的结点上会导致分布式数据流管理系统(DDSMS)难以高效地利用计算资源。为此,针对目前支持一个结点运行多个实例模式的DDSMS,提出一种基于操作符组的自适应动态调整技术,包含桶机制的路由管理、生成调整策略和调整执行计划等方法。通过监控当前执行计划的运行状态,DDSMS生成代价较小的调整策略,并对当前执行计划进行调整。在数据流处理的基准测试数据上进行实验,结果表明,该调整技术可以更加细粒度地制定调整策略,灵活应对数据流速率的变化。
- 马元文王鹏周之敏汪卫
- 关键词:数据流查询分布式状态管理
- 实用的云环境下可验证的身份基匿名保序加密
- 2022年
- 保序加密可以使用户在密文上直接比较明文的大小,但是目前已有的保序加密方案都不可以验证密文的完整性和正确性。云服务器可能会传送给用户不完整或不可信的密文,但有时数据拥有方不希望公布自己的身份。因此构建云环境下可验证的身份基匿名保序加密。算法提供身份授权,即所有用户可以进行范围查询,而只有特权用户才可以进行获取数据拥有者身份、验证和解密操作;身份基的方式便于可特权访问多个数据库的用户的私钥管理。使用该算法加密数据后,对数据进行的范围查询效率较高,对32 bit和64 bit数据的比较操作仅需要0.28μs和0.42μs。
- 黄霖赵运磊
- 关键词:范围查询身份验证云计算
- 基于知识图谱的金融新闻个性化推荐算法被引量:19
- 2021年
- 个性化新闻资讯推荐能够有效地捕捉用户兴趣,提供高质量推荐服务的能力,因而吸引了大量高黏性用户,而知识图谱则以“实体-关系-实体”的形式表示事物间的关系,通过知识图谱中实体间的关系学习到更丰富的特征及语义信息。为更好地实现金融领域新闻的个性化推荐,提出一种基于知识图谱的个性化推荐算法KHA-CNN。结合金融业知识图谱,采用基于知识的卷积神经网络和层次注意力机制得到新闻文本的特征表示,并学习用户复杂行为数据特征。在真实数据集上的实验结果表明,与Random Forest、DKN、ATRank-like算法相比,KHA-CNN算法的F1和AUC指标分别提高了2.6个和1.5个百分点。
- 陶天一王清钦付聿炜熊贇俞枫苑博
- 关键词:知识图谱
- 比特币扩容技术的发展现状与展望被引量:7
- 2019年
- 比特币这一颠覆性的发明,以其去中心、匿名、不可篡改等特点,带来"机器信任"的转变,引领人们进入区块链技术的新时代。由于在信任领域前所未有的颠覆性,比特币近年来热度居高不下,市场价格也是不断增长。抛去利益层面的诱惑,理性来谈,比特币这一区块链技术的鼻祖,其发展正面临着种种限制瓶颈,亟待解决。其中最让人诟病的便是比特币因容量、吞吐量与可扩展性不足,所带来的交易拥堵、交易处理延迟等现象,近年来这些现象变得愈演愈烈。在此背景下,不少专家学者、社区、矿池以及技术爱好者站在各自利益的角度,就比特币扩容问题展开激烈的讨论,但始终没有达成一个彼此满意的方案。总结比特币现有的5种主流扩容技术:支付通道、隔离见证、提高区块容量限制、多重签名、聚合签名,分析它们的实现原理与发展现状,并对未来可能的扩容方案进行展望。
- 常兴赵运磊
- 关键词:区块链多重签名聚合签名