公共文化服务平台

黄宜华: 作品数：125 被引量：400H指数：13; 供职机构：南京大学更多>>; 发文基金：国家高技术研究发展计划国家自然科学基金江苏省科技支撑计划项目更多>>; 相关领域：自动化与计算机技术文化科学电子电信航空宇航科学技术更多>>

合作作者

Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统: 随着互联网应用的迅猛发展和语义网技术研究的深入开展,语义数据呈现出爆炸性增长的态势。一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础,越来越多的语义应用可以依赖于此提供更好的服务；另一方面,语义数据的爆炸性增...; 顾荣仇红剑杨文家胡伟袁春风黄宜华

Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统被引量：11: 2017年; 随着互联网应用的迅猛发展和语义网技术研究的深入,语义数据呈现出爆炸性增长趋势.一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础,越来越多的语义应用可以依赖于此以提供更好的服务;另一方面,语义数据的爆炸性增长,对大数据环境下的语义数据的存储与查询技术提出了新的挑战.传统的基于关系型数据库的语义数据与查询系统已难以满足大规模语义数据的存储与查询需求.该文针对大规模RDF数据的存储与查询问题,以OpenRDF Sesame框架为基础,采用分布式分层式存储架构,提出并实现了属性表存储结构来进行语义数据的存储.在此基础上,针对布尔矩阵分解算法在对大规模语义数据构造属性表较慢的问题,基于Spark分布式计算框架提出并实现了并行化频繁项集挖掘算法求解大规模矩阵分解,以加速属性表的构造过程.并且,在查询层增加了基于哈希转换等查询优化.最后,基于该文所提出的索引结构和优化方法设计实现了原型系统Goldfish,并在大规模合成和真实数据集上进行了实验对比.结果表明,Goldfish原型系统比Rainbow系统查询性能平均提升约6倍,比Jena-HBase查询性能平均提升约500倍,比基于MapReduce的RDF查询系统SHARD性能平均提升约1200倍.; 顾荣仇红剑杨文家胡伟袁春风袁春风; 关键词：矩阵分解语义网 SPARK

在交互式R语言平台中进行并行线性代数计算的方法: 本发明公开了一种基于交互式R语言平台的并行化线性代数计算的方法，包括以下步骤：提供两个计算平台，一个是交互式R语言平台，另外一个是并行线性代数计算平台，两个计算平台通过计算机网络进行通信；然后在交互式R语言平台中，设计实...; 顾荣王肇康黄宜华樊士庆; 文献传递

基于Spark的LIBSVM参数优选并行化算法被引量：21: 2016年; 利用Spark集群设计LIBSVM参数优选的并行化实现.LIBSVM是一款广泛使用的SVM软件包,广泛应用于模型搭建、样本训练和结果预测等方面.在用LIBSVM训练数据集时,参数的选择对训练结果影响显著,其中以参数C和g最为重要.LIBSVM软件包中采用网格搜索算法对C、g参数组合进行寻优,尽管该算法在单机上实现了并行化,但当数据量达到一定程度时,仍需要花费大量的时间.基于Spark并行计算架构,进行了LIBSVM的C、g参数网格优选并行算法的设计与实现.实验结果表明,提出的并行粗粒度网格搜索C、g参数优选算法比传统算法速度提升了近7倍,而且这一提升将随着集群规模的扩大而进一步加大.另一方面,在粗粒度网格搜索的基础上,进而提出的细粒度并行网格搜索算法又进一步提升了C、g参数组合的优选结果.; 李坤刘鹏吕雅洁张国鹏黄宜华; 关键词：LIBSVM 网格搜索并行化 SPARK

一种基于热点数据上流的云平台键值存储数据编排方法: 本发明公开了一种基于热点数据上流的云平台键值存储数据编排方法。该方法首先定义了一个实时跟踪时间窗口中键值数据的近似数据结构；然后，通过该数据结构得以实时获取键值数据最新的访问频次和时刻；随后，根据数据访问频次和时刻信息得...; 吴侗雨顾荣罗义力李思勉袁春风黄宜华

一种机器学习流水线自动化设计的方法: 本发明公开了一种机器学习流水线自动化设计方法，将机器学习流水线的构建过程分为两部分：结构搜索和超参调优，将结构搜索过程建模为强化学习问题，使用强化学习算法学习搜索策略；在确定了机器学习流水线的超参数后，再使用贝叶斯优化对...; 朱光辉黄宜华方鑫

一种阈值自适应的集合相似连接方法: 本发明公开了一种阈值自适应的集合相似连接方法，对于保存在数据库中的由集合记录构成的数据集R和S,以及相似度阈值τ，共包含六个步骤，其中前两个步骤属于数据预处理阶段，后四个步骤属于相似连接阶段：第一步，对R和S中所有的集合...; 顾荣黄宜华王肇康王申; 文献传递

一种融合系统语义的大数据系统参数自动优化方法: 本发明公开了一种融合系统语义的大数据系统参数自动优化方法，包括如下步骤：对系统运行作业和数据集进行特征提取；学习历史作业和数据集的大数据系统参数调优日志，形成参数预测模型；根据作业和数据集特征，预测较优的参数配置；从预测...; 顾荣韦佳佳黄宜华

CCHMDBS；一个分布协作超媒体中文文档库写作系统被引量：6: 1996年; 本文阐述了一个面向大容量超媒体中文文档协作写作系统的主要设计思想和实现。着重介绍了系统的新一代超媒体系统特征和核心技术，如超链自动链接技术，超媒体系统的中文处理技术尤其是中文检索技术，分布与协作写作技术，文档目录可视化组织管理技术等。; 黄宜华尤晓白纪元张福炎; 关键词：超文本超媒体多媒体

跨语言用户态文件系统框架读写性能优化被引量：1: 2023年; 以深度学习为代表的数据分析应用越来越多依赖分布式文件系统存储管理大规模数据集.为了增强数据访问的兼容性,现有分布式文件存储系统通常需提供标准POSIX接口,以支持深度学习等应用的无缝对接.然而,以内核模块形态开发提供POSIX接口的文件系统非常复杂耗时.近年来,用户态文件系统(Filesystem in Userspace,FUSE)框架大幅简化了文件系统的开发工作,已被Alluxio和Ceph等诸多知名分布式文件系统使用.目前常用的用户态FUSE库libfuse仅提供C语言编程接口,但现有大数据分布式文件系统基本都是基于Java语言开发的(例如HDFS和Alluxio等),为了使基于Java语言开发的分布式文件系统可以对接C语言开发的FUSE库,需采用跨语言FUSE框架作为中介.跨语言FUSE框架利用跨编程语言的函数回调机制,使操作系统FUSE库的C语言函数可以跨语言的调用分布式文件系统提供的Java语言编程接口,从而为大数据分布式文件系统提供标准POSIX接口的访问能力.但在数据密集型应用中,现有跨语言FUSE框架的执行效率低,导致数据密集型作业(深度学习、大数据分析等)中数据I/O耗时占据了显著的性能开销,成为新的潜在性能瓶颈.针对此问题,本文首先评估分析了重要且广为使用的跨语言FUSE框架JNR-FUSE的性能,发现并定位其在高并发和小文件场景下存在的性能瓶颈;接着从多方面剖析性能瓶颈根因,进而总结出高效跨语言FUSE框架的性能优化方向,并面向Java语言设计实现了跨语言FUSE框架JNI-FUSE.JNI-FUSE利用延迟分离和元信息缓存等优化技术降低跨语言函数回调开销,从而提升跨语言FUSE框架的性能.实验结果表明,对比当前性能最好的Java FUSE框架JNR-FUSE,本文提出的JNI-FUSE带来了1.15~6.04倍的FUSE框架性能提升和1.90~2.71倍的文件系统端到端性能提升,并为上层深度学习训练任务带来了1.06~1.73倍的训练加速.本文设�; 顾荣罗义力仇伶玮王肇康戴海鹏戴海鹏; 关键词：POSIX 跨语言

黄宜华

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

黄宜华

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈