上海市自然科学基金(10ZR1421100)
- 作品数:11 被引量:15H指数:2
- 相关作者:彭敦陆霍欢姚楠徐文杰段凯更多>>
- 相关机构:上海理工大学更多>>
- 发文基金:上海市自然科学基金国家自然科学基金上海市教育委员会创新基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 数据耕耘技术支持下的大规模驾驶行为数据分析仿真技术被引量:1
- 2016年
- 大数据相关问题已成为当今数据科学领域的研究热点,在研究中需要有足够多的数据来验证相关研究成果.由于各种条件限制,研究人员难以得到足够体量的源数据,给研究带来了很大的困难.论文运用数据耕耘技术研究出一种用于大数据系统仿真的方法.该方法首先对被研究对象属性特征进行分析,确定属性之间的依附关系.然后选择合适的数据耕耘方法建立仿真系统,最后对仿真系统进行验证,并以大规模驾驶行为数据分析为例,说明如何利用该技术建立大数据分析及仿真的过程.
- 王磊彭敦陆
- 关键词:数据耕耘大数据仿真系统驾驶行为
- MapReduce架构下的大规模轨迹数据压缩策略被引量:2
- 2017年
- 车辆GPS轨迹数据中蕴含的轨迹信息具有重要的理论和应用价值.随着生活水平的日益提高,越来越多的汽车都配备了GPS设备,海量的GPS轨迹数据随之产生.为了减少车辆轨迹数据的存储空间,提高数据传输和数据分析速度,提出一种MapReduce架构下的大规模轨迹数据压缩策略.该策略首先提出一种基于综合时空特征的开放窗口轨迹数据压缩方法,再结合MapReduce并行计算模型,在各节点上并行压缩大规模轨迹数据.实验结果表明,本文提出的轨迹数据压缩策略虽然在压缩率上略有下降,但是保留了轨迹特征,减少了压缩误差,提高了压缩速度.
- 姚楠彭敦陆
- 关键词:GPS数据MAPREDUCE
- ZDC-tree:一种支持面向数据流Skyline查询的高效索引结构
- 2013年
- 数据流上的Skyline查询是近年来数据管理与数据挖掘领域的研究热点.该文针对数据流场景下基于滑动窗口Skyline查询问题,采用基于剪枝策略和分而治之思想,并结合Z-order曲线的性质,提出一种可以在一个分支上进行查询和更新操作的ZDC-tree索引结构,并给出可有效维护Skyline查询计算的ZDCSK算法.算法采用自底向上的方式,归并递归返回Skyline结果集,具备较好的Skyline查询效率.论文从理论和实验上证明了在ZDC-tree上进行Skylike查询的高效性、稳定性及可扩展性.
- 彭敦陆衣少君段凯霍欢
- 关键词:SKYLINE计算剪枝策略数据流
- 基于页面模糊聚类的网络广告投放策略被引量:1
- 2013年
- 随着网络广告的迅猛发展,其市场竞争也愈发激烈.在网络中实现广告的精准投放,对提高网络广告的回报率具有重要意义.本文提出了广告投放页面特征向量空间和广告投放页面特征向量模型,并基于此模型提出了广告投放页面的模糊向量表示方法,以及广告投放页面模糊向量空间的生成方法.给出了运用广告投放页面模糊聚类方法来实现广告的准确投放.文中采用实验来说明所提方法的计算效率和投放效果.
- 彭敦陆姚楠徐文杰
- 关键词:模糊聚类向量空间广告投放
- 一种支持非度量空间中近似查询的索引技术
- 2014年
- 多媒体信息系统通常使用索引技术加快检索,现有索引技术绝大多数都是基于度量空间建立的,其中广泛应用度量空间的三角不等性。在非度量空间中,面向度量空间的索引技术难以快速而准确地完成检索任务。针对多媒体数据对象进行研究,发现其具有非度量空间的属性,在建立多媒体数据索引时,采用非度量空间中的计算方法使得所建索引更加有效。结合聚类和pivots技术,提出一种支持非度量空间中的对象索引结构——M+-tree。给出了M+-tree的建立、维护及采用M+-tree进行快速KNN检索的相关算法。实验表明,M+-tree在检索性能和检索效果上比现有的非度量空间的索引结构具有明显优势。
- 彭敦陆徐文杰霍欢江平
- 关键词:索引结构树结构聚类
- CNN支持下的领域文本自组织映射神经网络聚类算法被引量:6
- 2018年
- 文本中蕴含的信息具有重要的应用价值.如何将文本进行聚类挖掘有价值的信息成为自然语言研究领域当前的热点.针对文本信息的层次聚类问题,提出基于动态词窗口的卷积神经网络(Convolutional Neural Network,CNN)文本特征提取算法和基于森林结构的自组织映射神经网络聚类算法(Forest Growing Self-Organizing Maps,FGSOM).首先,结合领域词性模板和特征模式对CNN特征提取算法进行改进,实现文本特征向量的自动提取.然后,将文本特征向量作为FGSOM算法的输入层,结合生长阈值和局部最优策略,实现文本分层聚类.通过将所提算法应用于法律案件文本聚类,通过与现有同类算法进行比较表明,所提算法具有较好计算效果.
- 贾声声彭敦陆
- 关键词:文本特征CNN层次聚类
- 大规模词序列中基于频繁词集的特征短语抽取模型被引量:1
- 2018年
- 目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性和同义性,利用加权关联规则挖掘方法,对频繁词集进行组合生成特征短语.为提高计算效率,针对大规模文本数据特征短语抽取问题,采用MapReduce计算思想对所提算法进行了扩展.实验表明,该算法具有较高的运行效率,而且可以获得较为准确的特征短语.
- 余琴琴彭敦陆刘丛
- 关键词:MAPREDUCE加权关联规则
- MapReduce环境下支持精确查询的嵌套式数据索引技术被引量:1
- 2015年
- 目前,针对嵌套式数据集上的高效查询处理已成为Web数据检索的一个重要任务.不同于传统信息检索,嵌套式数据集既要存储数据又要存储结构,导致了针对该类数据集查询的低效性,特别是对如何保证精确查询效率更是一个挑战.结合列存储结构和倒排索引技术,首先定义了表达嵌套式数据集中数据位置信息的唯一路径UPath,提出一种新的支持嵌套式数据集精确查询的索引结构——Uni Hash.在此基础上,给出了生成数据值的唯一路径UPath以及基于MapReduce框架建立Uni Hash索引的相关算法.通过将其与XPath检索进行对比,验证了Uni Hash索引结构的有效性.实验表明,将嵌套式数据集进行列式存储并建立Uni Hash索引,能够明显地提高精确查询的效率.
- 彭敦陆王丽霍欢
- 关键词:精确查询倒排索引UNIHASH
- MDOM:一种支持Mashup编排优化的频繁模式发现模型
- 2014年
- 通过访问Open API,用户可以轻松地获取站点的数据或服务,实现多个站点的数据和应用集成,构建个性化的Mashup应用.然而,随着可供选用的Open API数目和种类的增多,为快速构建高效的Mashup应用提出了挑战.本文在分析已有Mashup应用中可能存在的Open API编排模式基础上,根据Open API编排模式的有向性,提出了描述Mashup应用的有向编排图模型--MDOM.根据MDOM特征,利用有向图理论及频繁模式发现相关算法,提出了适合于MDOM特征的频繁子图挖掘算法FSOMM,并用实验验证了该算法的性能.通过将该算法运用于真实数据集,实现了真实频繁Mashup编排模式的挖掘.该模型的提出以及频繁编排模式的发现,为用户在构建Mashup应用时选择合适的Open API编排模式提供依据,从而为创建高效的Mashup应用提供保障.
- 彭敦陆谢蕾段凯江平
- 关键词:WEB数据集成
- 一种基于用户角色的综合网页排序算法被引量:3
- 2011年
- 通过对网页用户角色的分析发现,传统的基于PageRank算法的搜索引擎结果排序欠佳,是因为其没有兼顾所有角色对网页重要性的评价。为此,提出一种结合了所有角色评价的综合网页排序算法——ComPageRank(CPR)算法和一种基于点击量分析的Click-throughRank(CTR)算法。实验结果表明,相比PageRank为代表的网页排序算法,CPR算法更全面、合理。
- 龙文明彭敦陆姜兴龙
- 关键词:网页排序PAGERANK算法