国家教育部博士点基金(20110095110010) 作品数:24 被引量:169 H指数:8 相关作者: 张磊 孟凡荣 周勇 安计勇 朱牧 更多>> 相关机构: 中国矿业大学 信阳农林学院 中国煤炭工业协会 更多>> 发文基金: 国家教育部博士点基金 中央高校基本科研业务费专项资金 江苏省普通高校研究生科研创新计划项目 更多>> 相关领域: 自动化与计算机技术 更多>>
出租车目的地预测的深度学习方法 被引量:2 2020年 出租车目的地预测可以掌握出租车的流动方向,便于出租车调度。已有的预测方法多仅利用轨迹序列的原始特征作为预测模型的输入,忽略了原始特征背后的时空数据,造成轨迹时空信息缺失。针对以上问题,提出出租车目的地预测的深度学习方法DLDP。首先采用滑动窗口,基于速度、转角利用统计量计算得到轨迹的高层特征。其次,自动编码器将高层特征转换为固定长度的潜在空间表示,得到轨迹的深度特征。最后,将深度特征和原始特征相结合,一同作为LSTM的输入进行预测。实验表明,DLDP比传统RNN预测模型的准确率提高了9%,平均距离误差减少了1 km。 崔淑敏 张磊 张磊 邵长兴 朱少杰关键词:特征提取 轨迹预测 类不均衡的半监督高斯过程分类算法 被引量:18 2013年 针对传统的监督学习方法难以解决真实数据集标记信息少、训练样本集中存在类不均衡的问题,提出了类不均衡的半监督高斯过程分类算法。算法引入自训练的半监督学习思想,结合高斯过程分类算法计算后验概率,向未标记数据中注入类标记以获得更多准确可信的标记数据,使得训练样本的类分布相对平衡,分类器自适应优化以获得较好的分类效果。实验结果表明,在类不均衡的训练样本及标记信息过少的情况下,该算法通过自训练分类器获得了有效标记,使分类精度得到了有效提高,为解决类不均衡数据分类提供了一个新的思路。 夏战国 夏士雄 蔡世玉 万玲一种改进的DBscan聚类算法 被引量:13 2015年 提出一种改进的DBscan聚类算法.该算法的改进基于以下两点:(1)针对DBscan算法核心点随机选取导致计算量大的缺点,提出选取距离最远且在ε距离内点的个数大于Minpts的点为核心点的方法;(2)针对DBscan算法由于ε和Minpts参数全局唯一性导致聚类质量差的缺点,提出二次聚类的方法,即计算被误判的噪声点到各个族中心的距离,把该噪声点归入距离最近的族.同时,算法采用轮廓系数来衡量算法的聚类质量.实验结果表明该算法相比原始的DBscan聚类算法具有更好的执行效率和聚类质量. 安计勇 韩海英 侯效礼关键词:DBSCAN 一种鲁棒非平衡极速学习机算法 被引量:2 2014年 极速学习机(ELM)算法只对平衡数据集分类较好,对于非平衡数据集,它通常偏向多数样本类,对于少数样本类性能较低。针对这一问题,提出了一种处理不平衡数据集分类的ELM模型(ELM-CIL),该模型按照代价敏感学习的原则为少数类样本赋予较大的惩罚系数,并引入模糊隶属度值减小了外围噪声点的影响。实验表明,提出的方法不仅对提高不平衡数据集中少数类的分类精度效果较明显,而且提高了对噪声的鲁棒性。 孟凡荣 高春晓 刘兵关键词:极速学习机 不平衡数据集 神经网络 基于SDZ-RNN的出租车出行目的地预测方法 被引量:8 2018年 在预测出租车目的地时,传统的马尔科夫预测方法仅仅依赖于前面2到3个GPS点,对于那种具有很长依赖关系的轨迹并不适用。为了解决这种长期依赖关系,采用循环神经网络(RNN)进行出租车目的地预测,因为RNN的多个隐藏层能够存储这种依赖关系。但是随着数据量的增大,RNN的隐藏层对较小的扰动变得十分敏感,较小的扰动就会被指数级放大,最终导致预测准确率降低。为了提高预测准确率,同时缩短训练时间,将SDZ应用到RNN中,提出一种基于SDZ-RNN的出租车目的地预测方法(SRTDP)。SDZ不但能够提高SRTDP的鲁棒性,而且SDZ采用局部更新而不是全部更新的方式,降低了训练时间。实验表明,SRTDP在精度和速度上都优于RNN预测方法,预测准确率提高了12%,训练完成时间降低了7%。 张国兴 李亚东 张磊 樊庆富 李想关键词:循环神经网络 一种不确定连续时间序列的Top-K异常检测算法 被引量:2 2014年 针对噪声数据对时间序列异常检测准确性的影响问题,提出了一种不确定连续时间序列Top-K异常检测算法。在典型时间序列异常检测方法的基础上对时间序列的异常值进行区间处理,构造满足均匀分布的密度函数,结合不确定Top-K技术,实现含噪连续时间序列在分布未知情况下的Top-K异常排序。实验部分采用模拟数据和真实数据进行算法测试,算法较传统方法在异常检测的准确率方面有明显提高,虽然在计算时间上有所增加,但提出了相应的优化策略,使计算时间在k值大于5时有明显改善,验证了算法的有效性。 孟凡荣 姚彦旭 常玉虎 闫秋艳关键词:异常检测 不确定数据 局部多层网格划分下的轨迹数据概化方法 2013年 针对轨迹数据概化中空间划分的区域范围不能有效控制以及覆盖网格尺度难以合理选择的问题,提出局部多层网格划分方法,对样本密集的区域进行迭代划分。在此基础上提出一种轨迹数据概化方法,在局部多层网格划分的基础上,考虑时间约束合并轨迹连续往复通过的邻接区域,生成概化轨迹。真实数据的实验表明该算法得到的概化轨迹较同类算法保持了更多轨迹特性,更加适合后续数据挖掘,如聚类处理。 杨光 张磊 李帆带相对时间的轨迹序列模式挖掘 2013年 针对带有时间约束的序列模式挖掘算法时空效率低的问题,引入相对时间,提出带相对时间的轨迹序列模式挖掘.该算法利用相对时间作为约束条件,首先基于网格划分计算相对时间内的网格密度,接着对密度网格进行扩展得到兴趣区域,然后在兴趣区域的基础上挖掘轨迹序列模式.使用真实数据进行实验,实验表明,与传统的序列模式挖掘算法相比,该算法的挖掘效率在时间和空间上都有明显提高. 刘素杰基于运动趋势的移动对象位置预测 被引量:11 2014年 提出一种基于运动趋势的移动对象位置预测算法,不仅借鉴马尔可夫模型思想对移动对象的历史活动轨迹进行建模,而且将对象的运动趋势作为位置预测的重要因素。以全体历史停留区域作为未来位置的候选,根据位置的特征,将结果分为预测位置和推荐位置。真实数据实验表明,算法在保证较高时间效率的同时,预测精度较同类算法提高近10%。 李雯 夏士雄 刘峰 张磊 袁冠关键词:马尔可夫模型 区域可达性 一种基于代表点的快速聚类算法 被引量:4 2012年 目前经典的聚类算法在内存空间有限的情况下,聚类受到时间、空间等各方面的限制,提出一种基于代表点的快速聚类算法FCBRP(fast clustering based representative points).首先,判定数据集中所有节点的属性,当节点的D临域内存在大于等于K个邻居节点时,将其定义为代表点,代表点D临域内所有邻居节点与该代表点之间的平均欧氏距离即为该代表点的相关密度RD,所有的代表点组成代表点集合;将所有在代表点的D临域内的节点定义为能被代表的节点,并将其进行存储;既不是代表点、又不能被其它节点所代表的节点,将其定义为噪音节点;其次,对代表点集合进行聚类,对于给定的密度标准α,如果两个代表点满足密度相关,即两个代表点的相关密度分别乘以密度标准α后同时大于等于两者之间的欧氏距离,则将其划分到同一类簇中,通过对代表点的聚类,达到对数据的区域划分,得到所有类簇的基本形状;最后,对于被其它代表点所代表的节点,通过检测代表它们的代表点所属的类簇,判定被代表的节点所属的类簇,对于少数位于不同类簇中的代表点的D临域内的节点,将其划分到相对距离较近的代表点所属的类簇中.实验证明,FCBRP算法对空间需求较小,效率快,精度高,鲁棒性更佳. 李晓翠 孟凡荣 周勇