国家高技术研究发展计划(2013AA120305)
- 作品数:7 被引量:170H指数:6
- 相关作者:陆锋余丽陈洁张恒才刘希亮更多>>
- 相关机构:中国科学院中国科学院大学山东科技大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划资源与环境信息系统国家重点实验室开放基金更多>>
- 相关领域:天文地球自动化与计算机技术更多>>
- 轨迹数据挖掘城市应用研究综述被引量:37
- 2015年
- 轨迹数据作为泛在地理信息环境中社会遥感数据的主要表现形式之一,为从个体的视角研究群体的空间移动规律,提供了新的数据支撑和研究思路。特别是在当前的大数据背景下,通过轨迹数据发掘人类的移动规律和活动模式,进而探求蕴含的深层次知识,是解决城市问题的重要途径,轨迹数据挖掘也由此成为地理信息科学及相关学科的研究热点。本文首先阐述了人类移动规律研究常用的轨迹数据集及在该数据集上开展的相关研究和典型应用;然后从城市空间结构功能单元的识别及城市韵律分析、人类活动模式的发现与空间移动行为预测、智能交通的时间估算与异常探测、城市计算的其他4个方面,综述了轨迹数据挖掘在城市中的应用;最后,指出了轨迹数据挖掘面临的挑战和进一步的发展方向。
- 牟乃夏张恒才陈洁张灵先戴洪磊
- 关键词:数据挖掘
- 群体互动时空可达性评价模型被引量:6
- 2014年
- 群体互动行为在人类社会生活中不可或缺,群体互动时空可达性旨在研究群体的时空条件下共同开展活动的自由度,长期以来一直受到地理学、交通学、规划学、行为学等不同领域的广泛关注。为弥补已有可达性方法对于活动开放时间及个人活动需求考虑的不足,本文拓展了时间地理学核心概念,基于群体互动时空路径与群体互动时空棱柱,进行群体互动时空可达性表达,并以活动地点兴趣度、互动时长可行度、活动地点吸引度、出行时间衰减度为评价因子,构建群体互动时空可达性评价模型,并以北京市为实验区验证了模型的有效性。该模型可为聚会活动地点推荐、移动社交网络、个人智能交通出行等应用提供一种有效的方案。
- 翟瀚陈洁陆锋张晶
- 关键词:群体互动公共服务设施
- 蕴含地理事件微博客消息的自动识别方法被引量:11
- 2016年
- 微博客文本蕴含类型丰富的地理事件信息,能够弥补传统定点监测手段的不足,提高事件应急响应质量。然而,由于大规模标注语料的普遍匮乏,无法利用监督学习过程识别蕴含地理事件信息的微博客文本。为此,本文提出一种蕴含地理事件微博客消息的自动识别方法,通过快速获取的语料资源增强识别效果。该方法利用主题模型具有提取文档中主题集合的优势,通过主题过滤候选语料文本,实现地理事件语料的自动提取。同时,将分布式表达词向量模型引入事件相关性计算过程,借助词向量隐含的语义信息丰富微博客短文本的上下文内容,进一步增强事件消息的识别效果。通过以新浪微博为数据源开展的实验分析表明,本文提出的蕴含地理事件信息微博客消息识别方法,识别来自事件微博话题的消息文本的F-1值可达到71.41%,比经典的基于SVM模型的监督学习方法提高了10.79%。在模拟真实微博环境的500万微博客数据集上的识别准确率达到60%。
- 仇培元陆锋张恒才余丽
- 关键词:主题模型
- 交通网络旅行商路径优化的遗传禁忌搜索算法被引量:19
- 2014年
- 旅行商路径优化问题是经典的网络分析问题之一,主要通过智能优化方法获得近似最优解。然而,单一智能优化方法存在运算量过大、参数选择苛刻、对初值依赖性强等缺陷,很难快速实现全局优化。本文结合遗传算法的全局寻优能力和禁忌搜索的记忆功能,提出一种基于分散集中策略的遗传禁忌搜索算法,即采用遗传变异算子作为分散策略构造邻域,开辟新的搜索空间,有效提升获得全局最优解的概率;将禁忌搜索作为集中策略进行局部寻优,避免迂回探测,充分体现禁忌搜索较强的"爬山"能力,并通过实际交通网络和不同规模的节点集合,从求解精度、稳定性和效率3个方面对算法进行评价。结果表明,本文提出的交通网络旅行商路径优化的遗传禁忌搜索算法平均求解精度比禁忌搜索算法提高了9%,略优于ArcGIS;当与ArcGIS求解的TSP路径长度差异在1%以内时,禁忌搜索算法已经难以获得对应精度的TSP路径,而遗传禁忌搜索算法效率比遗传算法提高了50%,且遗传禁忌搜索算法具有很好的并行化潜力。
- 余丽陆锋杨林
- 关键词:旅行商问题交通网络禁忌搜索遗传算法
- 稀疏地理实体关系的关键词提取方法被引量:9
- 2016年
- 网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。
- 余丽陆锋刘希亮程诗奋张雪英
- 关键词:关键词提取文本挖掘
- 大数据时代的人类移动性研究被引量:73
- 2014年
- 人类个体/群体移动特征是多学科共同关注的研究主题。移动定位、无线通讯和移动互联网技术的快速发展使得获取大规模、长时间序列、精细时空粒度的个体移动轨迹和相互作用定量化成为可能。同时,地理信息科学、统计物理学、复杂网络科学和计算机科学等多学科交叉也为人类移动性研究的定量化提供了有力支撑。本文首先系统总结了大数据时代开展人类移动性研究的多源异构数据基础和多学科研究方法,然后将人类移动性研究归纳为面向人和面向地理空间两大方向。面向人的研究侧重探索人类移动特性的统计规律,并建立模型解释相应的动力学机制,或分析人类活动模式,并预测出行或活动;面向地理空间的研究侧重从地理视角分析人类群体在地理空间中的移动,探索宏观活动和地理空间的交互特征。围绕这两大方向,本文评述了人类移动性的研究进展和存在问题,认为人类移动性研究在数据稀疏性、数据偏斜影响与处理、多源异构数据挖掘、机器学习方法等方面依然面临挑战,对多学科研究方法的交叉与融合提出了更高要求。
- 陆锋刘康陈洁
- 关键词:大数据数据挖掘统计物理学复杂网络
- 开放式地理实体关系抽取的Bootstrapping方法被引量:26
- 2016年
- 从网络文本中抽取地理实体间空间关系和语义关系要求高时效性和强鲁棒性。本文提出一种开放式地理实体关系的自动抽取方法,通过bootstrapping技术统计词语的词性、位置和距离特征来计算语境中词语权值,据此确定描述地理实体关系的关键词,最终组织成结构化实例,并使用百度百科和Stanford CoreNLP开展了试验。研究结果表明,本文方法能自动挖掘自然语言的部分词法特征,无须领域专家知识和大规模标注语料,适用于未知关系类型的信息抽取任务;较之经典的Frequency、TFIDF和PPMI频率统计方法,精度和召回率分别提升约5%和23%。
- 余丽陆锋刘希亮
- 关键词:文本挖掘地理实体关系抽取BOOTSTRAPPING