黄建一
- 作品数:4 被引量:21H指数:3
- 供职机构:北京科技大学计算机与通信工程学院更多>>
- 发文基金:国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 流行度演化分析与预测综述被引量:6
- 2017年
- 社交网络每天以爆发式的增长速率产生着大量信息,但是人们对海量信息的关注程度有限。人们关注哪些信息、对信息的关注程度如何随时间变化,即为信息的流行度演化问题。流行度演化反映了人们的关注点和信息的流动与传播。建模与预测网络信息的流行度演化有助于信息传播和人类行为的研究、辅助舆情监控、并带来极大的应用和商业价值。近几年,研究人员在该方面取得了丰硕的研究成果,但尚缺乏对这些成果进行梳理、总结的综述。该文系统地回顾网络信息流行度演化的主要工作,对分析与预测方法、模型、发展脉络进行梳理。首先从定性和定量方面阐述了流行度演化的特点;介绍如何量化影响流行度演化的众多因素,并对它们进行分类、总结;然后将已有的建模和预测方法归纳为3类:基于早期流行度、基于影响因素、基于级联传播,从原理、典型成果、特点比较、适用范围等方面对这3类方法进行评述;最后根据目前模型和方法的特点以及现实需求,指出了未来流行度演化的研究方向。
- 胡颖胡长军傅树深黄建一
- 关键词:社交网络信息传播网络信息
- 基于上下文相似度矩阵的Single -Pass短文本聚类被引量:6
- 2019年
- 在线社交网络已经成为人们信息交流的重要渠道和载体,形成了与现实世界交互影响的虚拟社会。众多的网络事件通过社交网络进行快速传播,可以在短时间内成为舆论热点,而负面事件会对国家安全和社会稳定造成冲击,从而引发一系列的社会问题。因此,挖掘社交网络中蕴含的热点信息,无论是从舆论监督方面还是舆情预警方面都具有重要的意义。文本聚类是挖掘热点信息的一种重要方法,然而,使用传统长文本聚类算法处理海量短文本时准确率将变低,复杂度急剧增长,从而导致耗时过长;现有的短文本聚类算法的准确率偏低、耗时过长。文中基于文本关键词,提出了结合上下文和相似度矩阵的关联模型,从而判断当前文本与上一文本的关联性。此外,根据该关联模型对文本关键词权重进行调整,以进一步降低噪声。最后,在Hadoop平台上实现了分布式的短文本聚类算法。与K-MEANS,SP-NN,SP-WC算法的比较实验验证了所提算法在话题挖掘速度、准确率和召回率等方面都具有更好的效果。
- 黄建一李建江王铮方明哲
- 关键词:文本聚类分布式处理
- 基于两位一体的中文电子病历命名实体识别被引量:7
- 2017年
- 命名实体识别是信息抽取中的一项重要任务。在医疗研究领域,从电子病历中自动识别命名实体形成结构化的文本为医疗决策提供数据支持,已经成为重要的研究课题。分词和实体识别分步进行容易造成下层错误向上累加传递且不能充分利用融合信息。针对这一问题,本文提出一种两位一体字标注方法,该方法将识别过程看做是序列的字标注过程,采用条件随机场模型经过标注实现病历的命名实体识别。实验结果表明,两位一体字标注方法在命名实体识别中性能得到很大的提升。
- 郁小玲张铁山吴彤方明哲黄建一胡长军
- 关键词:命名实体识别信息抽取两位一体条件随机场
- 基于在线社交网络的疫情监测系统设计被引量:2
- 2015年
- "互联网+"医疗改变了公共卫生服务信息化的格局。互联网的飞速发展提供了新的疫情监测方式,在线社交网络作为一种互联网时代的新型交流工具,具有实时性高、参与性强等特点,是网民交流公共卫生信息的重要平台,同时也成为监测公共卫生事件的绝佳信息来源。本文设计了基于在线社交网络的疫情监测系统,利用异常检测、话题发现、用户行为分析等技术对社交网络数据进行综合挖掘分析,能够从互联网的角度对疫情进行监测,为卫生管理者提供决策支持。案例分析表明本系统具有很好的应用效果。
- 黄建一方明哲吕琛张铁山胡长军
- 关键词:信息技术疫情监测