国家自然科学基金(61370139) 作品数:66 被引量:454 H指数:12 相关作者: 康海燕 张仰森 徐雅斌 蒋玉茹 武装 更多>> 相关机构: 北京信息科技大学 太原科技大学 北京市教育委员会 更多>> 发文基金: 国家自然科学基金 教育部人文社会科学研究基金 北京市社会科学基金 更多>> 相关领域: 自动化与计算机技术 经济管理 文化科学 电子电信 更多>>
基于LDA模型和多层聚类的微博话题检测 被引量:15 2016年 随着微博这一新兴社交媒体的广泛应用,以微博为背景的相关研究不断涌现,其中基于微博的话题检测是当前研究的热点之一。结合微博文本的相关特点,文中提出了一种基于LDA模型和多层聚类的微博话题检测方法。首先,通过LDA模型对微博数据建模并提取特征;其次,利用改进的Single-Pass聚类和层次聚类对微博数据进行聚类,从而发现热点话题。通过在大规模微博数据上进行话题检测实验,通过LDA建模比通过TF-IDF进行特征选择和权重计算效果好;改进的Single-Pass聚类能够处理第一遍Single-Pass聚类未处理的微博,提高了初步聚类的精度,并且为下一步层次聚类减少了时间;多层聚类的聚类效果在准确率、召回率和F值三方面均比单一聚类算法的聚类效果好。显然,文中的话题检测方法是可行的,也是有效的。 刘红兵 李文坤 张仰森关键词:LDA模型 层次聚类 基于身份替代的隐私保护方法研究 被引量:4 2018年 为了解决数据发布过程中存在的隐私泄露问题,同时保持数据在数据挖掘和数据分析等方面的良好可用性,提出了一种基于身份替代的隐私保护方法.一方面,该方法通过用虚拟身份替代原始身份的方式,保证数据的原始身份不出现在公开数据中,进而保护隐私信息;另一方面,总结并提出了数据身份和数据特征两个概念,并设计了数学模型来衡量数据的身份相似度和特征相似度,保证虚拟身份保留原始数据的特性.最后,从数据可用性、隐私泄露风险和时间复杂度3个方面对该方法进行了测试,实验结果表明该方法可以保护隐私信息,同时能有效保持数据的可用性. 康海燕 孟祥关键词:隐私保护 数据发布 数据失真 一种面向文本分类的特征向量优化方法 被引量:13 2017年 对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利用其优化特征值。实验表明,相比朴素贝叶斯分类方法其效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。 郭正斌 张仰森 蒋玉茹关键词:特征向量 向量优化 文本分类 基于多特征融合的句子相似度计算方法 被引量:3 2017年 针对现有方法中没有考虑反义、否定信息而无法全面衡量句子相似度的问题,提出了一种基于多特征融合的句子相似度计算方法。在传统的基于语义特征的相似度计算方法中引入了反义信息和否定信息,有效解决了传统方法不能确定句子是否表达相反语义的问题,并将包含反义信息和否定信息的语义特征与词频、句长、词序等表面信息特征相结合,采用层次分析法构建了多特征融合的句子相似度计算方法。设计了两组实验,验证了多特征融合的句子相似度计算方法的可行性及有效性。 黄姝婧 张仰森关键词:句子相似度 语义特征 层次分析法 差分隐私保护在数据挖掘中应用综述 被引量:15 2017年 针对差分隐私在数据挖掘中的最新成果进行了研究,介绍了差分隐私保护的定义和实现机制,分析了差分隐私在模式挖掘、分类和聚类中的相关研究,着重解析了部分重要技术的实现原理,对比分析了其优缺点和算法复杂度。最后,展望了差分隐私在动态数据发布和大数据环境下的研究方向。 康海燕 马跃雷关键词:隐私保护 数据挖掘 信息安全 基于频繁词集聚类的微博新话题快速发现 被引量:7 2014年 新话题发现是进行舆情分析的基础和前提,新话题发现的一个关键环节是进行关键词的聚类分析.目前,大量的新话题来源于微博,但是将传统的聚类算法用于微博新话题发现时,会产生特征向量的高维性和稀疏性问题,使得聚类结果非常不准确,而且收敛时间难以控制,进而影响舆情分析的可靠性和实时性.鉴此,本文提出了频繁词集聚类FWSC(frequent words sets clustering)方法.实验结果表明,我们提出的方法能够快速有效地发现新话题. 徐雅斌 李卓 吕非非 武装关键词:HADOOP MAPREDUCE 一种网络日志属性挖掘与分析方法 被引量:3 2017年 提出一种基于LDA模型(latent Dirichlet allocation model)与主题知识库相结合的网络日志内容属性标注方法。IP知识库的建立首先需要对采集的网络日志进行数据预处理;然后基于统计学原理标注网络日志的时间类属性,利用IP地址库映射方法提取网络日志的地域类属性;最后采用一种基于LDA模型与主题知识库相结合的标注方法对网络日志的内容类属性进行挖掘。结果表明,该方法原理正确,对网络日志属性的挖掘具有较好的效果。 张艳华 张仰森 马红霞关键词:网络日志 活跃期 LDA模型 位置社交网络的潜在好友推荐模型研究 被引量:7 2014年 为了提高位置社交网络的服务便捷性和用户感受度,与位置相关的推荐服务越来越具有重要意义和应用需求。提出的潜在好友推荐模型主要是根据签到位置的相似度及好友相似度进行潜在用户推荐。通过用户的好友关系、签到特性及签到历史记录,计算用户在各个位置兴趣点的位置权重,再分别利用位置权重及好友关系计算用户的位置相似度和好友相似度,最后根据用户位置和好友关系的综合相似度进行潜在用户推荐。实验结果表明,提出的潜在好友推荐模型是切实有效的。 孙晓晨 徐雅斌微博用户关系网络中意见领袖的分析与挖掘 被引量:4 2015年 在微博世界中,微博意见领袖对微博中舆论的导向发挥着重要的作用,因此,研究微博意见领袖的分析与挖掘方法十分必要。探讨了微博用户网络中意见领袖的分析与挖掘方法,构建了微博意见领袖的特征指标体系,采用层次分析法(Analytic Hierarchy Process,APH)给出了各特征指标的权重计算方法,从而提出了用户初始影响力的计算模型。在此基础上,借鉴PageRank算法思想,提出了用户初始影响力扩散的计算模型,实现了微博用户影响力的定量化度量,为意见领袖的分析确定提供了充分的依据。实验数据表明,所提出的微博意见领袖的分析与挖掘方法是非常有效的。 张仰森 蒋玉茹 陈若愚 彭啟文关键词:意见领袖 微博文本的句向量表示及相似度计算方法研究 被引量:21 2017年 在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。 段旭磊 张仰森 孙祎卓关键词:相似度计算