您的位置: 专家智库 > >

国家自然科学基金(61370139)

作品数:66 被引量:393H指数:11
相关作者:康海燕张仰森徐雅斌蒋玉茹武装更多>>
相关机构:北京信息科技大学太原科技大学迈阿密大学更多>>
发文基金:国家自然科学基金教育部人文社会科学研究基金北京市社会科学基金更多>>
相关领域:自动化与计算机技术经济管理文化科学电子电信更多>>

文献类型

  • 63篇期刊文章
  • 2篇会议论文

领域

  • 61篇自动化与计算...
  • 2篇经济管理
  • 2篇语言文字
  • 1篇电子电信
  • 1篇文化科学

主题

  • 21篇隐私
  • 17篇隐私保护
  • 12篇网络
  • 9篇差分
  • 6篇用户
  • 6篇数据发布
  • 5篇日志
  • 4篇相似度
  • 4篇个性化
  • 4篇分析方法
  • 3篇用户兴趣
  • 3篇语义
  • 3篇社交
  • 3篇社交网
  • 3篇社交网络
  • 3篇数据挖掘
  • 3篇匿名
  • 3篇情感
  • 3篇文本
  • 3篇向量

机构

  • 64篇北京信息科技...
  • 1篇太原科技大学
  • 1篇中国科学院
  • 1篇北京北大方正...
  • 1篇北京市教育委...
  • 1篇迈阿密大学

作者

  • 27篇康海燕
  • 24篇张仰森
  • 13篇徐雅斌
  • 3篇武装
  • 3篇蒋玉茹
  • 3篇孟祥
  • 3篇张涛
  • 2篇李卓
  • 2篇苑晓姣
  • 2篇孙晓晨
  • 2篇石伟杰
  • 2篇刘清松
  • 2篇刘建昆
  • 2篇李超逸
  • 2篇陈若愚
  • 2篇樊梦佳
  • 2篇郭正斌
  • 1篇刘红兵
  • 1篇董源
  • 1篇刘超

传媒

  • 11篇北京信息科技...
  • 7篇郑州大学学报...
  • 5篇山东大学学报...
  • 4篇计算机应用研...
  • 3篇通信学报
  • 3篇互联网天地
  • 2篇系统工程理论...
  • 2篇电信科学
  • 2篇计算机应用
  • 2篇计算机技术与...
  • 2篇重庆邮电大学...
  • 2篇信息安全研究
  • 1篇河北大学学报...
  • 1篇制造业自动化
  • 1篇电子学报
  • 1篇清华大学学报...
  • 1篇武汉大学学报...
  • 1篇计算机工程与...
  • 1篇计算机工程
  • 1篇微电子学与计...

年份

  • 1篇2023
  • 3篇2022
  • 3篇2021
  • 2篇2020
  • 4篇2019
  • 5篇2018
  • 12篇2017
  • 9篇2016
  • 16篇2015
  • 8篇2014
  • 2篇2013
66 条 记 录,以下是 1-10
排序方式:
基于LDA模型和多层聚类的微博话题检测被引量:15
2016年
随着微博这一新兴社交媒体的广泛应用,以微博为背景的相关研究不断涌现,其中基于微博的话题检测是当前研究的热点之一。结合微博文本的相关特点,文中提出了一种基于LDA模型和多层聚类的微博话题检测方法。首先,通过LDA模型对微博数据建模并提取特征;其次,利用改进的Single-Pass聚类和层次聚类对微博数据进行聚类,从而发现热点话题。通过在大规模微博数据上进行话题检测实验,通过LDA建模比通过TF-IDF进行特征选择和权重计算效果好;改进的Single-Pass聚类能够处理第一遍Single-Pass聚类未处理的微博,提高了初步聚类的精度,并且为下一步层次聚类减少了时间;多层聚类的聚类效果在准确率、召回率和F值三方面均比单一聚类算法的聚类效果好。显然,文中的话题检测方法是可行的,也是有效的。
刘红兵李文坤张仰森
关键词:LDA模型层次聚类
基于身份替代的隐私保护方法研究被引量:4
2018年
为了解决数据发布过程中存在的隐私泄露问题,同时保持数据在数据挖掘和数据分析等方面的良好可用性,提出了一种基于身份替代的隐私保护方法.一方面,该方法通过用虚拟身份替代原始身份的方式,保证数据的原始身份不出现在公开数据中,进而保护隐私信息;另一方面,总结并提出了数据身份和数据特征两个概念,并设计了数学模型来衡量数据的身份相似度和特征相似度,保证虚拟身份保留原始数据的特性.最后,从数据可用性、隐私泄露风险和时间复杂度3个方面对该方法进行了测试,实验结果表明该方法可以保护隐私信息,同时能有效保持数据的可用性.
康海燕孟祥
关键词:隐私保护数据发布数据失真
一种面向文本分类的特征向量优化方法被引量:13
2017年
对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利用其优化特征值。实验表明,相比朴素贝叶斯分类方法其效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。
郭正斌张仰森蒋玉茹
关键词:特征向量向量优化文本分类
基于多特征融合的句子相似度计算方法被引量:3
2017年
针对现有方法中没有考虑反义、否定信息而无法全面衡量句子相似度的问题,提出了一种基于多特征融合的句子相似度计算方法。在传统的基于语义特征的相似度计算方法中引入了反义信息和否定信息,有效解决了传统方法不能确定句子是否表达相反语义的问题,并将包含反义信息和否定信息的语义特征与词频、句长、词序等表面信息特征相结合,采用层次分析法构建了多特征融合的句子相似度计算方法。设计了两组实验,验证了多特征融合的句子相似度计算方法的可行性及有效性。
黄姝婧张仰森
关键词:句子相似度语义特征层次分析法
差分隐私保护在数据挖掘中应用综述被引量:15
2017年
针对差分隐私在数据挖掘中的最新成果进行了研究,介绍了差分隐私保护的定义和实现机制,分析了差分隐私在模式挖掘、分类和聚类中的相关研究,着重解析了部分重要技术的实现原理,对比分析了其优缺点和算法复杂度。最后,展望了差分隐私在动态数据发布和大数据环境下的研究方向。
康海燕马跃雷
关键词:隐私保护数据挖掘信息安全
基于频繁词集聚类的微博新话题快速发现被引量:7
2014年
新话题发现是进行舆情分析的基础和前提,新话题发现的一个关键环节是进行关键词的聚类分析.目前,大量的新话题来源于微博,但是将传统的聚类算法用于微博新话题发现时,会产生特征向量的高维性和稀疏性问题,使得聚类结果非常不准确,而且收敛时间难以控制,进而影响舆情分析的可靠性和实时性.鉴此,本文提出了频繁词集聚类FWSC(frequent words sets clustering)方法.实验结果表明,我们提出的方法能够快速有效地发现新话题.
徐雅斌李卓吕非非武装
关键词:HADOOPMAPREDUCE
一种网络日志属性挖掘与分析方法被引量:3
2017年
提出一种基于LDA模型(latent Dirichlet allocation model)与主题知识库相结合的网络日志内容属性标注方法。IP知识库的建立首先需要对采集的网络日志进行数据预处理;然后基于统计学原理标注网络日志的时间类属性,利用IP地址库映射方法提取网络日志的地域类属性;最后采用一种基于LDA模型与主题知识库相结合的标注方法对网络日志的内容类属性进行挖掘。结果表明,该方法原理正确,对网络日志属性的挖掘具有较好的效果。
张艳华张仰森马红霞
关键词:网络日志活跃期LDA模型
位置社交网络的潜在好友推荐模型研究被引量:7
2014年
为了提高位置社交网络的服务便捷性和用户感受度,与位置相关的推荐服务越来越具有重要意义和应用需求。提出的潜在好友推荐模型主要是根据签到位置的相似度及好友相似度进行潜在用户推荐。通过用户的好友关系、签到特性及签到历史记录,计算用户在各个位置兴趣点的位置权重,再分别利用位置权重及好友关系计算用户的位置相似度和好友相似度,最后根据用户位置和好友关系的综合相似度进行潜在用户推荐。实验结果表明,提出的潜在好友推荐模型是切实有效的。
孙晓晨徐雅斌
微博用户关系网络中意见领袖的分析与挖掘被引量:4
2015年
在微博世界中,微博意见领袖对微博中舆论的导向发挥着重要的作用,因此,研究微博意见领袖的分析与挖掘方法十分必要。探讨了微博用户网络中意见领袖的分析与挖掘方法,构建了微博意见领袖的特征指标体系,采用层次分析法(Analytic Hierarchy Process,APH)给出了各特征指标的权重计算方法,从而提出了用户初始影响力的计算模型。在此基础上,借鉴PageRank算法思想,提出了用户初始影响力扩散的计算模型,实现了微博用户影响力的定量化度量,为意见领袖的分析确定提供了充分的依据。实验数据表明,所提出的微博意见领袖的分析与挖掘方法是非常有效的。
张仰森蒋玉茹陈若愚彭啟文
关键词:意见领袖
微博文本的句向量表示及相似度计算方法研究被引量:19
2017年
在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。
段旭磊张仰森孙祎卓
关键词:相似度计算
共7页<1234567>
聚类工具0