国家自然科学基金(71203173)
- 作品数:14 被引量:139H指数:6
- 相关作者:李慧刘东苏汤强马梅胡云凤更多>>
- 相关机构:西安电子科技大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:文化科学自动化与计算机技术自然科学总论更多>>
- 基于编辑文本与结构的Wikipedia作者信任模型被引量:1
- 2015年
- 为了准确计算WJkipedia中作者可信度,本文通过分析比较现有的Wikipedia作者信任算法,提出一种基于编辑文本与结构的Wikipedia作者信任模型。该模型从作者编辑视角切入,以词条为单位,采用文本分析法对词条各版本内容按照先后顺序进行对比获取各作者的编辑文本,并结合作者插入参考文献和图片的结构信息,获取作者动态信任值。实验结果证明该模型能够很好地区分高信任作者和捣乱者。
- 李慧相华婷汤强
- 关键词:WIKIPEDIA
- 基于大数据的网络舆情分析系统模型研究被引量:49
- 2016年
- 随着Web2.0的发展,人们交流更加便利,互联网成为思想文化和社会舆论的重要传播渠道。同时,每天以PB规模增长的数据也为相关部门对网络舆情的管理和态势研判带来了很大困难。基于此,本文在分析大数据及网络舆情相关概念和特征的基础上,构建了基于大数据的网络舆情分析系统模型,描述了系统各组成模块功能。并将分布式并行数据处理技术引入到舆情分析的各个关键步骤中,对应用大数据技术处理网络舆情数据进行了初步的探索。
- 马梅刘东苏李慧
- 关键词:大数据网络舆情HADOOP分布式
- 一种融合外部特征的改进主题模型被引量:5
- 2016年
- 【目的】在LDA模型基础上融合时间和作者特征,提出动态作者主题(DAT)模型,更好地揭示文本内容、主题和作者之间的关系。【应用背景】从海量文本中实现特征抽取和语义挖掘已经成为情报研究人员的重要工作。【方法】获取NIPS会议论文作为数据集并进行预处理,按发表年份划分到每个时间片形成一阶马尔科夫链,使用困惑度确定最优主题数,并在每个时间片内通过吉布斯采样估算作者主题概率分布和主题词项概率分布。【结果】实验结果表明,该模型将文档表示为作者主题概率分布和主题词项概率分布,时间维度上可观测主题强度变化和作者兴趣变化。【结论】DAT模型能够有效地融合文档内容与外部特征,实现文本挖掘。
- 杨如意刘东苏李慧
- 关键词:LDA模型文本挖掘
- 基于双模社会网络的Wikipedia作者信任模型被引量:1
- 2015年
- [目的/意义]评价Wikipedia中作者的可信度。[方法/过程]将Wikipedia中作者与词条的编辑关系表示成一个带权值的有向双模网络图,通过对该网络图的全面分析,构建一个新的作者信任评价算法。该算法将作者信任值按类划分,并综合每个类下作者的相对编辑量、编辑错误因子和词条网络簇合系数等因素。[结果/结论]仿真实验表明,该算法能够很好地区分作者在不同类下的信任情况并识别具体类别中的高信任作者和低信任作者。
- 李慧相华婷汤强
- 关键词:WIKIPEDIA社会网络分析
- 基于图像特征匹配的推荐模型研究被引量:3
- 2018年
- 【目的】基于LSH算法将图像匹配应用到图像推荐模型中,与传统推荐模型结合,提高推荐结果准确度。【方法】提取图像SIFT特征作为图像匹配标准,改进基于p-Stable Distribution的LSH算法,实现高维度下大量图片的搜索匹配,最后融合现有协同过滤算法提出ICF-LSH推荐算法构建融合推荐模型,并采用Python语言予以实现。【结果】使用不同的数据集对本文提出的算法进行验证,实验表明改进的LSH算法对召回率和错误率都有一定的优化,通过匹配耗时和Hash表长度可知该算法优化了内存利用和搜索匹配效率。由融合推荐模型的平均绝对误差MAE和精确度Precision可知,相对传统的协同过滤推荐算法,本文提出的ICF-LSH推荐算法提高了推荐结果的精准度。【局限】在提取图像特征时仅使用SIFT特征,后续研究中可以尝试使用多种图像特征作为匹配依据,提高匹配结果的可靠性。【结论】图像匹配算法基于LSH进行了一定改进,提高了图像相似度匹配的效率,此外,本文提出的融合推荐模型能显著提升推荐效果。
- 刘东苏霍辰辉
- 关键词:SIFT特征图像匹配推荐系统
- 基于词项热度的微博热点话题发现研究被引量:17
- 2018年
- 【目的/意义】随着网民规模的扩大以及微博数据的增长,获取微博空间的热点话题是一项有价值的任务。本文结合微博的特点提出专门针对中文微博的热点话题发现模型。【过程/方法】本文提出利用词项H指数筛选出热点词项,然后利用BTM建模和VSM建模的结果相融合计算文本相似度,再利用k-means聚类算法发现微博的热点话题。【结果/结论】本文在提取特征阶段既考虑了微博词项的热度又考虑了其短文本性,通过实验验证本文提出的方法有利于发现准确的热点话题。
- 李慧王丽婷
- 关键词:K-MEANS
- 基于动态情感主题模型的在线评论分析被引量:11
- 2017年
- 【目的】对在线评论进行分析,揭示评论文本主题的内容和情感分布变化规律。【方法】使用融入先验信息的SSTM模型获得评论文档的情感分布,以文档、文档情感分布和词项为可视变量,提出DSTM模型,并估算情感主题分布和主题词项分布。【结果】将采集的评论数据集按时间片划分进行建模,实验得到主题的内容和情感随时间的变化趋势。【局限】未考虑不同主题之间的关联关系,建模结果可能存在一定误差。【结论】融合时间外部特征的DSTM模型,能够有效地对在线评论进行主题演化分析。
- 李慧胡云凤
- 关键词:参数估计情感
- 基于Web2.0与文本挖掘的案例推理系统研究被引量:1
- 2015年
- 针对当前许多CBR系统面临的案例库案例过时,案例数量停滞无增长,系统缺乏用户参与协作等问题,探讨了引入Web2.0与文本挖掘技术对CBR系统可产生的积极影响。鉴于此,提出了基于Web2.0与文本挖掘的CBR系统框架并说明了与传统CBR系统相比所作的改进,最后详细分析了标签、Wiki、RSS以及文本挖掘等技术在系统中的应用与实现。
- 吴彦伟刘东苏李慧
- 关键词:WEB2.0文本挖掘用户体验
- 基于互引的竞争情报知识交流网络研究被引量:6
- 2013年
- 从作者互引视角切入,构建了国内竞争情报领域知识交流网络,并运用社会网络分析的方法、工具对其进行了深入分析。通过测量网络密度、平均距离、聚集系数等来了解该领域知识转播、信息流动情况;通过计算中心度数来识别该领域核心及起中介作用的专家;通过分析块模型来揭示该领域存在的小群体及群体间的交流模式。基于此,总结了国内竞争情报领域知识交流网络中存在的问题,并给出了合理化的建议。
- 南刚王亚民李慧
- 关键词:竞争情报社会网络分析引文分析知识交流
- 面向多源数据的学科主题挖掘与演化分析被引量:20
- 2022年
- 【目的】挖掘学科领域研究主题随时间的演变情况,帮助学者快速了解领域现状与研究趋势。【方法】融合多源数据后,根据时间段划分领域研究主题,运用主题热度、密度和紧密中心度计算主题重要性,利用语义相似度挖掘相邻时间段的关联主题,结合主题重要性波动与相似度判定话题演化类型,识别主题演化路径。【结果】选取人工智能领域,分析近20年研究主题的变化情况,得到4个时间段的热点研究主题和主要演化路径,各时间段间有明显的主题融合与分裂发展。【局限】主题命名规则设定不够科学化;人工智能产业蓬勃发展,所用数据演化分析未能展示整个生命周期发展全貌。【结论】对多源数据的主题演化分析,能够有效揭示学科发展特征,主题越重要,其进化能力越强。
- 李慧胡吉霞佟志颖
- 关键词:LDA多源数据