周鹏程
- 作品数:3 被引量:11H指数:2
- 供职机构:武汉大学信息管理学院更多>>
- 发文基金:国家自然科学基金教育部人文社会科学重点研究基地度重大研究项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 融合主题模型及多时间节点函数的用户兴趣预测研究被引量:2
- 2015年
- 【目的】针对用户兴趣随时间推移不断变化的问题,利用主题模型及时间节点函数预测用户兴趣。【方法】使用主题模型生成用户兴趣,针对用户的所有兴趣,分别利用多时间节点函数对每个兴趣的每次出现进行加权,用以预测用户兴趣在下一个时间节点的分布情况。【结果】在Sogou搜索日志上,与基于记忆的用户兴趣模型、基于遗忘曲线的用户兴趣度多阶段量化模型进行对比实验,余弦相似度及KL(Kullback-Leibler)距离均表明本文方法能较准确地预测用户兴趣。【局限】仅在Sogou搜索日志上进行实验测试,还需在其他数据集上进一步检验。【结论】充分考虑用户历史数据中每一个时间点可更准确地对用户兴趣进行预测。
- 桂思思陆伟黄诗豪周鹏程
- 关键词:主题模型时间函数
- 新闻文档实体重要性排序研究被引量:1
- 2018年
- [目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。
- 陆娜周鹏程武川
- 基于多知识库的短文本实体链接方法研究——以Wikipedia和Freebase为例被引量:8
- 2016年
- 【目的】基于多知识库进行实体链接,解决基于单一知识库的实体链接覆盖度低的问题。【方法】首先生成文本的n-gram并利用词性和多个指称–实体字典获取候选指称,然后生成指称组合并保留覆盖度最大且不被其他组合包含的指称组合,接着生成候选实体序列并利用多知识库信息计算实体序列的相关度,最后选择相关度最大的实体序列为最终结果。【结果】以Wikipedia和Freebase为例的实验结果表明,基于Wikipedia+Freebase的实体链接准确率、召回率、F值分别达到71.81%、76.86%、74.25%。【局限】基于词性过滤n-gram缺乏理论依据,数据集FACC1具有高准确率和低召回率的特点。【结论】利用多个知识库的实体信息,能够提升实体链接效果。
- 周鹏程武川陆伟
- 关键词:知识库WIKIPEDIA