王宇
- 作品数:3 被引量:10H指数:3
- 供职机构:内蒙古科技大学信息工程学院更多>>
- 发文基金:国家自然科学基金内蒙古自治区自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于个人微博特征的事件提取研究被引量:3
- 2016年
- 个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特征。针对微博标签、URL、时间等特征,提出一种基于微博特征的事件提取算法。该算法针对微博的特征进行TF-IDF的改进,并加入标签相似度,URL相似度,进行综合相似度计算,最后按时间先分段后合并的改进K-means聚类方法得出事件提取结果。实验结果表明,基于微博特征的事件提取算法对微博关键字提取和事件提取的精确度有明显的提高。
- 高永兵陈超熊振华王宇马占飞
- 基于CR-PageRank算法的个人事件自动摘要研究被引量:3
- 2016年
- 是获取微博重要信息的一种手段,但微博的短文本、高冗余、高噪声等特征对于自动摘要造成较大的影响。为此,提出一种基于个人微博内容与相关性的事件摘要提取算法CR-PageRank。将微博事件集构建成事件图,结合微博内容质量,利用CR-PageRank算法计算出微博的总权重,选取有代表性的微博生成初始摘要进行可读性加工,使摘要更具可读性。实验结果表明,该算法相对于TextRank算法和LexRank算法,准确率和召回率明显提高,而且生成的摘要内容简洁,信息全面,阅读性好。
- 高永兵王宇马占飞
- 基于混合方法的中文微博自动摘要技术研究被引量:5
- 2016年
- 针对微博内容驳杂、信息稀疏的问题,深入研究传统自动摘要技术,结合微博数据特点,在微博事件提取的基础上提出一种基于统计和理解的混合摘要方法。首先根据词频、句子位置等文本特征得到基于统计的初始摘要;然后通过语义词典,计算句子相似度、确定事件主体进行基于语义理解的可读性加工,使最终摘要更具可读性;最后采用合理的摘要评价方法评价所得摘要。实验结果表明,该方法在不同压缩比例下均能获得质量稳定且可读性良好的摘要。
- 高永兵钟振华王宇马占飞
- 关键词:可读性