中央高校基本科研业务费专项资金(ZXH2012P009)
- 作品数:7 被引量:54H指数:4
- 相关作者:肖春景张宇翔乔永卫樊玮王红更多>>
- 相关机构:中国民航大学河北工业大学北京交通大学更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金河北省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于动态聚类的旅游线路推荐被引量:4
- 2017年
- 基于会话的协同过滤用固定时间窗划分交互历史并将用户兴趣表示为这些阶段的序列,但是旅游数据的高稀疏性会导致某些阶段内没有交互行为和近邻相似度计算困难的问题。为了缓解数据稀疏,有效利用数据特性,提出了基于动态聚类的旅游线路推荐算法。该方法首先分析了旅游数据不同于其他标准数据的特性;其次利用动态聚类得到的变长时间窗口对游客交互历史进行划分,利用潜在狄利克雷分布(LDA)抽取每个阶段的概率主题分布,结合时间惩罚权值建立用户兴趣漂移模型;接着,通过反映年龄、线路季节、价格等因素的游客特征向量为目标游客选择近邻和候选线路集合;最后根据候选线路和游客的概率主题相关度完成线路推荐。该方法通过采用变长时间窗口不但缓解了数据稀疏,而且划分的阶段数目不需提前指定,而是根据数据特性自动生成;近邻选择时采用特征向量而非旅游数据进行相似度计算,避免了由于数据稀疏无法计算的问题。在实际旅游数据上的大量实验结果表明,该方法不仅很好适应了旅游数据特征,而且提高了旅游线路的推荐精度。
- 肖春景夏克文乔永卫张宇翔
- 关键词:动态聚类特征向量
- 基于会话时序相似性的矩阵分解数据填充被引量:1
- 2018年
- 针对已有数据填充方法只考虑评分信息和传统相似性,无法捕获用户间真实相似关系的问题,提出了基于会话时序相似性的矩阵分解数据填充方法来缓解数据稀疏性、提高推荐精度。首先,分析了传统相似性的缺陷,并根据时序相似性和相异性提出了基于会话时序相似性度量,它结合了时间上下文和评分信息,能更好地捕获用户间的真实关系,从而识别近邻;接着,根据目标用户的近邻及其消费的项目抽取了具有用户和项目潜在影响因素的待填充的关键项目集合,并利用矩阵分解填充关键项目集合;然后,利用隐含狄利克雷分布(LDA)抽取用户在每个时间段内的概率主题分布,并利用时间惩罚权值建立用户动态偏好模型;最后,根据用户间概率主题分布的相关性和基于用户的协同过滤完成项目推荐。实验结果表明,与其他数据填充方法相比,基于会话时序相似性的矩阵分解数据填充方法在不同稀疏度下都能降低平均绝对误差(MAE),提高推荐性能。
- 乔永卫张宇翔肖春景
- 关键词:数据稀疏数据填充矩阵分解
- 基于网络表示学习的论文影响力预测算法被引量:5
- 2019年
- 基于图的随机游走算法在预测论文影响力时,仅利用学术网络的全局结构信息而未考虑局部结构信息,对预测准确率造成影响。针对该问题,提出一种基于异构学术网络表示学习和多变量随机游走的论文影响力预测算法。通过构建异构学术网络表示模型,将网络中的论文、作者和期刊/会议等不同类型的节点表征到同一个低维向量空间中,同时保留网络的局部结构信息,将节点的向量相似度应用于多变量随机游走方法,实现对论文影响力的准确预测。在AMiner网站公开数据集上的实验结果表明,相比于PageRank、FutureRank等算法,该算法的预测准确性较高。
- 樊玮韩佳宁张宇翔
- 特征驱动的关键词提取算法综述被引量:35
- 2018年
- 面向文本的关键词自动提取一直以来是自然语言处理领域的一个关键基础问题和研究热点.特别是,随着当前对文本数据应用需求的不断增加,使得关键词提取技术进一步得到研究者的广泛关注.尽管近年来关键词提取技术得到长足的发展,但提取结果目前还远未取得令人满意的效果.为了促进关键词提取问题的解决,对近年来国内、外学者在该研究领域取得的成果进行了系统总结,具体包括候选关键词生成、特征工程和关键词提取3个主要步骤,并对未来可能的研究方向进行了探讨和展望.不同于围绕提取方法进行总结的综述文献,主要围绕着各种方法使用的特征信息归纳总结现有成果,这种从特征驱动的视角考察现有研究成果的方式有助于综合利用现有特征或提出新特征,进而提出更有效的关键词提取方法.
- 常耀成张宇翔王红万怀宇肖春景
- 关键词:关键词提取
- 基于组合类别空间的随机游走推荐算法被引量:2
- 2019年
- 传统的类别驱动方法只考虑类别间的关联或是将其组织成扁平或层次结构,而项目和类别对应关系复杂,其他信息容易被忽略。针对这个问题提出基于组合类别空间的随机游走推荐算法,更好地组织了项目类别信息、缓解了数据稀疏。首先,建立一个用哈斯图表示的项目组合类别空间,将项目和类别复杂的一对多关系映射成一对一的简单关系,并表示用户上下层次、同层次及跨层次的项目类别间的跳转;接着,定义组合类别空间的语义关系及链接、偏好两种语义距离,更好地定性、定量描述用户动态偏好的变化;然后,结合组合类别空间上用户浏览图的语义关系、语义距离、用户行为跳转、跳转次数、时序、评分等各种信息,利用随机游走建立用户个性化类别偏好模型;最后,根据用户个性化偏好完成基于用户的协同过滤项目推荐。在MovieLens数据集上的实验显示,与基于用户的协同过滤(UCF)、基于类别关联的推荐模型(UBGC和GENC)相比,所提算法推荐的F1-score提高了6~9个百分点,平均绝对误差(MAE)减小了20%~30%;与基于类别层次潜在因子模型(CHLF)相比,所提算法推荐的F1-score提高了10%。实验结果表明,所提算法在排序推荐上优于传统基于类别的推荐算法。
- 樊玮谢聪肖春景曹淑燕
- 关键词:梯度下降随机游走协同过滤
- 基于最佳聚类准则的多级模糊态势评估方法被引量:5
- 2013年
- 针对态势评估中评估因素的不确定性、模糊性和模糊集划分、隶属函数需事先给定以及忽略了数据分布特点对评估结果影响的问题,提出了基于最佳聚类准则的多级模糊综合评判态势评估方法。根据最佳聚类准则得到最佳聚类数和聚类中心后完成数据属性的模糊集划分及隶属函数的确定,建立了基于单因素的主因素和加权平均的一级模糊评估模型,利用层次分析法得到所有因素对评估结果的影响权值,并建立所有因素的主因素和加权平均的二级模糊评估模型,将其应用到民航灾难态势评估过程,得到了较好的态势评估结果。通过对两种模型的评价,得出加权平均模型的态势评估结果更准确。
- 肖春景乔永卫贺怀清李建伏
- 关键词:加权平均层次分析法
- 基于时序逆影响的随机游走推荐算法被引量:2
- 2018年
- 相似性计算是协同过滤推荐的关键步骤。针对传统相似性计算认为相似关系是对等的且没有考虑消费顺序和时间间隔的问题,提出了基于时序逆影响的随机游走推荐算法。首先,基于用户时序关联图提出一种新的称为时序逆影响的相似性度量,利用随机游走得到了目标用户近邻集合;其次,利用随机游走在项目时序关联图上进一步改进推荐的多样性和覆盖率。它不但认为用户间相似是不对称的,考虑了用户消费项目的顺序和时间间隔,获得了用户全局的直接和间接近邻,而且考虑了项目间的时序逆影响。通过在真实数据集上的大量实验结果表明,与其他随机游走方法相比,其不但能提高推荐性能、缓解数据稀疏,而且通过提高多样性和覆盖率解决了过拟合的问题。
- 肖春景肖春景乔永卫
- 关键词:随机游走协同过滤