闫宏飞 作品数:54 被引量:289 H指数:11 供职机构: 北京大学 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 文化科学 经济管理 建筑科学 更多>>
一种评价搜索引擎信息覆盖率的模型及其验证 搜索引擎的网页搜集子系统通常都以WWW的网页构成的有向图结构为依据,从一个网页到达它所链接的其他网页,如此递归下去,不断扩大搜集的信息覆盖面.本文以这种覆盖能力为研究对象,建立量化模型从多个角度考察网页搜集系统对WWW信... 孟涛 闫宏飞 李晓明关键词:搜索引擎 权值计算 文献传递 一种Web多维分析模型及应用 被引量:2 2004年 Web上的网页正以惊人的速度增长和变化,给传统搜索引擎的效率和质量带来了许多新的问题和挑战.我们迫切需要一种研究方法,能够对搜索引擎收集来的海量网页进行有效的分析,以便对Web保持完整清晰的认识来指导搜索引擎进行更有效的服务.本文提出一种基于时间、空间和内容的三维Web分析模型,通过它可以对海量的网页数据进行多维度、多层次的分析工作,为我们认识Web提供一种全新的视角.在实验中我们简单地实现了该模型,并通过对3批网页数据进行分析,得到网页变化率、网页空间分布、复制强度大的网页特点等数据,以及Internet作为"第四媒体"在信息传播上的一些特点. 朱家稷 闫宏飞关键词:WEB 网页分析 搜索引擎 数据挖掘 基于语义查询扩展的产品评论检索 被引量:1 2015年 随着电子商务的快速发展和用户在线评论数据的迅速增加,产品评论检索面临更多的挑战。一方面,产品评论从更为主观的角度为产品的特性提供描述;另一方面,产品评论的数据特性要求对传统检索方法进行相应的修正,以解决数据稀疏和词项权重单一等问题。在产品评论检索的任务下,引入词项相关度的概念,针对传统检索方法主题词项稀疏和词项权重缺少先验的问题,进行基于语义的查询扩展。同时,将词项相关度融入到一个高性能的检索框架中。一系列评测实验表明,该方法可以提高产品评论检索的准确率与质量,更好地提升评论的参考价值。 江翰 赵鑫 吴悦昕 闫宏飞关键词:语义扩展 基于deepwalk方法的适应有限文本信息的DWLTI算法 2017年 提出一种新的网络表示学习算法DWLTI,它是可以同时考虑网络的结构信息和节点的文本属性信息的低维向量表示.DWLTI模型是一种基于deepwalk方法的能够适应有限文本信息的新模型.它通过采用合适的数据融合形式,同时最大化随机游走获得的节点序列和文本内容的词语序列的共现概率.通过应用两棵哈夫曼子树,使得即使只有少量部分节点拥有自身的文本信息,这些稀疏信息也能被充分利用.最后在真实网络数据集上进行节点分类实验,评估学习到的节点表示的质量.实验结果表明,利用有限文本信息的DWLTI优于多种经典基线模型. 江东灿 陈维政 闫宏飞一种评价搜索引擎信息覆盖率的模型及其验证 被引量:12 2003年 搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据 ,循着网页间的链接进行搜集从而扩大信息覆盖面 .本文针对这种信息覆盖能力 ,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度 .文章首先分析了网页搜集不完全性的若干因素 ,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念 ,然后围绕其中的数量和质量覆盖率展开研究工作 .在建立“采样 -权值计算 -验证”的覆盖率评测模型之后 ,以北大“燕穹”网页信息博物馆为考察对象并获得其网页数据 ,用不同的方式对中国Web进行采样 ;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本 ,从量和质的角度考察“燕穹”系统的信息覆盖率 ,得到合理的数量和质量覆盖率值 ,从而验证了“燕穹”系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性 . 孟涛 闫宏飞 李晓明关键词:搜索引擎 采样 权值计算 一种词汇共现算法及共现词对检索系统排序的影响 被引量:15 2005年 为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法——FDC。算法中考虑了词汇在文档中的共现频度、相对距离和共文档率。从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LS I)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果。D iscoun ted cum u lative ga in(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LS I方法获得的共现词对排序相关性也表现出同样显著的改进效果。结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法。 陈翀 彭波 闫宏飞 王继民关键词:排序 信息检索 一种搜索引擎动态摘要提取方法 本发明公开了一种搜索引擎动态摘要提取方法,所述方法包括以下步骤:获取用户输入的查询词;根据所述查询词,截取摘要候选段落;获取所述候选段落的段权值;选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要。本... 闫宏飞 树柏涵 李晓明文献传递 基于网络表示学习的个性化商品推荐 被引量:31 2019年 近些年来,互联网不断普及,其应用场景也在不断增加.电子商务是互联网普及、成熟的一大重要产物.这种新型的商业模式,便利了大众的生活,同时也创造了巨大的利润.对于电子商务而言,推荐系统是其中最关键的组成部分.推荐系统可以针对不同的用户,推荐其感兴趣的商品.好的推荐系统无论是对于用户体验还是公司盈利而言,都有着非常正面的作用.近几年间,网络表示学习受到观注,出现了一些利用网络表示学习的推荐算法研究.将网络表示学习应用于推荐系统中乃至商品推荐中,可以有效地利用近期网络表示学习研究成果.该文提出了一种利用网络表示学习进行个性化商品推荐的方法 PGE(Product Graph Embedding).首先,作者通过历史购买记录获取商品的顺序信息,从而构建商品网络.基于商品网络和网络表示学习算法,商品可以被映射至低维向量空间中.一旦作者获取了商品的低维向量表示,动态的用户偏好便可以基于用户购买过的商品记录及商品的时序性线性计算得出,并和商品映射到相同的低维向量空间中.由此,商品和用户的相关性可利用商品和用户的低维向量相似度进行评估.作者在京东数据集上进行实验.实验表明,作者的算法在个性化商品推荐方面相较于最好的基准方法在P@10上提升了10%以上,这显示出了作者算法的优越性. 李宇琦 陈维政 闫宏飞 李晓明利用维基百科实体增强基于图的多文档摘要 被引量:2 2016年 针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivRank算法对文档集合和背景知识中的句子一起排序,最后根据两次排序结果的线性组合确定文档句子的最终排序以进行摘要句的选取。在DUC2005数据集上的评测结果表明该方法可以有效利用维基百科知识增强摘要的质量。 陈维政 严睿 闫宏飞 李晓明关键词:多文档摘要 基于用户浏览时间的点击模型 被引量:3 2011年 用户的点击行为会受到用户的浏览行为、周围文档的特征等因素的影响,故在分析用户点击日志时不能直接将用户点击解释为文档相关性.为了更加准确地获得文档的相关性特征,文中提出了基于用户浏览时间的点击模型.假设文档原文的相关性会影响用户浏览该文档原文的时间,即文档越相关用户浏览文档的耗时越长,这样便可利用用户浏览文档的时间来推测文档的相关程度;经过分析,确定使用指数分布来描述浏览时间;最后通过实验验证了该模型的有效性.结果表明,所提出的模型能够比较好地估计文档的相关性,更加准确地预测用户的点击情况,其性能优于现有的点击模型. 何靖 袁文清 闫宏飞关键词:搜索引擎日志