公共文化服务平台

闫宏飞: 作品数：54 被引量：291H指数：11; 供职机构：北京大学更多>>; 发文基金：国家自然科学基金国家重点基础研究发展计划国家教育部博士点基金更多>>; 相关领域：自动化与计算机技术文化科学经济管理建筑科学更多>>

合作作者

一种评价搜索引擎信息覆盖率的模型及其验证: 搜索引擎的网页搜集子系统通常都以WWW的网页构成的有向图结构为依据,从一个网页到达它所链接的其他网页,如此递归下去,不断扩大搜集的信息覆盖面.本文以这种覆盖能力为研究对象,建立量化模型从多个角度考察网页搜集系统对WWW信...; 孟涛闫宏飞李晓明; 关键词：搜索引擎权值计算; 文献传递

一种Web多维分析模型及应用被引量：2: 2004年; Web上的网页正以惊人的速度增长和变化,给传统搜索引擎的效率和质量带来了许多新的问题和挑战.我们迫切需要一种研究方法,能够对搜索引擎收集来的海量网页进行有效的分析,以便对Web保持完整清晰的认识来指导搜索引擎进行更有效的服务.本文提出一种基于时间、空间和内容的三维Web分析模型,通过它可以对海量的网页数据进行多维度、多层次的分析工作,为我们认识Web提供一种全新的视角.在实验中我们简单地实现了该模型,并通过对3批网页数据进行分析,得到网页变化率、网页空间分布、复制强度大的网页特点等数据,以及Internet作为"第四媒体"在信息传播上的一些特点.; 朱家稷闫宏飞; 关键词：WEB 网页分析搜索引擎数据挖掘

基于语义查询扩展的产品评论检索被引量：1: 2015年; 随着电子商务的快速发展和用户在线评论数据的迅速增加,产品评论检索面临更多的挑战。一方面,产品评论从更为主观的角度为产品的特性提供描述;另一方面,产品评论的数据特性要求对传统检索方法进行相应的修正,以解决数据稀疏和词项权重单一等问题。在产品评论检索的任务下,引入词项相关度的概念,针对传统检索方法主题词项稀疏和词项权重缺少先验的问题,进行基于语义的查询扩展。同时,将词项相关度融入到一个高性能的检索框架中。一系列评测实验表明,该方法可以提高产品评论检索的准确率与质量,更好地提升评论的参考价值。; 江翰赵鑫吴悦昕闫宏飞; 关键词：语义扩展

基于deepwalk方法的适应有限文本信息的DWLTI算法: 2017年; 提出一种新的网络表示学习算法DWLTI,它是可以同时考虑网络的结构信息和节点的文本属性信息的低维向量表示.DWLTI模型是一种基于deepwalk方法的能够适应有限文本信息的新模型.它通过采用合适的数据融合形式,同时最大化随机游走获得的节点序列和文本内容的词语序列的共现概率.通过应用两棵哈夫曼子树,使得即使只有少量部分节点拥有自身的文本信息,这些稀疏信息也能被充分利用.最后在真实网络数据集上进行节点分类实验,评估学习到的节点表示的质量.实验结果表明,利用有限文本信息的DWLTI优于多种经典基线模型.; 江东灿陈维政闫宏飞

网页变化与增量搜集技术被引量：32: 2006年; 互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个著名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义.; 孟涛王继民闫宏飞; 关键词：调度策略

搜索引擎动态摘要算法被引量：1: 2009年; 搜索引擎摘要的选取原则、算法规则一直没有明确的框架或算法,以形成用户查询为中心的动态摘要为出发点,给出了动态摘要算法实现的形式化原则,并具体实现了一种动态摘要算法.与百度搜索引擎的动态摘要相比较,实验结果表明,算法一致性比百度搜索引擎的一致性高出6%.; 树柏涵闫宏飞

一种评价搜索引擎信息覆盖率的模型及其验证被引量：12: 2003年; 搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据 ,循着网页间的链接进行搜集从而扩大信息覆盖面 .本文针对这种信息覆盖能力 ,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度 .文章首先分析了网页搜集不完全性的若干因素 ,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念 ,然后围绕其中的数量和质量覆盖率展开研究工作 .在建立“采样 -权值计算 -验证”的覆盖率评测模型之后 ,以北大“燕穹”网页信息博物馆为考察对象并获得其网页数据 ,用不同的方式对中国Web进行采样 ;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本 ,从量和质的角度考察“燕穹”系统的信息覆盖率 ,得到合理的数量和质量覆盖率值 ,从而验证了“燕穹”系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性 .; 孟涛闫宏飞李晓明; 关键词：搜索引擎采样权值计算

一种词汇共现算法及共现词对检索系统排序的影响被引量：15: 2005年; 为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法——FDC。算法中考虑了词汇在文档中的共现频度、相对距离和共文档率。从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LS I)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果。D iscoun ted cum u lative ga in(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LS I方法获得的共现词对排序相关性也表现出同样显著的改进效果。结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法。; 陈翀彭波闫宏飞王继民; 关键词：排序信息检索

一种搜索引擎动态摘要提取方法: 本发明公开了一种搜索引擎动态摘要提取方法，所述方法包括以下步骤：获取用户输入的查询词；根据所述查询词，截取摘要候选段落；获取所述候选段落的段权值；选取段权值最高的预先设定个数的候选段落，并将选择的候选段落合并生成摘要。本...; 闫宏飞树柏涵李晓明; 文献传递

基于网络表示学习的个性化商品推荐被引量：32: 2019年; 近些年来,互联网不断普及,其应用场景也在不断增加.电子商务是互联网普及、成熟的一大重要产物.这种新型的商业模式,便利了大众的生活,同时也创造了巨大的利润.对于电子商务而言,推荐系统是其中最关键的组成部分.推荐系统可以针对不同的用户,推荐其感兴趣的商品.好的推荐系统无论是对于用户体验还是公司盈利而言,都有着非常正面的作用.近几年间,网络表示学习受到观注,出现了一些利用网络表示学习的推荐算法研究.将网络表示学习应用于推荐系统中乃至商品推荐中,可以有效地利用近期网络表示学习研究成果.该文提出了一种利用网络表示学习进行个性化商品推荐的方法 PGE(Product Graph Embedding).首先,作者通过历史购买记录获取商品的顺序信息,从而构建商品网络.基于商品网络和网络表示学习算法,商品可以被映射至低维向量空间中.一旦作者获取了商品的低维向量表示,动态的用户偏好便可以基于用户购买过的商品记录及商品的时序性线性计算得出,并和商品映射到相同的低维向量空间中.由此,商品和用户的相关性可利用商品和用户的低维向量相似度进行评估.作者在京东数据集上进行实验.实验表明,作者的算法在个性化商品推荐方面相较于最好的基准方法在P@10上提升了10%以上,这显示出了作者算法的优越性.; 李宇琦陈维政闫宏飞李晓明

闫宏飞

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

闫宏飞

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈