搜索到109篇“ 爬虫算法“的相关文章
一种在线训练的自决策主题爬虫算法
2025年
隧道穿越问题是主题爬虫发展过程中无法回避的一个问题,为解决隧道穿越问题,提出一种基于博伊德环的自决策主题爬虫(FCIDOL)算法。该算法以博伊德环为基本框架,按照“观察-评估-决策-行动”形成闭环,根据爬虫已完成的工作——记忆,对观察到的当前状态进行评估,产生激进或保守策略的决策,引导爬虫执行寻找新的主题相关网页团,或专注于短期收益的行动,记忆的作用在于为评估网络提供训练材料,实现对网络的在线训练满足爬虫的冷启动。实验表明:所提算法相较于多种主题爬虫算法在不同主题环境下收获率提升了7.8%以上,重复链接次数减少了15.6%以上。
熊观野杨百龙
关键词:主题爬虫隧道穿越冷启动
基于朴素贝叶斯模型和PageRank算法的电网事故主题爬虫算法
2025年
为了减少电网人身安全事故,利用数据挖掘技术构建和分析事故多维数据,建立准确的预警模型十分必要.其中一个极具挑战性的问题是如何在海量网页中自动化采集人身事故样本数据.提出一种朴素贝叶斯模型与PageRank结合的主题爬虫算法.首先采用中文文本分割和设置关键词词频的方法对数据预处理,进行特征选择后,构建并训练朴素贝叶斯分类模型,从而实现电网事故分类准确度的显著提升.然后利用PageRank算法对精确分类后的网页进行主题相关性排序,有效避免普通爬虫方法中出现的主题漂移问题.实验结果表明,不论是在相同时间还是相同页面数的条件下,该方法的页面收获率均高于单独使用朴素贝叶斯分类器或PageRank的收获率,即本方法能够在大量网页中更高效、准确地爬取电网事故信息.
谢树泳刘之亮
关键词:人身事故朴素贝叶斯模型PAGERANK算法主题爬虫
基于机器学习的Web网络爬虫算法优化研究
2024年
随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率低下、容易被封禁等。因此,本文对现有的网络爬虫算法进行分析和总结,找出其中存在的问题和不足之处,提出一种基于机器学习的网络爬虫算法优化方法,使其更加智能和自适应,以期更好地满足实际应用的需求。
刘俊培贾继洋班岚迟欢孙沛叶
通讯网络网格化分裂及重组自动爬虫算法
本发明公开了一种通讯网络网格化分裂及重组自动爬虫算法,基于高德GIS地图,通过开放平台API相关系统获取POI数据,步骤如下:1,将指定地域的高德GIS地图当作一个矩形框;2,获取矩形框内部POI数据,当POI数据量大于...
李家京常建萍张劲任永安黄小兵张岳李雯郭丙峰王强
基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用
2024年
旨在利用大数据和深度学习技术优化网络爬虫算法,以更好地满足信息搜集与处理的需求。首先,使用大数据技术进行数据收集;其次,引入词频反转文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)权重作为输入特征的初始权重,并利用传播激活算法来优化爬虫算法;最后,对多模态信息进行整合。为了测试基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用效果,将其与传统方法进行了比较。通过实验发现,在统一资源定位器(Uniform Resource Locator,URL)数量为10000时,提出的方法的覆盖率可达92.9%,而传统方法的覆盖率仅为73.7%。研究表明:所提出的基于大数据的深度学习网络爬虫算法在信息收集方面具有更高的覆盖率和更好的准确性。
于平
关键词:大数据
基于爬虫算法技术的城市气质研究——以合肥“科里科气”城市气质为例
2024年
城市气质是长久以来城市的遗传基因和资源禀赋结合后的文化沉淀和外在表现,一定程度上指引了城市未来的发展方向。本文基于网络爬虫算法技术进行关键词爬取和词云图分析,从而探讨不同城市由于其主观认识和客观结构的不同而拥有的丰富多彩的气质。选取近年来以“科里科气”城市气质出圈的合肥为研究对象,其创新气质的崛起经历了从遗传基因到资源禀赋,再发展成为城市气质的完整的历史脉络,标记了新时代中国科技创新的精神高地,具有重要的理论价值和实践意义。通过研究定位强化过程中需关注的问题,探索强化城市气质的举措建议。
韩骞
关键词:爬虫算法
基于Java的网络爬虫算法的实现
2024年
该设计在实现多个抓取线程管理和利用线程池发送抓取网页的同时,采用非递归爬行算法,利用Java多线程技术和基于内存的作业队列来增加、分配和处理运行过程中的URL。搜索引擎简易客户端的设计最终采用JSP(Java Server Pages)技术完成。
李晖
关键词:网络爬虫搜索引擎JSP
基于短文本分类的高考招生数据智能爬虫算法研究
在网络数据量呈几何级数增长背景下,高效准确地开展数据收集工作对于研究人员尤为重要。本文以六个省市的高考招生信息网站作为试点,设计并实现基于短文本分类的智能爬虫算法,完成高考数据收集工作。短文本分类是自然语言处理常见任务之...
邓轶赫
关键词:网络爬虫数据采集
基于深度学习的网络爬虫算法研究
随着网络技术的快速发展,网络信息的载体多种多样,促使互联网信息呈指数增长,给信息的发送、传递与收集带来了巨大的便利。因此针对海量的网络信息,如何提供一种精准、高效、便捷的主题爬虫算法,对网页信息实现精准采集,让需要研究和...
张展程
关键词:主题爬虫
一种基于分布式的网络自适应分类爬虫算法
本发明属于网络爬虫和反爬虫技术领域,具体为一种基于分布式的网络自适应分类爬虫算法,包括步骤1:体系结构设计,采用全分布式非结构化的拓扑结构(P2P结构);步骤2:爬行节点结构设计,分布式爬行节点可以划分为四个部分:网络爬...
刘小虎

相关作者

李家京
作品数:97被引量:34H指数:4
供职机构:北京电信规划设计院有限公司
研究主题:无源光网络 接入网 基站 端口 运营商
张标
作品数:34被引量:211H指数:9
供职机构:中国农业大学
研究主题:蔬菜 采纳行为 农户 影响因素 采纳
吴文良
作品数:321被引量:3,591H指数:31
供职机构:中国农业大学资源与环境学院
研究主题:有机农业 纳米硒 生态农业 可持续发展 有机食品
单春贤
作品数:45被引量:172H指数:8
供职机构:江苏大学能源与动力工程学院
研究主题:摩托车 减震器 微控制器 数学模型 计算机检测系统
刘书影
作品数:13被引量:14H指数:2
供职机构:安徽新华学院
研究主题:应用型人才 数据库原理与应用 大学生 本科毕业设计 工科背景