您的位置: 专家智库 > >

山东省自然科学基金(ZR2011FM030)

作品数:1 被引量:1H指数:1
相关作者:孟凡龙陈宇朱振方刘培玉更多>>
相关机构:山东师范大学山东省分布式计算机软件新技术重点实验室山东交通学院更多>>
发文基金:山东省自然科学基金国家自然科学基金国家社会科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇登陆
  • 1篇爬虫
  • 1篇去噪
  • 1篇网络
  • 1篇网络爬虫
  • 1篇网页
  • 1篇网页去噪
  • 1篇HASH

机构

  • 1篇山东交通学院
  • 1篇山东师范大学
  • 1篇山东省分布式...

作者

  • 1篇刘培玉
  • 1篇朱振方
  • 1篇陈宇
  • 1篇孟凡龙

传媒

  • 1篇山东师范大学...

年份

  • 1篇2015
1 条 记 录,以下是 1-1
排序方式:
基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术被引量:1
2015年
针对当前微博采集无精确去噪方法和微博无法无登陆采集现象,笔者提出了基于 Regex 网页去噪 Hash 对比的网络爬虫采集方案并利用插件采集实现了无登陆采集。该方法通过 Regex 构建 DFA 和 NFA 模型来去除网页噪声,通过 Hash 对比对确定采集页面,并通过插件权限提升实现无登陆技术。有效的避免了 Hash 值的变化与网页内容变化产生偏离的现象,解决了网络爬虫虚拟登录时多次对 URL 采集造成的身份认证问题。实验表明,该方法可以实时快速的获取微博信息,为舆情数据分析提供批量精准的数据。
陈宇孟凡龙刘培玉朱振方
共1页<1>
聚类工具0