申健
- 作品数:8 被引量:1H指数:1
- 供职机构:重庆邮电大学更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法
- 本发明公开了一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法,Map的输入键值对为<偏移量,二进制数据包>,输出键值对为<五元组,时间戳+序列号+数据包有效净荷>。“+”操作表示将时...
- 雒江涛高伟杨军超王小平邓生雄申健刘勇
- 文献传递
- 校园网用户行为分析系统设计与实现
- 2014年
- 用户视频浏览行为是视频个性化推荐及视频网站优化的关键,而校园网用户区别于其他社会群体有其特殊代表性。本文基于校园网流量,提出了一种基于Map Reduce的校园网视频用户行为分析方案,融合深度包检测与网络爬虫技术,挖掘校园网用户视频行为特征。以优酷网为例,统计了用户行为识别率并分析了视频用户行为,给出校园网用户视频推荐列表。
- 许闻秋高伟申健
- 关键词:校园网
- 基于MapReduce的校园网用户网购偏好分析被引量:1
- 2015年
- 用户网购偏好发现是用户挖掘、电商营销以及用户个性化推荐的关键,该文基于校园网流量,提出了一种基于Map Reduce的校园网用户网购偏好分析方法,结合深度包检测(Deep Packet Inspection,DPI)与网络爬虫等技术,对校园网用户网购行为进行了特征提取和识别.以淘宝、天猫、京东三家电商网站为例,对电商网站用户转化率进行了统计分析,并分别对三个节假日校园网用户网购偏好进行了细致的分析.
- 杨军超雒江涛申健邓生雄
- 关键词:REDUCE深度包检测校园网
- Web网站产品详细信息的分类抓取及产品信息库建立方法
- 本发明针对Web网站产品信息的获取设计了一种网页抓取方法,首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接;然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析所有分类子页面的源文...
- 雒江涛申健杨军超刘勇高伟邓生雄王小平
- 文献传递
- 一种基于MapReduce算法的并行识别、统计网页URL的方法
- 本发明公开了一种基于MapReduce算法的并行识别、统计网页URL的方法,包括步骤:将捕获的网络数据流量以block(块,默认大小64M)为单位分散存储在HDFS(分布式文件系统)中;提取URL之前,重组HTTP请求;...
- 雒江涛高伟杨军超王小平邓生雄刘勇申健
- 文献传递
- Web网站产品详细信息的分类抓取及产品信息库建立方法
- 本发明针对Web网站产品信息的获取设计了一种网页抓取方法,首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接;然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析所有分类子页面的源文...
- 雒江涛申健杨军超刘勇高伟邓生雄王小平
- 一种基于MapReduce算法的并行识别、统计网页URL的方法
- 本发明公开了一种基于MapReduce算法的并行识别、统计网页URL的方法,包括步骤:将捕获的网络数据流量以block(块,默认大小64M)为单位分散存储在HDFS(分布式文件系统)中;提取URL之前,重组HTTP请求;...
- 雒江涛高伟杨军超王小平邓生雄刘勇申健
- 一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法
- 本发明公开了一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法,Map的输入键值对为<偏移量,二进制数据包>,输出键值对为<五元组,时间戳+序列号+数据包有效净荷>。“+”操作表示将时...
- 雒江涛高伟杨军超王小平邓生雄申健刘勇
- 文献传递