孟川
- 作品数:9 被引量:4H指数:2
- 供职机构:桂林电子科技大学更多>>
- 发文基金:广西壮族自治区自然科学基金国家自然科学基金广西无线宽带通信与信号处理重点实验室主任基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于关键词匹配的正文抽取方法
- 本发明公开了一种基于关键词匹配的正文抽取方法,通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库,再构建相应的DOM树;层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,以节点与其父节点所含关...
- 武小年孟川王青芝叶志博奚玉昂张润莲
- 文献传递
- 云计算中面向多目标的两阶段任务调度算法被引量:2
- 2017年
- 为根据云用户的需求提供高质量、低成本的服务,提出一种面向多目标的两阶段任务调度算法。在预调度阶段,通过计算任务的完成时间、服务费用和损失度,对任务排序,为任务选择满足其对时间-费用偏好的最小资源;在重调度阶段,根据Perato最优原则,在不增加服务费用的条件下,重新调度任务到完成时间与负载较小的资源上。仿真结果表明,该算法能够根据云用户的任务需求和偏好选择合适的服务,降低任务的完成时间和服务费用,提高了服务质量,具有较好的负载均衡性。
- 武小年郑鑫孟川何庆志
- 关键词:云计算任务调度负载均衡
- 一种基于Hadoop的分布式入侵检测系统
- 本发明公开了一种基于Hadoop的分布式入侵检测系统,包括数据采集模块、数据存储模块、控制中心和数据分析模块,其中控制中心包括系统管理模块、系统监控模块、任务调度模块和报警响应模块。本发明利用Hadoop的分布式计算框架...
- 武小年张润莲李豪张鑫孟川
- 云计算中基于服务能力与信任约束的任务调度算法
- 2016年
- 针对云计算的可信服务选择与多个约束目标问题,提出一种基于服务能力与信任约束的任务调度算法。该算法首先对资源进行服务能力和信任评估,然后在任务调度过程中根据用户任务对资源的服务能力需求,筛选满足条件的候选资源集,并构造一个以信任效益和服务费用权衡的综合效益函数,从候选资源集为任务筛选满足条件的资源子集,最后采用负载均衡策略进行调度。仿真结果表明,该算法能够为用户任务选择满足服务能力与信任需求的资源,具有较好的系统性能和负载均衡性。
- 郑鑫武小年孟川李豪
- 关键词:云计算任务调度
- 基于DOM树的正文抽取算法研究
- 正文抽取是通过相关的技术或者算法从网页中获取网页核心内容或者主题内容的过程。随着互联网的快速发展,Web数据不断增加。在海量的数据中,如何通过正文抽取剔除掉与正文内容不相关的信息,得到“干净”的正文信息,在舆情监测、新闻...
- 孟川
- 关键词:正文抽取高斯平滑关键词匹配
- 文献传递
- 一种基于关键词匹配的正文抽取方法
- 本发明公开了一种基于关键词匹配的正文抽取方法,通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库,再构建相应的DOM树;层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,以节点与其父节点所含关...
- 武小年孟川王青芝叶志博奚玉昂张润莲
- 一种基于关键词匹配的正文抽取方法
- 武小年孟川王青芝叶志博奚玉昂张润
- Web技术的快速发展,使得网页已经成为信息发布和信息消费的主要载体。因此,在对互联网的舆情监控中,加强对网页的信息过滤至关重要;而在对网页的信息过滤中,网页的信息抽取或正文抽取成为关键。然而,现有网页种类繁多,不同网页结...
- 关键词:
- 关键词:互联网网站结构
- 一种基于Hadoop的分布式入侵检测系统
- 本发明公开了一种基于Hadoop的分布式入侵检测系统,包括数据采集模块、数据存储模块、控制中心和数据分析模块,其中控制中心包括系统管理模块、系统监控模块、任务调度模块和报警响应模块。本发明利用Hadoop的分布式计算框架...
- 武小年张润莲李豪张鑫孟川
- 文献传递
- 基于文本特征值的正文抽取方法被引量:2
- 2017年
- 针对现有Web正文抽取方法适用性差、准确率低的问题,提出了一种基于文本特征值的正文抽取方法。该方法通过对Web页面的代码进行预处理,再解析转换成DOM树;通过遍历DOM树,以节点的文本长度和标点符号权重计算DOM树各节点的文本特征值,并通过标准差消除噪声;通过高斯函数为节点的文本特征值进行平滑处理,缓解节点文本特征值的突变,降低短文本节点丢失的可能。实验测试结果表明,该方法不依赖标签,也无需训练数据,具有较好的通用性和较高的正文抽取准确率。
- 孟川武小年
- 关键词:正文抽取高斯平滑