刘四维
- 作品数:4 被引量:13H指数:2
- 供职机构:复旦大学更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于HTML标记和长句提取的网页去重算法被引量:4
- 2009年
- 提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度。实验结果表明该算法能够高效,准确地去除重复的网页。
- 刘四维章轶夏勇明钱松荣
- 关键词:网页去重长句红黑树
- 不同类型数据间的聚类算法
- 随着信息时代的发展,人们所能获取的数据正成指数形式的爆炸式增长。这些数据往往都具有不同的数据类型,如何在这些不同类型的数据之间建立联系并聚类,便是本文研究的课题。我们提出通过两个步骤来完成不同类型数据间的聚类:第一个步骤...
- 刘四维
- 关键词:数据类型聚类算法关联性分析
- 文献传递
- 基于Bloom Filter的网页去重算法被引量:7
- 2011年
- 现在的互联网中存在网页重复的问题,这些问题将会使数据挖掘,搜索的复杂度加大。现有技术一些不足之处,针对互联网中的重复网页采用基于Bloom Filter的网页去重算法。使用了现有的网页去杂算法,对网页进行预处理,同时利用Bloom Filter结构大大降低了网页去重算法的时间复杂度和空间复杂度。从网页中提炼出表示网页特征的一些长句,从而把网页去重过程转换为一个搜索长句的过程,使用Bloom Filter减小了算法的时间复杂度。
- 徐娜刘四维汪翔倪卫明
- 关键词:BLOOM网页去重长句HASH函数
- 基于GPRS网络的流媒体自适应速率算法被引量:2
- 2009年
- 在研究GPRS网络特性的基础上,设计基于RTP/RTCP的流媒体自适应速率传输算法。此算法包括首发视频选择算法,丢包率预测算法,及自适应视频码率调整算法。最后算法仿真实验结果表明首发视频选择算法可以有效减少视频传输途中的切换次数;丢包率预测算法不论在平稳或是变化剧烈的网络环境下,都能较为准确地预测下一时刻的网络丢包率;自适应视频码率调整算法可以有效地使得码率尽快的收敛。
- 章轶刘四维夏勇明钱松荣
- 关键词:GPRSRTP/RTCP丢包率