郭芹
- 作品数:13 被引量:12H指数:2
- 供职机构:山东省科学院更多>>
- 发文基金:国家自然科学基金山东省自然科学基金博士科研启动基金更多>>
- 相关领域:理学自动化与计算机技术机械工程更多>>
- 基于弱相关抽样的正则化学习算法的一致性分析
- 学习理论自产生以来,已迅速发展成为一门既有理论又有应用的学科,其两方面的研究都取得了丰硕的成果。它试图在数学框架下对学习领域中使用的各种算法进行解释,其核心内容是研究各种学习算法的一致性和学习速率。前者是一种定性分析,而...
- 郭芹
- 关键词:积分算子强混合序列学习速率
- 文献传递
- 面向大规模流数据的可扩展分布式实时处理方法被引量:2
- 2016年
- MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求。对此提出一种面向大规模流数据的可扩展、分布式实时处理方法。该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、单遍分析,以提高对流数据的实时分析能力。实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性。
- 蔡斌雷郭芹朱世伟任家东
- 关键词:分布式计算流数据处理MAPREDUCE
- 基于Hadoop MapReduce的分布式数据流聚类算法研究被引量:5
- 2014年
- 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。
- 蔡斌雷任家东朱世伟郭芹
- 关键词:聚类数据流聚类分布式聚类
- 基于Spark的云数据中心性能异常实时检测方法
- 2016年
- 针对当前云计算环境下数据中心性能异常检测方法的实时性、可扩展性问题,提出一种云数据中心环境下基于Spark的性能异常实时检测方法Spark—ADOPD(Spark-based Anomaly Detection OverPerformance DataInRealtime).方法设计基于Spark的分布式、可扩展流数据聚类算法对采集的云数据中心性能数据进行自动分类,建立性能异常预测模型;定义相似度函数,通过计算持续到达的性能数据与预测模型的相似度,挖掘性能异常行为,以动态调整资源分配.实验结果证明Spark-ADOPD具有较好的实时性和准确性.
- 蔡斌雷郭芹
- 关键词:异常检测流数据聚类SPARK资源调度
- 一种基于混合粒度分布式内存网格索引的KNN查询方法
- 本发明公开了一种基于混合粒度分布式内存网格索引的KNN查询方法,具体实现过程为:进行数据预处理的步骤:基于网格和密度,将整体数据进行空间划分,得到总体数据分布的概要估计;进行数据查询的步骤:建立混合粒度的分布式内存网格索...
- 蔡斌雷朱世伟郭芹杨子江于俊凤魏墨济李思思徐蓓蓓李晨巴志超鞠镁隆
- 文献传递
- 再生核希尔伯特空间的子空间与覆盖数
- 2013年
- 针对回归问题的一致性分析,给出再生核希尔伯特空间的子空间及覆盖数的一些重要结论.
- 郭芹
- 关键词:再生核希尔伯特空间紧子集
- 一种基于混合粒度分布式内存网格索引的KNN查询方法
- 本发明公开了一种基于混合粒度分布式内存网格索引的KNN查询方法,具体实现过程为:进行数据预处理的步骤:基于网格和密度,将整体数据进行空间划分,得到总体数据分布的概要估计;进行数据查询的步骤:建立混合粒度的分布式内存网格索...
- 蔡斌雷朱世伟郭芹杨子江于俊凤魏墨济李思思徐蓓蓓李晨巴志超鞠镁隆
- 文献传递
- 谱算法下的最小二乘回归学习
- 2013年
- 在独立一致抽样且谱算法背景下,利用积分算子和样本算子的技巧,推导出最小二乘回归正则化学习算法满意的容量无关误差界和学习速度ο(m-r/2r+4),从而得到最小二乘回归正则化学习算法的一致性分析。
- 郭芹孙红卫
- 关键词:最小二乘
- 基于弱相关抽样的系数正则化的一致性分析被引量:4
- 2010年
- 针对满足强混合条件的弱相关抽样,且α系数满足多项式衰减αi≤ai-t的情形,利用样本算子与积分算子的技巧,证明最小二乘系数正则化算法的一致性,并且得出在满足正则化条件LK-rfρ∈Lρ2X(X),0
- 郭芹孙红卫
- 关键词:强混合序列学习速率
- 四次样条插值函数的研究
- 2009年
- 主要研究了四次样条插值函数的存在唯一性,通过给出三种边界条件,利用三弯矩法的思想,建立求解四次样条插值函数的线性方程组。在等步长的条件下,研究了线性方程组的系数矩阵,在三种边界条件下,证明了系数矩阵在一定条件下是可逆的,从而说明四次样条插值函数的存在唯一性。尤其对第一种边界条件,通过差分方程的方法,证明了在等距节点的条件下四次样条插值函数的存在唯一性与插值点数的奇偶性有关。
- 郭芹魏华孙红卫
- 关键词:样条插值差分方程线性方程组行列式