针对函数型数据无穷维、低信噪比和动态时变等导致传统聚类方法性能降低、运行速度变慢和结果可解释性变差等问题,提出一种分裂转移式层次聚类(split transfer hierarchical clustering,STHC)算法,与传统层次聚类算法相比,具有能够发现内部层次关系和无需设定聚类个数的特点,选择适当的函数主成分个数重构样本,达到降低曲线噪声的作用。对重构样本进行分裂转移式层次聚类,根据内部准则选出最优聚类个数,并在仿真数据和真实数据上与其他几种函数型数据聚类方法进行试验比较。结果表明,本研究提出的STHC算法具有良好的性能表现和较低的运行时间,同时能够识别出函数型数据的多层次结构,提高聚类结果的可解释性。
随机森林是机器学习领域中一种常用的分类算法,具有适用范围广且不易过拟合等优点.为了提高随机森林处理多分类问题的能力,提出一种基于空间变换的随机森林算法(space transformation based random forest algorithm,ST-RF).首先,给出一种考虑优先类别的线性判别分析方法(priority class based linear discriminant analysis,PCLDA),利用针对优先类别的投影矩阵对样本进行空间变换,以增强优先类别样本与其他类别样本的区分效果.进而,将PCLDA方法引入随机森林构建过程中,在为每棵决策树随机选择一个优先类别保证随机森林多样性的基础上,利用PCLDA方法创建侧重于不同优先类别的决策树,以提高单棵决策树的分类准确性,从而实现集成模型整体分类性能的有效提升.最后,在10个标准数据集上对ST-RF算法与7种典型随机森林算法进行比较分析,验证所提算法的有效性,并将基于PCLDA的空间变换策略应用到对比算法中,对改进前后的算法性能进行比较分析.实验结果表明:ST-RF算法在处理多分类问题方面具有明显优势,所提出的空间变换策略具有较强的普适性,可以显著提升原算法的分类性能.