最强组合，随机森林和 PCA ！！

发布日期: 2025-03-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

哈喽，我是cos大壮！~
单个随机森林可能面临过拟合、计算开销大和缺乏可解释性等问题。通过调节参数、特征选择和使用适当的算法优化，可以缓解这些问题。结合其他技术（如PCA降维、数据平衡等）可以进一步提高模型的性能和效率。
今天咱们聊聊关于PCA+随机森林组合的优势，以及二者结合的思路。
PCA：通过线性变换将原始高维数据投影到低维空间，提取数据中主要的变异信息，去除了冗余与噪声。
随机森林：本身对噪声具有一定的鲁棒性，但在高维数据上，冗余信息会增加计算复杂度，甚至影响模型稳定性。
PCA降维后，特征数量大幅减少，使得后续随机森林模型在训练和预测时计算量显著降低，从而加快模型的收敛速度。
降维有助于消除特征之间的多重共线性，保留最具判别力的特征，使随机森林在集成决策时更专注于数据的核心结构，从而降低过拟合风险。
随机森林通过集成多棵决策树实现投票或均值预测，而PCA提取的主成分保证了数据主要信息的保留，两者结合能够在降低维度的同时保持数据的本质信息，提升整体模型的稳定性和泛化性能。
目的：将高维数据映射到低维子空间，同时保留数据中尽可能多的方差信息。
假设原始数据矩阵为
其中为样本数，为原始特征数。首先对每个特征进行中心化：
其中为每一列（特征）的均值构成的向量。
中心化后的数据构成协方差矩阵：
该矩阵反映了各特征之间的相关性及数据的分布情况。
对协方差矩阵进行特征值分解：
其中：
为特征值，表示在对应特征向量方向上的方差大小。
为对应的特征向量，构成一组正交基。
通常将特征值按从大到小排序：
选取前个最大的特征值对应的特征向量构成矩阵。数据在低维空间的表示为：
这样，降维后的数据保留了原始数据中最多的方差信息。
目的：通过构建多个决策树并集成它们的预测结果，获得比单一决策树更高的预测准确率和鲁棒性。
Bootstrap采样：对原始数据进行有放回抽样，构造多个子数据集，用以训练各个决策树。
随机特征选择：在每个节点分裂时，随机选取部分特征来寻找最佳分割，使得树之间存在差异，提高整体的泛化能力。
常用的度量方法包括Gini不纯度和信息熵。
对于一个节点，其Gini不纯度定义为：
其中是节点中第类的样本比例，是类别总数。
信息熵定义：
在节点分裂前后的信息增益：
其中表示分裂前的数据集，表示第个子集。
假设构建了棵决策树，对于分类问题，最终的预测采用多数投票：
其中是第棵树对样本的预测。
对于回归问题，采用平均值：
在高维数据环境下，直接使用随机森林可能会遇到：
维度灾难：特征过多导致计算复杂度高；
冗余特征与噪声：影响模型训练和预测的准确性；
共线性问题：特征间高度相关可能使模型难以捕捉有效信息。
通过使用PCA降维，能够：
去除噪声与冗余信息：保留数据中最具代表性的特征（主成分）。
降低计算复杂度：减少模型训练时间，并在一定程度上防止过拟合。
提升模型性能：将随机森林训练在一个更加紧凑且信息浓缩的特征空间上，有助于捕捉核心模式，提高泛化能力。
数据预处理：对原始数据进行中心化。
PCA降维：计算协方差矩阵、进行特征值分解，选择前个主成分构成新的特征矩阵。
训练随机森林：利用降维后的数据训练随机森林模型。
预测与评估：利用训练好的随机森林模型对新样本进行预测，并评估模型性能。
咱们这里，从数据生成、模型训练、结果展示到算法优化点的讨论。
使用PyTorch生成虚拟数据、实现PCA降维，并用自定义的随机森林回归器（基于决策树）进行预测。
利用PyTorch对数据进行中心化后，采用奇异值分解（SVD）来计算数据的主成分，并选择前5个主成分作为新的特征表示。其具体流程为：
数据中心化：计算各特征均值，并从原始数据中减去均值。
SVD分解：对中心化后的数据进行奇异值分解，得到奇异值及右奇异向量矩阵。
选取主成分：取前5个主成分（对应最大奇异值），将原始数据投影到低维空间。
由于随机森林本质上是多个决策树的集成，本案例中我们自定义了一个简单的决策树回归器（支持基于均方误差的最佳分割）和随机森林回归器：
决策树回归器：递归地对数据进行分裂，每次在随机选择的部分特征中寻找最优分割（使得左右子集的均方误差最小），直至达到最大树深或样本数低于设定阈值时返回叶节点均值。
随机森林回归器：通过Bootstrap抽样生成多个数据子集，对每个子集训练一棵决策树，最终对新样本的预测采用所有决策树预测值的平均。
利用PCA降维后的训练数据训练随机森林回归器，并对测试数据进行预测，计算预测结果与真实目标值之间的差异。
PCA解释方差比例图（图1）：前5个主成分所解释的方差比例，直观显示每个主成分在数据中所占的信息比重。若前几个主成分解释了大部分方差，则说明降维过程中信息损失较少，从而为后续随机森林建模提供了充分的关键信息。
前两个主成分散点图（图2）：将训练数据投影到前两个主成分空间中，利用色彩区分目标值，帮助我们理解数据在低维空间中的分布特征及趋势。通过散点的分布，可以观察数据是否具有明显的群集效应或者线性/非线性分布趋势。
真实值与预测值对比曲线图（图3）：测试集中真实目标值与模型预测值的变化趋势（通过对样本排序后绘制），直观对比模型预测的准确性。两条曲线若高度重合，说明模型拟合效果良好；若存在较大偏差，则提示模型可能存在欠拟合或过拟合问题。
残差分布直方图（图4）：在测试集中每个样本预测残差的分布情况，用于分析模型误差的分布特性。理想情况下，残差应近似呈正态分布，均值接近0，若出现明显偏态或多峰现象，则可能暗示模型存在系统性误差或异常值问题。
数据预处理是机器学习流程中的第一步，对数据进行合适的标准化和中心化处理可以显著提高PCA降维和随机森林的效果。
中心化：在PCA过程中，数据中心化确保各特征的均值为0，使得协方差矩阵反映真实的特征间关系。
标准化：当各特征量纲差异较大时，可以考虑标准化，使每个特征的方差归一化，这样在计算协方差矩阵时不会因为量纲问题而影响主成分提取。
异常值处理：对数据中的异常值进行检测和处理，可以采用截断、平滑或者基于鲁棒统计的方法，这对于随机森林中的分裂点选择也十分重要，因为异常值可能影响均方误差的计算，进而导致不合理的分裂。
在高维数据中，很多特征之间存在冗余，直接使用所有特征不仅增加了计算复杂度，也可能导致模型过拟合。
相关性分析：可以通过相关性矩阵、互信息等方法分析特征之间的相关性，针对高度相关的特征进行合并或者筛选。
领域知识导入：在有领域先验知识的情况下，可以构造新的特征或者进行特征交互，帮助模型更好地捕捉数据的内在规律。
降维方法对比：除了PCA之外，还可以尝试其他非线性降维方法，如t-SNE、LLE、Isomap等，针对不同数据分布情况选择最合适的方法。
特征重要性评估：利用随机森林自身的特征重要性输出，可以在模型训练后对特征进行排序，从而进一步筛选掉贡献较低的特征，减少噪声干扰。
总之，通过对PCA与随机森林各自优势的发挥及二者深度结合，并辅以系统的参数调优与硬件加速策略，可以在保证模型准确性的同时大幅提高训练效率和系统稳定性。
大家有问题可以直接在评论区留言即可~
喜欢本文的朋友可以收藏、点赞、转发起来！
推荐阅读
（点击标题可跳转阅读）
《机器学习100天》视频讲解
公众号历史文章精选
我的深度学习入门路线
重磅！
1700多页的《人工智能学习路线、干货分享全集》PDF文档
扫描下方二维码，添加我的微信，领取1700多页的《人工智能学习路线、干货分享全集》PDF文档（一定要备注：资料）。
长按扫码，申请入群
感谢你的分享，点赞，在看三连