位置: IT常识 - 正文

PCA降维原理操作步骤与优缺点(pca降维的原理)

编辑：rootadmin

PCA降维原理操作步骤与优缺点

推荐整理分享PCA降维原理操作步骤与优缺点(pca降维的原理)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:pca降维的原理,pca降维的原理及步骤,pca降维例题详解,pca降维后怎么输出重要特征,pca降维图,pca降维图,pca降维的原理,pca降维算法的作用,内容如对您有帮助，希望把文章链接给更多的朋友！

PCA全称是Principal Component Analysis，即主成分分析。它主要是以“提取出特征的主要成分”这一方式来实现降维的。

介绍PCA的大体思想，先抛开一些原理公式，如上图所示，原来是三维的数据，通过分析找出两个主成分PC1和PC2，那么直接在这两个主成分的方向上就可以形成一个平面，这样就可以把我们三位的样本点投射到这一个平面上（如右图）。那么此时的PC1和PC2都不单单是我们的其中某一维特征，而是各个特征通过某种线性变化的组合结果。这就是PCA降维宏观上的效果。

那PCA降维是如何实现的呢？在讲其具体实现原理前，先要清楚方差和协方差的概念：方差大概就是一些点在一个维度的偏差，越分散的话方差越大。而协方差是衡量一个维度是否会对另一个维度有所影响，从而查看这两个维度之间是否有关系。

PCA通过线性变换将元数据映射到新的坐标系中，使映射后的第一个坐标上的方差最大，第一个坐标也就是第一个主成分PC1，以此类推。在sklearn的PCA包中，有一个explained_variance_ratio_，它代表降维后的各主成分的方差值占总方差值的比例，这个比例越大，则越是重要的主成分。

那么，怎么样才能实现“找到那样一个坐标，使得数据在这个坐标上的映射方差最大”呢？按照下面的计算过程就可以实现这个效果。

PCA计算过程：

PCA总体计算步骤大概有：

首先对于数据集，有m个样本，设每个样本有n个维度。表示如下：

在上图中，其实只要看中间那幅图就行。左图和右图则是我分别用来突出样本的和特征的关系，比如第一列，就是第一个样本的所有值；而第一行，就是第一个特征的所有值。

对于每一个维度我们就可以得到均值，如下图所示：

每一个维度减去这个均值，得到一个矩阵（相当于将坐标进行了平移）。

到这里，我们的数据“去中心化”就完成了，这样去中心化的目的就是：让每个特征下的均值都为0，后续计算特征之间协方差的时候就可以简化计算。注意，PCA的降维就是围绕每个特征（即每个坐标轴）进行展开，而不是围绕样本。因为就想开头图上描述的一样，样本点数量是不变化的，但是特征的维度会有改变，导致样本点的形状分布上发生变化。

最终，我们得到的去中心化结果如下:

现在，我们需要对处理后的数据在特征维度（也就是各个坐标轴之间）进行协方差矩阵的运算。

在图中我们一共有n个特征，若特征两两组合，我们会得到一个n^2的协方差矩阵。如下图所示：（其中每个f就是原数据中一行一行的特征）

而协方差的定义为：

因为我们的去中心化操作，所有特征的均值（对应公式中的x和y的均值）已经变成0了，所以此时协方差可以表示成：

因此，协方差矩阵可以写成：

其中，m是样本点的个数，在上面已经提到过了。