主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA，下面我们就对PCA的原理做一个总结。

　　　　PCA顾名思义，就是找出数据里最主要的方面，用数据里最主要的方面来代替原始数据。具体的，假如我们的数据集是n维的，共有m个数据

　　　　我们先看看最简单的情况，也就是n=2，n'=1,也就是将数据从二维降维到一维。数据如下图。我们希望找到某一个维度方向，它可以代表这两个维度的数据。图中列了两个向量方向，

主成分分析（PCA）原理总结
1. PCA的思想
2. PCA的推导:基于小于投影距离

　　　　为什么

　　　　假如我们把n'从1维推广到任意维，则我们的希望降维的标准为：样本点到这个超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开。

　　　　基于上面的两种标准，我们可以得到PCA的两种等价推导。

2. PCA的推导:基于小于投影距离

　　　　我们首先看第一种解释的推导，即样本点到这个超平面的距离足够近。

　　　　假设m个n维数据

　　　　如果我们将数据从n维降到n'维，即丢弃新坐标系中的部分坐标，则新的坐标系为

　　　　如果我们用

　　　　现在我们考虑整个样本集，我们希望所有的样本到这个超平面的距离足够近，即最小化下式：

\sumi=1m||x¯(i)-x(i)||22

　　　　将这个式子进行整理，可以得到:

T

主成分分析（PCA）原理总结 1. PCA的思想 2. PCA的推导:基于小于投影距离