标签归档:PCA

Machine Learning-聚类(Clustering)(二)-主成分分析(PCA)

一、降维(Dimensionality Reduction)
我们知道在实际场景中,很多特征向量之间都是有强相关性的,比如有两个特征分别用英尺和平方米来丈量房屋的面积大小,那么这两组数据就 是冗余的(为什么会出现这么明显的冗余?因为在实际场景中会有几百甚至是上千的特征,很难判断两个特征之间是否是冗余的。),我们完全可以使用一个一维的特征变量来表示房屋的面积大小,这就是降维。举个例子:
2DTo1D
如上图所示,我们把原来的两个向量x1和x2降维到只是用一个向量z1来使用。更直观的,可以看一个三维降低到二维的例子:
3DTo2D
我们可以发现三维空间里离散的点被映射到了一个二维空间平面之中。

那么为什么要降维呢?

  • 压缩数据,节省存储空间
  • 提高算法执行速度
  • 用于数据可视化,使视图更简洁,更容易发现数据之间的规律
  • 二、主成分分析(Principal Component Analysis)

    1.PCA的数学表达
    在介绍PCA的计算方法和原理之前,我们先了解下PCA主要做的事情是什么,并且用数学语言把它表达出来。看个例子:
    PCA_2DTo1D
    这个例子是把二维的数据降低到一维,它所做的事[……]

    继续阅读