数据白化whitening(也称为球化sphering)。whiten的目的是降低输入数据的冗余。更正式点说法是:

  1. 降低特征之间的相关性
  2. 使得所有的特征拥有相同的方差

Whiten Experiment


原始数据实验代码

PCA_Whiten


步骤

  1. 将数据进行PCA坐标转换
  2. 使投影后的数据拥有单位方差,即
  3. [Optional]在第2步的数据投射时,可以进行降维操作

的选择

  • 估计的方法
    1. 当数据时,
    2. 当数据时,
  • 分析的方法
    将λ按大小画出下图,其\episilon大于大多数比较小的特征值,即最好消除途中的Long tail
    eigenvalues

ZCA_Whiten


  • 方法
    根据White数据的性质。即:
    任何white的数据乘以一个正交基的方阵,其最终数据还是white(TODO:Proof)
    将PCA whiten后的数据反投射到原始的数据空间坐标,即:

  • Tips

    1. U是正交矩阵,即
    2. 进行ZCA Whiten的时候, 在PCA Whiten步骤中不能做降维操作,因为white数据只有乘以正交基的方阵才是white的。

Reference


  1. Natural Image Statistics(Chapter 5)
  2. UFLDL