背景

假设为k类样本基于特征x的概率密度函数,且样本来之于k类的概率为,则根据贝叶斯理论,样本x属于k类的概率为:


LDA


  • 原理
    LDA 假设1 每个类的样本分布符合Gaussian分布,则LDA使用每个类的gaussian分布函数作为这个类的概率密度函数。这里以一维特征为例,k类样本的gaussian分布函数为:


    LDA还 假设2 每个类的协方差矩阵是一样的,即。则其后验概率函数为:

    (由于是x的线性函数, 所以这也是LDA中有linear的原因)
    判别标准: 哪个类的最大,其就属于哪个类。

    其中的求解如下:


    当特征维数大于1时 ,同理可得其为:

  • 补充
    LDA是 Generative Learning 。因为其是基于P(x,y)的(即P(x,y)可以计算出来)。

QDA(Quardic Discriminant Analysis)


  • 原理
    QDA与LDA的唯一区别就是没有LDA的 假设2 , 根据multi-gaussian distributuin,可以得到其为:

    从上式可以看出其包含x的二次项, 这也是其名字中有Quardic的原因

  • 补充
    当特征维数比较多时,其 协方差矩阵可能不可求 (LDA也有这个问题),这时可以假设其协方差矩阵是对角的( 即此时使用的是Naive Bayes ):

References


  1. An Introduction to Statistical Learning