Naive Bayes 概述

贝叶斯决策论是概率框架下实施决策的基本方法。

基础知识

概率知识

  • 联合概率:是在多元的概率分布中多个随机变量分别满足各自条件的概率。对于 A 和 B 两个随机变量,表示为:$P(AB)$。
  • 条件概率:是指事件 A 在另外一个事件 B 已经发生条件下的发生概率。表示为:$P(A|B)=\frac{P(AB)}{P(B)}$。
  • 边缘概率:在多维随机变量中,只包含其中部分变量的概率分布。对于 A 和 B 两个随机变量,A 的边缘概率表示为$P(A)$。

贝叶斯定理

对于随机变量 A 和 B:
$$
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
$$

  • $P(A|B)$ 是 A 针对 B 的条件概率,也称作 A 的后验概率;
  • $P(B|A)$ 是 B 针对 A 的条件概率,也称作 B 的后验概率,这里称为似然;
  • $P(A)$ 是 A 的先验概率,$P(B)$ 是 B 的先验概率,这里称为标准化常量。

按照术语可以表示为:
后验概率=(似然 * 先验概率)/ 标准化常量
显而易见,后验概率和先验概率和似然的乘积成正比。

朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

对于分类问题,已知随机变量 X 和 Y,训练数据集 $T={(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)} $包含N条数据,其中$x_{i}=(x_{i}^{(1)},x_{i}^{(2)},\cdots,x_{i}^{(M)})^{T}$,是一个M维向量,$y_{i} \in { c_{1},c_{2},\cdots,c_{K} }$。

我们的目标是如何根据观察到 $x_{i}$ 来正确判断其属于哪个类别。在朴素贝叶斯法中,就相当于:

  1. 计算属于不同类别的概率(计算特定类别的后验概率);
  2. 找出最大概率的类别(后验概率最大化)。

对于第一个问题,根据贝叶斯定理,需要求解类条件概率$P(X=x|Y=c_{k})$,它设置关于$x$的所有属性的联合概率,计算比较困难。朴素贝叶斯对条件概率分布作了条件独立性的假设(因此称为 Naive),使得问题变得简单,当然也会牺牲一定的分类准确率。

注:现实中,属性之间可能会有一定的联系。

因此,后验概率:
$$
P(Y=c_k|X=x)=\frac{P(X=x|Y=c_{k})P(Y=c_{k})}{\sum_K P(X=x|Y=c_{k})P(Y=c_{k})}
$$
其中条件概率可以写成:
$$
P(X=x|Y=c_{k})=\prod_{i=1}^{n}P(X^{(i)}=x^{(i)}|Y=c_{k})
$$

第二个问题,求出所有类的后验概率之后,进行比较,找出概率最大的类作为最终的分类结果,因此朴素贝叶斯分类器可以表示为:
$$
y=\arg\max_{ck} P(Y=c_{k}) \prod_{i=1}^{n}P(X^{(i)}=x^{(i)}|Y=c_{k})
$$

后验概率最大等价于 0-1损失函数时的期望风险最小化,可自行推导一下:-)

参数估计

概率模型的训练过程就是参数估计过程。统计学界提供了两种不同的解决方案:频率主义学派认为参数虽然未知,但确是客观存在的固定值,可通过优化似然函数等准则确定参数值;贝叶斯学派则认为参数时未观察到的随机变量,其本身也可有分布,课假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。

这里分别介绍频率主义学派的极大似然估计(Maximum Likelihood Estimation,MLE)和贝叶斯学派的贝叶斯估计(Bayesian Estimation,BE)。

极大似然法

核心思想就是:找到参数 $\theta$ 的一个估计值,使得当前样本出现的可能性最大。

假设有一组独立同分布的随机变量$X$,给定一个概率分布$D$,假设其概率密度函数为$f$,以及一个分布的参数 $\theta$,从这组样本中抽出$x_{1},x_{2},\cdots,x_{n}$,那么通过参数 $\theta$ 的模型$f$产生上面样本的概率为:
$$
f(x_1,x_2,\cdots,x_n|\theta) = f(x_1|\theta) \times f(x_2|\theta) \times \cdots f(x_n|\theta)
$$
根据样本$x_{1},x_{2},\cdots,x_{n}$,定义似然函数为:
$$
L(\theta|x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n|\theta) = \prod f(x_i | \theta)
$$
连乘容易造成下溢,通常使用对数似然:
$$
\ln L(\theta|x_1,x_2,\cdots,x_n) = \sum_{i=1}^n f(x_i | \theta)
$$
最后的估计值就是使对数似然最大的参数 $\hat{\theta}$。

贝叶斯估计

贝叶斯估计是假设一个关于的 $\theta$ 的先验知识$p(\theta)$,结合观察的数据,去求:
$$
\arg \max_{\hat{\theta}} =f(x_1,x_2,\cdots,x_n|\theta)p(\theta)
$$

MLE 和 BE的区别与联系

从数学表达式的角度来说,两者最大的区别就在这里:贝叶斯估计引入了先验概率,通过先验概率与似然概率来求解后验概率。而最大似然估计是直接通过最大化似然概率来求解得出的。最大似然估计,就是求解【似然函数】最大的参数集合。贝叶斯估计,就是求解【似然函数 * 先验概率】。 最大的参数集合。最大似然估计是对点估计,贝叶斯估计是对分布估计。

参考文献

请作者吃酒!