机器学习——朴素无华贝叶斯（NBC）

机器学习——朴素贝叶斯（NBC）

朴素贝叶斯分类（NBC）是机器学习中最基本的分类方法，是其他众多分类算法分类性能的对比基础，其他的算法在评价性能时都在NBC的基础上进行。同时，对于所有机器学习方法，到处都蕴含着Bayes统计的思想。
朴素贝叶斯基于贝叶斯地理和特征条件独立性假设，首先基于条件独立性假设学习输入 $X$ 和输出 $Y$ 的联合分布 $P(X,Y)$ ，同时利用先验概率 $P(Y)$ ，根据贝叶斯定理计算出后验概率 $P(Y | X)$ ，找出每个类别的最大的后验概率即确定为相应的类别。算法实现简单，学习和预测的效率都很高，

基本定义

输入空间 $R^n$ 为特征化的 $n$ 维向量样本集合，输出空间为类别集合 $Y=\{c_1, c_2, ... c_K\}$ ， $K$ 为类别数目。任意一个样本 $X$ 可以表示如下：

X i = {x (1) i, x (2) i, x (3) i, . . ., x (n) i}

$X_i=\{x_i^{(1)}, x_i^{(2)}, x_i^{(3)}, ... ,x_i^{(n)}\}$
每一个

x(d)i $x_i^{(d)}$ 代表第

i $i$ 个样本的第

d $d$ 个特征分量的值，

d=1,2,3...n;n $d=1,2,3...n; n$ 为特征数目。
整个样本集可以表示如下：

T = {(X 1, y 1), (X 2, y 2), . . ., (X N, y N)}

$T=\{(X_1,y_1),(X_2,y_2),...,(X_N,y_N)\}$
其中

N $N$ 为样本集中样本的数目。

模型

根据统计学中的大数定律，当样本量足够大时，样本的各个统计量，如 $\bar x = \frac 1n\sum_{i=0}^n x_i$ 和 $\bar D = \frac 1n\sum_{i=0}^n(x_i-\bar x)^2$ 分别可以近似该样本的理论分布的期望和方差。大数定律基于每个样本都是从独立同分布的理论分布产生。
朴素贝叶斯方法假设了上述训练集 $T$ 是从输入空间和输出空间的联合概率分布 $P(X,Y)$ 产生，通过训练集 $T$ 学习联合概率分布。通过条件概率分布

P (X | Y = c k)

$P(X|Y=c_k)$ 和先验分布

P (Y = c k)

$P(Y=c_k)$
就可以得到联合分布

P(X,Y) $P(X,Y)$ 。
其中的条件概率分布理论上有指数级个数的参数，假设

x(j) $x^{(j)}$ 有

Sj $S_j$ 个取值可能性，那么对于K个类别的参数总个数为

K∏nj=1Sj $K\prod_{j=1}^nS_j$ 个。
为了简化计算和方便实现，朴素贝叶斯假定每个特征相互独立，这就是朴素贝叶斯的来历。根据独立性的定义可以得到

P (X | Y = c k) = P (X (1), X (2), . . ., X (n) | Y = c k)

$P(X|Y=c_k)=P(X^{(1)},X^{(2)},...,X^{(n)}|Y=c_k)$

= P (X (1) | Y = c k) * P (X (2) | Y = c k) . . . P (X (n) | Y = c k)

$=P(X^{(1)}|Y=c_k)*P(X^{(2)}|Y=c_k)...P(X^{(n)}|Y=c_k)$
虽然简化了计算，但是在某些问题中这样的假设并不成立，因此会牺牲一定的准确度。贝叶斯实际上学习到的是根据训练集生成的分布，属于生成式模型。
通过贝叶斯定理和全概率公式，根据上述学习到的参数计算每个类别下的后验概率：

P (Y = c k | X i) = P ( Y = c k ) * \prod j P ( X ( j ) i | Y = c k ) \sum k P ( Y = c k ) * \prod j P ( X ( j ) i | Y = c k )

$P(Y=c_k|X_i) = \frac{P(Y=c_k)*\prod_j P(X_i^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)*\prod_jP(X_i^{(j)}|Y=c_k)}$
这就是朴素贝叶斯分类器的数学模型。对于最终的分类函数可以标识如下：

y = f (X) = a r g m a x c k P ( Y = c k ) * \prod j P ( X ( j ) i | Y = c k ) \sum k P ( Y = c k ) * \prod j P ( X ( j ) i | Y = c k )

$y=f(X)=argmax_{c_k} \frac{P(Y=c_k)*\prod_j P(X_i^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)*\prod_jP(X_i^{(j)}|Y=c_k)}$
由于上式中对于所有的

ck $c_k$ ，分母都是一样的值，故只有分子对最后的分类产生作用。因此

y = f (X) = a r g max c k P (Y = c k) * \prod j P (X (j) i | Y = c k)

$y=f(X)=arg \max_{c_k} P(Y=c_k)*\prod_j P(X_i^{(j)}|Y=c_k)$

模型的另一种解释

上述关于朴素贝叶斯分类器的模型是从概率统计和独立性假设推出，可以从机器学习的角度重新推导。机器学习的三要素就是模型+策略+算法，这里的模型是指对于问题的分析后确定的需要学习到的模型类别，此处可以确定为生成式模型，学习到一个条件概率分布；策略选择0-1损失函数进行度量：

L (Y, f (X)) = {0, 1, if Y = f (X) if Y \neq f (X)

$L(Y,f(X)) = \begin{cases} 0, &\text{ if $Y=f(X)$} \\ 1, &\text{ if $Y \neq f(X)$} \end{cases}$
从而学习到最优的模型，选择期望风险最小化损失函数：

R e m p (f) = E [L (Y, f (X))] = E X \sum k = 1 K P (c k | X) * L (c k, f (X))

$R_{emp}(f) = E[L(Y,f(X))] \\ =E_X\sum_{k=1}^KP(c_k|X)*L(c_k,f(X))$
为了使得上述风险最小，只需要对

Xi $X_i$ 逐个极小化，从而得到：

f (x) = a r g min c k \in Y \sum k = 1 K L (c k, Y) P (c k | X = x) = a r g min c k \in Y \sum k = 1 K P (Y \neq c k | X = x) = a r g min c k \in Y (1 - P (Y = c k | X = x)) = a r g max c k \in Y P (Y = c k | X = x)

$f(x)=arg \min_{c_k \in Y}\sum_{k=1}^KL(c_k,Y)P(c_k|X=x) \\ = arg \min_{c_k \in Y}\sum_{k=1}^KP(Y \neq c_k|X=x) \\ = arg \min_{c_k \in Y}(1-P(Y=c_k|X=x))\\= arg \max_{c_k \in Y} P(Y=c_k|X=x)$
因此，使用基于贝叶斯定理得到的最大后验概率分类器与使用0-1损失函数的期望风险最小化策略是等价的。

参数估计

先验概率的估计：

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2... K

$P(Y=c_k) = \frac{\sum_{i=1}^N I(y_i=c_k)}{N},k=1,2...K$
条件概率估计：
设第

j $j$ 个特征

x(j) $x^{(j)}$ 的取值集合为

{aj1,aj2,...ajSj} $\{a_{j1},a_{j2},...a_{jS_j}\}$ ,则有：

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )

$P(X^{(j)}=a_{jl}|Y=c_k) = \frac {\sum_{i=1}^NI(x_{(j)}=a_{jl},y_i=c_k)} {\sum_{i=1}^NI(y_i=c_k)}$
平滑方法：
当进行分类时，如果某个特征出现的值在训练中没有出现，那么就会出现零概率，这样计算得到的所有最终结果就为0，为了避免这种偏差，使用平滑方法进行修正，最常用的就是加一平滑，即对没有出现的特征项的计数值采用1代替，对于分母上的总样本数进行相应的增加。

机器学习——朴素无华贝叶斯（NBC）

基本定义

模型

模型的另一种解释

参数估计

相关推荐