相干向量机（RVM）

简介

这篇文档主要是为了帮助刚入门机器学习的学生更好的理解Tipping的相关向量机（RVM：Relevance Vector Machines）。本文档假设读者具有一定的贝叶斯理论，高斯分布以及条件和边缘高斯分布的理论知识。并且熟悉矩阵微分、回归向量的表示和核函数。（译者：可以参考斯坦福大学的机器学习公开课内容）这篇文档分为两部分：1、介绍了需要解决的问题即在某些超参数情况下最大化回归目标值的后验概率。分析过程中会一步一步推导这些公式，每一步推导过程做到尽可能详细有理可循。2、从一个算法的角度解释这个问题，并且给出一个示例。

公式约定

1、 $P(A|B,C)$ 为在B，C给定情况下A的概率。在文中后面表示的时候，会省略和A独立的条件项。
2、 $X\sim (\mu,\sigma^2)$ 即X为均值为 $\mu$ 方差 $\sigma$ 的高斯分布
3、粗体代表向量和矩阵

第一节：理论

1.1 论证逼近理论

常规的线性回归问题即找到向量参数W和偏置 $c$ ，根据这两个参数值在不知道输入 $x(x\in R^M)$ 的值时来估计 $y$ 。

y = W T X + c

$y=W^TX+c$ 在实际当中我们通常把c合并到W当中。如果x和y之间存在一种线性关系，则可以利用某种基函数表示为：

y = W T ϕ (x)

$y=W^T\phi(x)$ 其中

x→ϕ(x) $x\rightarrow\phi(x)$ 是某种非线性映射（也就是基函数）。
当我们尝试通过训练样本计算W的时候，我们假设每一个目标

ti $t_i$ 可以看做为

yi $y_i$ 叠加了噪声之后的值。

t i = y i + ϵ i

$t_i=y_i+\epsilon_i$

= W T ϕ (x) + ϵ i

$=W^T\phi(x)+\epsilon_i$ 其中

ϵi $\epsilon_i$ 假设均值为0方差为

σ2 $\sigma^2$ 的独立高斯噪声过程，即

ϵi∼(0,σ2) $\epsilon_i \sim{}(0,\sigma^2)$ 。也就是

P (t i | x i, W, σ 2) \sim N (0, σ 2)

$P(t_i|x_i,W,\sigma^2)\sim N(0,\sigma^2)$

= (2 π σ 2) - 0.5 e x p {- 1 2 σ 2 (t i - y i) 2}

$=(2\pi\sigma^2)^{-0.5}exp\{-\frac 1{2\sigma^2}(t_i-y_i)^2\}$

= (2 π σ 2) - 0.5 e x p {- 1 2 σ 2 (t i - W T ϕ (x)) 2}

$=(2\pi\sigma^2)^{-0.5}exp\{-\frac 1{2\sigma^2}(t_i-W^T\phi(x))^2\}$ 现在我们同时训练N个点，则向量 $t$ 代表了所有独立的训练点

ti $t_i$ ，然后构造一个

N×M $N\times M$ 维的矩阵，其中第

i $i$ 行表示向量

ϕ(xi) $\phi(x_i)$ ，这样我们有：

P (t | x i, w, σ 2) = \prod i = 1 N N (W T ϕ (x), σ 2)

$P(t|x_i,w,\sigma^2)= \prod_{i=1}^NN(W^T\phi(x),\sigma^2)$

= \prod i = 1 N (2 π σ 2) - 0.5 e x p {- 1 2 σ 2 (t i - W T ϕ (x)) 2}

$=\prod_{i=1}^N(2\pi\sigma^2)^{-0.5}exp\{-\frac 1{2\sigma^2}(t_i-W^T\phi(x))^2\}$

= (2 π σ 2) - 0.5 e x p {- 1 2 σ 2 | | t - Φ W | | 2}

$=(2\pi\sigma^2)^{-0.5}exp\{-\frac 1{2\sigma^2} ||t-\Phi W||^2\}$
尼玛！本来快写完了，不知道为什么存的草稿没了！！！！！ps：大家还是看英文的吧。。。

简介

公式约定

第一节：理论

1.1 论证逼近理论

相关推荐