第五章 贝叶斯框架

学习 · 今天 · 15 人浏览

第五章 贝叶斯框架

朴素贝叶斯法是基于贝叶斯定理特征条件独立假设的分类方法。

对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入$ x$ ,利用贝叶斯定理求出后验概率最大的输出 $y$ .

本章要论的模型仍属于监督学习范畴,但与之前不同的是,这些模型都基于一种全新的建模理论:搭建模型的出发点不是为了对未知数据做预测,而是为了弄清楚并模拟数据产生的原理与机制。

为了更具体地讨论建模理论,我们假设数据的因变量为X,被预测量为y。

首先简单介绍下逻辑回归(logistic regression,后面章节学习),他直接从自变量$X$出发,得到被预测量$y=1$的概率,$P(y=1|X)=1/(1+e^{-X\beta})$。也就是说模型的建模出发点是直接考察自变量到被预测函量的关系,即建模的对象是条件概率$P(y|X)$。学术上,这些模型被称为判别式模型(discriminative model)。

本章即将讨论的式与之相对的生成模型(generative model)。这类模型并不直接寻找自变量X与被预测y之间的因果关系,而是关系数据${X,y}$是如何产生的。建模对象是条件概率$P(y)和P(X|y)$。

$P(y)$表示被预测量的分布情况,解释数据y是如何产生的。

$P(X|y)$表示在被预测已知的情况下自变量的分布情况,解释数据X是如何产生的。

例:

$y=1$表示鸭子,$y=0$表示公鸡

$P(X|y=1)$表示鸭子的叫声和样子等特征

$P(X|y=0)$表示公鸡相应的特征

生成模型的最终目的是预测变量y。

生成模型会在$P(X|y)和P(y)$的基础上,根据贝叶斯框架得到可以用于做预测的条件概率$P(y|X)$。

生成模型的建模流程

  • 假设在不同类别(事物的内在y)在自变量(事务的X)的分布情况
  • 根据观测到的实际情况,推导出隐藏在背后的类别

它不但能根据特征预测结果,还能“理解”数据式如何产生的,并以此为基础“创造”数据,所以在某种意义上可以说,生成式模型做到了真正理解了数据。

搭建模型的两种理念:可分为两类

  • 判别式模型:从X出发开始建模,之前讨论的模型都是判别式模型
  • 生成式模型:注重数据是如何产生的,根据贝叶斯框架得到预测结果

两种理念

第一节:贝叶斯框架概述

1. 信息价值的量化

生成式模型的理论基础式贝叶斯定理。

这是一个简单又深刻的数学定理:

  • 只涉及乘法、除法以及条件概率
  • 推导过程需要用到高中数学
  • 引出了先验概率、后验概率等

一个经典的问题

Monty Hall problem(蒙提霍尔问题):

image-20220730121329935

  • 坚持最初选择还是更改选择?
  • 绝大部分人的直觉式没必要更改选择,因为获奖的概率都是50%

image-20220730123059552

但遗憾的是,直觉是错误的:更改后的获奖概率远高于坚持最初决定的。

事实上,借助Python统计模拟,可以得到:更改后的获奖概率接近70%,而坚持最初选择的获奖概率只有30%左右。

证明:

设选手最初选择1号门,而剩下的2号门,3号门对主持人是没有任何差别的。

用随机变量A表示汽车所在位置

image-20220730123951189

image-20220730125403434

数学说明:主持人打开3号门这个事件其实隐含了两个信息:

  1. 汽车在1号门后,主持人随机打开了3号门;
  2. 汽车在2号门后,主持人没有其他选择,只能打开3号门。

这两条信息是对选手的最终选择有决定性的影响,而且是完全想反的影响。如果按照第1条信息,应该坚持最初的决定;如果按照第2条信息,则应该更换选择。

直觉上认为这两条信息出现的频率是相等的,或者说这两条信息带来的价值是一样的。这会导致我们得到错误的结论:坚持最初的决定和更改选择的获奖概率是一样的。为了克服直觉上的缺陷,需要使用合适的数据工具来量化信息带来的价值。

从上面的数学推导表明,条件概率可以很好的胜任这个任务,这正是贝叶斯框架的精妙。

定量地描述信息的价值

2. 先验概率与后验概率

对于监督学习,数据的变量分为自变量和标签变量(因变量)。自变量往往表示事物的表象,是很容易被观测到的,用X表示。而标签变量表示事物的内在,不容易被观测到,也会是模型想要预测的量,用y表示,则贝叶斯定理的数学公式为:
$$
P(y|X)=\frac{P(X|y)P(y)}{P(X)}
$$
式中,$P(X|y)$在学术上被称为先验概率(prior probability),而$P(y|X)$被称为后验概率(posterior probability)。

可以这样解释:

先验概率是用概率的形式来表示生活中的尝试(D)。比如在蒙提霍尔问题中,在已知汽车在2号门背后的条件下,主持人打开各扇门的概率。

而后验概率是通过事物的表象对产生原因的一种猜测(θ), 比如同样在蒙提霍尔问题中,在观察到主持人打开3号门的情况下,汽车在2号门背后的概率。

概括来说,先验概率是知因求果,后验概率是知果求因。

贝叶斯定理

3. 参数估计与预测公式

根据上面讨论,知道生成模型的建模对象是先验概率$P(X|y)$和变量$y$的分布$P(y)$,由这两个概率可以得到变量$X,y$的联合概率$P(X,y)=P(X|y)P(y)$,表示当前数据出现的可能性,因此在生成式模型里,这个概率常被用来作估计模型的参数。具体的,假设模型的参数为$\theta$,定义参数的似然函数(likelihood function)为$L=P(X,y|\theta)=P(X|y,\theta)P(y|\theta)$,则模型参数的估计公式为:
$$
\hat{\theta}=\mathop{arg}\mathop{max}\limits_{x}P(X|y,\theta)P(y|\theta)
$$
这个方法在学术上被称为最大似然估计法(Maximum Likelihood Estimation,MLE)

得到模型参数的估计值后,就可以根据贝叶斯数学公式计算有验概率$P(y|X)$,将$P(X|y,\hat{\theta})$仍记作$P(X|y)$,其余类似。

根据后验概率,可以很自然地得到$y$的预测公式:
$$
\hat{y}=\mathop{arg}\mathop{max}\limits_{y}P(y|X)
$$
即最大化后验概率。

如果只对变量$y$预测,其实不用计算贝叶斯公式中的分母$P(X)$,由此可以得到:在实际工程中更为常用的简化版预测公式:
$$
\hat{y}=P(X|y)P(y)
$$
生成式模型的建模步骤

预测公式

在监督学习中由于变量$y$是可观测到的,因此,相应的概率分布$P(y)$可以很容易地从数据中得到,类似地还有条件概率$P(X|y)$,但在非监督学习中,隐含变量$y$是不可观测的,因此,只能在搭建模型时假设$y$的分布i情况,并把它当做模型里的一个参数进行处理,也就是说需要设法去“猜测”变量$y$的取值。类似地还有条件概率$P(X|y)$,具体地处理方法将在介绍相应模型时讨论。

$$
y=ax+b+\varepsilon \
模型参数a,b,\sigma 都是随机变量 \
P(a,b,\sigma|y,x)\propto P(y|x,a,b,\sigma)P(a)P(b)P(\sigma)\
模型参数地估计依赖与贝叶斯框架
$$
贝叶斯学派:

  • 理论更加优雅
  • “灵活性”更好

频率派中,$\varepsilon$为随机扰动项,他地方差为$\sigma^2$,$a,b,\sigma$都是模型参数,是确定值。数据中地随机性完全来源于随机扰动项。

频率学派地建模方式为:数据地随机性是真实存在地,而且能被适合地模型所捕获,此外这个模型地参数本身是确定地值。

正在求解模型时,参数地估计值是一个随机变量,他地随机性来源于数据本身,可以通过假设检验来判断参数地P-value值,或置信区间等统计工具来判断参数地估计值离真实值有多远。


📝 本文由 deepseek-v4-pro 根据笔记内容自动发布

python
Theme Jasmine by Kent Liao