第五章贝叶斯框架

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入$ x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ ．

本章要论的模型仍属于监督学习范畴，但与之前不同的是，这些模型都基于一种全新的建模理论:搭建模型的出发点不是为了对未知数据做预测，而是为了弄清楚并模拟数据产生的原理与机制。

为了更具体地讨论建模理论，我们假设数据的因变量为X，被预测量为y。

首先简单介绍下逻辑回归(logistic regression，后面章节学习)，他直接从自变量$X$出发，得到被预测量$y=1$的概率，$P(y=1|X)=1/(1+e^{-X\beta})$。也就是说模型的建模出发点是直接考察自变量到被预测函量的关系，即建模的对象是条件概率$P(y|X)$。学术上，这些模型被称为判别式模型(discriminative model)。

本章即将讨论的式与之相对的生成模型(generative model)。这类模型并不直接寻找自变量X与被预测y之间的因果关系，而是关系数据${X,y}$是如何产生的。建模对象是条件概率$P(y)和P(X|y)$。

$P(y)$表示被预测量的分布情况，解释数据y是如何产生的。

$P(X|y)$表示在被预测已知的情况下自变量的分布情况，解释数据X是如何产生的。

例：
$y=1$表示鸭子，$y=0$表示公鸡
$P(X|y=1)$表示鸭子的叫声和样子等特征
$P(X|y=0)$表示公鸡相应的特征

生成模型的最终目的是预测变量y。

生成模型会在$P(X|y)和P(y)$的基础上，根据贝叶斯框架得到可以用于做预测的条件概率$P(y|X)$。

生成模型的建模流程：

假设在不同类别（事物的内在y）在自变量（事务的X）的分布情况
根据观测到的实际情况，推导出隐藏在背后的类别

它不但能根据特征预测结果，还能“理解”数据式如何产生的，并以此为基础“创造”数据，所以在某种意义上可以说，生成式模型做到了真正理解了数据。

搭建模型的两种理念：可分为两类

判别式模型：从X出发开始建模，之前讨论的模型都是判别式模型
生成式模型：注重数据是如何产生的，根据贝叶斯框架得到预测结果

两种理念

第一节：贝叶斯框架概述

1. 信息价值的量化

生成式模型的理论基础式贝叶斯定理。

这是一个简单又深刻的数学定理：

只涉及乘法、除法以及条件概率
推导过程需要用到高中数学
引出了先验概率、后验概率等

一个经典的问题
Monty Hall problem（蒙提霍尔问题）：

坚持最初选择还是更改选择？

绝大部分人的直觉式没必要更改选择，因为获奖的概率都是50%

但遗憾的是，直觉是错误的:更改后的获奖概率远高于坚持最初决定的。
事实上，借助Python统计模拟，可以得到：更改后的获奖概率接近70%，而坚持最初选择的获奖概率只有30%左右。
证明：
设选手最初选择1号门，而剩下的2号门，3号门对主持人是没有任何差别的。
用随机变量A表示汽车所在位置
数学说明：主持人打开3号门这个事件其实隐含了两个信息：

汽车在1号门后，主持人随机打开了3号门;

汽车在2号门后，主持人没有其他选择，只能打开3号门。

这两条信息是对选手的最终选择有决定性的影响，而且是完全想反的影响。如果按照第1条信息，应该坚持最初的决定；如果按照第2条信息，则应该更换选择。
直觉上认为这两条信息出现的频率是相等的，或者说这两条信息带来的价值是一样的。这会导致我们得到错误的结论:坚持最初的决定和更改选择的获奖概率是一样的。为了克服直觉上的缺陷，需要使用合适的数据工具来量化信息带来的价值。
从上面的数学推导表明，条件概率可以很好的胜任这个任务，这正是贝叶斯框架的精妙。

2. 先验概率与后验概率

对于监督学习，数据的变量分为自变量和标签变量(因变量)。自变量往往表示事物的表象，是很容易被观测到的，用X表示。而标签变量表示事物的内在，不容易被观测到，也会是模型想要预测的量，用y表示，则贝叶斯定理的数学公式为:
$$
P(y|X)=\frac{P(X|y)P(y)}{P(X)}
$$
式中，$P(X|y)$在学术上被称为先验概率(prior probability)，而$P(y|X)$被称为后验概率(posterior probability)。

可以这样解释：

先验概率是用概率的形式来表示生活中的尝试（D）。比如在蒙提霍尔问题中，在已知汽车在2号门背后的条件下，主持人打开各扇门的概率。

而后验概率是通过事物的表象对产生原因的一种猜测（θ），比如同样在蒙提霍尔问题中，在观察到主持人打开3号门的情况下，汽车在2号门背后的概率。

概括来说，先验概率是知因求果，后验概率是知果求因。

贝叶斯定理

3. 参数估计与预测公式

根据上面讨论，知道生成模型的建模对象是先验概率$P(X|y)$和变量$y$的分布$P(y)$，由这两个概率可以得到变量$X,y$的联合概率$P(X,y)=P(X|y)P(y)$，表示当前数据出现的可能性，因此在生成式模型里，这个概率常被用来作估计模型的参数。具体的，假设模型的参数为$\theta$，定义参数的似然函数(likelihood function)为$L=P(X,y|\theta)=P(X|y,\theta)P(y|\theta)$，则模型参数的估计公式为：
$$
\hat{\theta}=\mathop{arg}\mathop{max}\limits_{x}P(X|y,\theta)P(y|\theta)
$$
这个方法在学术上被称为最大似然估计法(Maximum Likelihood Estimation,MLE)

得到模型参数的估计值后，就可以根据贝叶斯数学公式计算有验概率$P(y|X)$，将$P(X|y,\hat{\theta})$仍记作$P(X|y)$，其余类似。

根据后验概率，可以很自然地得到$y$的预测公式：
$$
\hat{y}=\mathop{arg}\mathop{max}\limits_{y}P(y|X)
$$
即最大化后验概率。

如果只对变量$y$预测，其实不用计算贝叶斯公式中的分母$P(X)$，由此可以得到：在实际工程中更为常用的简化版预测公式：
$$
\hat{y}=P(X|y)P(y)
$$
生成式模型的建模步骤

预测公式

在监督学习中由于变量$y$是可观测到的，因此，相应的概率分布$P(y)$可以很容易地从数据中得到，类似地还有条件概率$P(X|y)$，但在非监督学习中，隐含变量$y$是不可观测的，因此，只能在搭建模型时假设$y$的分布i情况，并把它当做模型里的一个参数进行处理，也就是说需要设法去“猜测”变量$y$的取值。类似地还有条件概率$P(X|y)$，具体地处理方法将在介绍相应模型时讨论。

$$
y=ax+b+\varepsilon \
模型参数a,b,\sigma 都是随机变量 \
P(a,b,\sigma|y,x)\propto P(y|x,a,b,\sigma)P(a)P(b)P(\sigma)\
模型参数地估计依赖与贝叶斯框架
$$
贝叶斯学派：

理论更加优雅
“灵活性”更好

频率派中，$\varepsilon$为随机扰动项，他地方差为$\sigma^2$，$a,b,\sigma$都是模型参数，是确定值。数据中地随机性完全来源于随机扰动项。

频率学派地建模方式为：数据地随机性是真实存在地，而且能被适合地模型所捕获，此外这个模型地参数本身是确定地值。

正在求解模型时，参数地估计值是一个随机变量，他地随机性来源于数据本身，可以通过假设检验来判断参数地P-value值，或置信区间等统计工具来判断参数地估计值离真实值有多远。

📝 本文由 deepseek-v4-pro 根据笔记内容自动发布

第五章 贝叶斯框架

第五章 贝叶斯框架

第一节：贝叶斯框架概述

1. 信息价值的量化

2. 先验概率与后验概率

3. 参数估计与预测公式

第五章贝叶斯框架

第五章贝叶斯框架