高斯朴素贝叶斯
It is not knowledge, but the act of learning, not possession but the act of getting there, not being but the act of becoming, which grants the greatest enjoyment
给我最大的快乐,不是已懂得知识,而是不断的学习;不是已有的东西,而是不断的获取;不是已经达到的高度,而是不断的攀登。
约翰·卡尔·弗里德里希·高斯(Johann Carl Friedrich Gauß)|1777~1855|德国著名数学家、物理学家、天文学家、几何学家,大地测量学家
性别分类问题
问题描述:通过一些测量的特征,包括身高、体重、脚的尺寸,判定一个人是男性还是女性。
数据
训练数据如下:
性别 | 身高(英尺) | 体重(磅) | 脚的尺寸(英寸) |
---|---|---|---|
男 | 6 | 180 | 12 |
男 | 5.92 (5'11") | 190 | 11 |
男 | 5.58 (5'7") | 170 | 12 |
男 | 5.92 (5'11") | 165 | 10 |
女 | 5 | 100 | 6 |
女 | 5.5 (5'6") | 150 | 8 |
女 | 5.42 (5'5") | 130 | 7 |
女 | 5.75 (5'9") | 150 | 9 |
假设
假设训练集样本的特征满足高斯分布,得到下表:
性别 | 均值(身高) | 方差(身高) | 均值(体重) | 方差(体重) | 均值(脚的尺寸) | 方差(脚的 尺寸) |
---|---|---|---|---|---|---|
男性 | 5.855 | $3.5033e^{-02}$ | 176.25 | $1.2292e^{+02}$ | 11.25 | $9.1667e^{-01}$ |
女性 | 5.4175 | $9.7225e^{-02}$ | 132.5 | $5.5833e^{+02}$ | 7.5 | $1.6667e^{+00}$ |
我们认为两种类别是等概率的,也就是
$$P(male)= P(female) = 0.5$$
在没有做辨识的情况下就做这样的假设并不是一个好的点子。但我们通过数据集中两类样本出现的频率来确定$P(C)$,我们得到的结果也是一样的。
测试
以下给出一个待分类是男性还是女性的样本。
性别身高(英尺)体重(磅)脚的尺寸(英寸) 未知性别的样本6、130、8
我们希望得到的是男性还是女性哪类的后验概率大。男性的后验概率通过下面式子来求取
$$posterior(male)=\frac{P(male)p(height|male)p(weight|male)p(footsize|male)}{evidence}$$
女性的后验概率通过下面式子来求取
$$ posterior(female)=\frac{P(female)p(height|female)p(weight|female)p(footsize|female)}{evidence} $$
证据因子(通常是常数)用来对各类的后验概率之和进行归一化.
$$ evidence=P(male)p(height|male)p(weight|male)p(footsize|male)+P(female)p(height|female)p(weight|female)p(footsize|female) $$
证据因子是一个常数(在正态分布中通常是正数),所以可以忽略。接下来我们来判定这样样本的性别。
先看男性的测试数据
- $P(male)=0.5$
$$ p(height|male)=\frac{1}{\sqrt {2\pi\sigma ^{2}}} \exp \left( \frac{-(6-\mu )^{2}}{2\sigma ^{2}} \right) \approx 1.5789 $$
,其中$\mu=5.855$, $\sigma ^{2}=3.5033e^{-02}$是训练集样本的正态分布参数. 注意,这里的值大于1也是允许的 (这里是概率密度而不是概率,因为身高是一个连续的变量. )
- $p(weight|male)=5.9881e^{{-6}}$
- $p(footsize|male)=1.3112e^{{-3}}$
所以
$$ posteriornumerator(male)=0.5 * 1.5789 * 5.9881e^{-06} * 1.3112e^{-3}=6.1984e^{{-09}} $$
同样,对于女性测试数据
- $P(female)=0.5$
- $p(height|female)=2.2346e^{{-1}}$
- $p(weight|female)=1.6789e^{{-2}}$
- $p(footsize|female)=2.8669e^{{-1}}$
- $posteriornumerator(female)=0.5 * 2.2346e^{{-1}} * 1.6789e^{{-2}} * 2.8669e^{{-1}} = 5.3778e^{-04}$
由于女性后验概率的分子比较大,所以我们预计这个样本是女性。