It is not knowledge, but the act of learning, not possession but the act of getting there, not being but the act of becoming, which grants the greatest enjoyment
给我最大的快乐,不是已懂得知识,而是不断的学习;不是已有的东西,而是不断的获取;不是已经达到的高度,而是不断的攀登。
约翰·卡尔·弗里德里希·高斯(Johann Carl Friedrich Gauß)|1777~1855|德国著名数学家、物理学家、天文学家、几何学家,大地测量学家

性别分类问题

问题描述:通过一些测量的特征,包括身高、体重、脚的尺寸,判定一个人是男性还是女性。

数据

训练数据如下:

性别身高(英尺)体重(磅)脚的尺寸(英寸)
618012
5.92 (5'11")19011
5.58 (5'7")17012
5.92 (5'11")16510
51006
5.5 (5'6")1508
5.42 (5'5")1307
5.75 (5'9")1509

假设

假设训练集样本的特征满足高斯分布,得到下表:

性别均值(身高)方差(身高)均值(体重)方差(体重)均值(脚的尺寸)方差(脚的 尺寸)
男性5.855$3.5033e^{-02}$176.25$1.2292e^{+02}$11.25$9.1667e^{-01}$
女性5.4175$9.7225e^{-02}$132.5$5.5833e^{+02}$7.5$1.6667e^{+00}$

我们认为两种类别是等概率的,也就是
$$P(male)= P(female) = 0.5$$
在没有做辨识的情况下就做这样的假设并不是一个好的点子。但我们通过数据集中两类样本出现的频率来确定$P(C)$,我们得到的结果也是一样的。

测试

以下给出一个待分类是男性还是女性的样本。
性别身高(英尺)体重(磅)脚的尺寸(英寸) 未知性别的样本6、130、8
我们希望得到的是男性还是女性哪类的后验概率大。男性的后验概率通过下面式子来求取
$$posterior(male)=\frac{P(male)p(height|male)p(weight|male)p(footsize|male)}{evidence}$$

女性的后验概率通过下面式子来求取

$$ posterior(female)=\frac{P(female)p(height|female)p(weight|female)p(footsize|female)}{evidence} $$

证据因子(通常是常数)用来对各类的后验概率之和进行归一化.

$$ evidence=P(male)p(height|male)p(weight|male)p(footsize|male)+P(female)p(height|female)p(weight|female)p(footsize|female) $$

证据因子是一个常数(在正态分布中通常是正数),所以可以忽略。接下来我们来判定这样样本的性别。

先看男性的测试数据

  • $P(male)=0.5$
  • $$ p(height|male)=\frac{1}{\sqrt {2\pi\sigma ^{2}}} \exp \left( \frac{-(6-\mu )^{2}}{2\sigma ^{2}} \right) \approx 1.5789 $$

    ,其中$\mu=5.855$, $\sigma ^{2}=3.5033e^{-02}$是训练集样本的正态分布参数. 注意,这里的值大于1也是允许的 (这里是概率密度而不是概率,因为身高是一个连续的变量. )

  • $p(weight|male)=5.9881e^{{-6}}$
  • $p(footsize|male)=1.3112e^{{-3}}$

所以

  • $$ posteriornumerator(male)=0.5 * 1.5789 * 5.9881e^{-06} * 1.3112e^{-3}=6.1984e^{{-09}} $$

同样,对于女性测试数据

  • $P(female)=0.5$
  • $p(height|female)=2.2346e^{{-1}}$
  • $p(weight|female)=1.6789e^{{-2}}$
  • $p(footsize|female)=2.8669e^{{-1}}$
  • $posteriornumerator(female)=0.5 * 2.2346e^{{-1}} * 1.6789e^{{-2}} * 2.8669e^{{-1}} = 5.3778e^{-04}$

由于女性后验概率的分子比较大,所以我们预计这个样本是女性。

参考,维基百科的例子