Day 52:贝叶斯案例和实际应用
发布日期:2022年3月14日 14:56 阅读: 325 访问: 326
今天我们来学习一类机器学习常见的分类算法:朴素贝叶斯分类。首选通过一个案例理解朴素贝叶斯分类。 小李质检往事 假如 A 公司的一名质检员小李,接到三箱零件需要检验,其中第一箱有 10 个零件,第二箱有 20 个零件,第三箱有 15 个。 <img src="https://images.gitbook.cn/04062b10-db93
今天我们来学习一类机器学习常见的分类算法:朴素贝叶斯分类。首选通过一个案例理解朴素贝叶斯分类。
小李质检往事
假如 A 公司的一名质检员小李,接到三箱零件需要检验,其中第一箱有 10 个零件,第二箱有 20 个零件,第三箱有 15 个。
半小时过去了,检验结果出炉:第一箱有 1 个不合格,第二箱有 3 个不合格,第三箱 2 个不合格。
下午领导要来视察,这位领导随手抽查一个零件,那么领导拿到这个件是合格件的概率有多大?
在这个问题中,领导拿的这个零件首先一定来自这 3 个箱子中的某一个,因此样本空间可以由这 3 个箱子组成,记 $A_i$ 为从第 $i$ 个箱子抽查的零件,$i$ 的取值范围为 1、2、3。然后标记拿到正品的事件为 $B$,领导拿到此件为合格件的概率,记为 $P(B)$。
那么 $P(B)$ 等于多少呢?
事件 $B$ 的发生肯定来自于样本空间,也就是说这个合格件要么从$A1$、$A2$ 或者$A3$中获取到,假定等概率选择三个箱子,因此
$$P(B) = P(A_1)\times P(B | A_1) + P(A_2) \times P(B | A_2) + P(A_3) \times P(B | A_3) = \frac{1}{3} \times \frac{9}{10} + \frac{1}{3} \times \frac{17}{20} + \frac{1}{3} \times \frac{13}{15} = 0.872$$
上式 $P(B|A_1)$ 是条件概率,表示零件来自于第一个箱子的条件下并且为合格件的概率。
果不其然,领导抽到一个合格品,然后亲自拿检验器材检验零件,发现质检确实没有问题。最后冲着小李会心一笑,很满意地拍拍屁股离开了。
后续思考
当他走的时候,小李还在思考一个问题,领导抽的这个合格品来自于箱子 1 的概率是多大?也就是求 $P(A_1|B)$,即取到合格品事件 $B$ 发生情况下来自于 $A_1$ 的概率。
求 $P(A_1|B)$ 称为求解逆向概率,这个概率往往是不好求解,但是它对应的正向概率 $P(B|A_1)$ 往往相对容易求解
既然 $P(A_1|B)$ 比较难求解,我们做如下转化一下:
$$P(A_1|B) = \frac{P(A_1,B)} {P(B)}$$
其中,$P(A_1,B)$ 表示从第一个箱子抽取且为合格件事件的概率,又被称为联合概率。
又知道联合概率 $P(A_1,B)$ 通过如下方法求得:
$$P(A_1,B) = P(A_1) \times P(B|A_1) = \frac{1}{3} \times \frac{9}{10} =0.3$$
因此,$P(A_1| B)$ 即零件检验合格且来自箱子 $A_1$ 的概率为:
$$P(A_1| B) = \frac{0.3} {0.872} = 0.344$$
这个已知事件 $B$ 发生,预测 $B$ 来自于哪个子空间的问题,便是贝叶斯公式擅长做的事情。
那么以上故事如何上升进而提取成贝叶斯公式呢?
贝叶斯公式
以上《小李质检往事》的样本空间有 $A_1$、$A_2$、$A_3$ 组成,它们把样本空间划分为 3 部分。
如果将划分上升到由 $n$ 个部分组成,抽中一个合格件为本次随机试验的事件$B$,$P(A_i)$ 和 $P(B)$ 都大于零。
找出事件 $B$ 属于哪个类别的计算公式:
$$P(A_i|B) = \frac{P(A_i,B)}{\sum_{j=1}^nP(A_j)P(B|A_j)} =\frac{P(A_i)\times P(B|A_i)}{\sum_{j=1}^nP(A_j)P(B|A_j)}$$
贝叶斯公式是要找出组成发生事件 $B$ 的各个样本空间,然后预测事件 $B$ 的发生来自于 $A_i$ 的概率。
其中 $P(A_i)$ 称为先验概率。先验概率是在不知道事件 $B$ 是否发生的情况下获取的概率。比如在抽取零件时,我们不知道能不能抽取到合格件,但是选择任意一个箱子的概率我们往往能通过工作和生活经验提前计算出来,所以称为先验概率。
而 $P(A_i | B)$ 是后验概率,知道事件 $B$ 发生这一新增信息后,判断选择事件 $A_i$ 发生的概率大小。
案例
问题定义
根据北平市第一实验中学 101 班历年的统计数据,班上努力学习的学生占到 90%,并标记这部分群体为 $A_0$ 类,学习不用功的占到 10%,并标记这部分群体为 $A_1$ 类。
将学生群体划分为两类:
- 学习努力的学生,发生概率为 $P(A_0) = 0.9$
- 学习不努力的学生,发生概率为 $P(A_1) = 0.1$
再根据历年的升学率,学生只要学生努力学习,考上重点大学的概率为 0.7,则 $P(B|A_0)=0.7$。
而不努力的学生考上重点大学的概率为 0.15,则 $P(B|A_1) = 0.15$。
目标是预测以下问题:
当一个学生考上重点大学时,学生属于群体 $A_0$ 或 $A_1$ 的概率各是多少?
应用贝叶斯公式
定义学生考上重点大学为事件 $B$,发生的概率为 $P(B)$。
样本空间被划分为两类:$A_0$ 和 $A_1$,则
$$P(B) = P(A_0) \times P(B | A_0) + P(A_1) \times P(B | A_1) = 0.9 \times 0.7 + 0.1 \times 0.15 =0.645$$
学生考上重点大学且来自群体 $A_0$ 的概率记为:$P(A_0 | B ) $。
由贝叶斯公式可知,若某位学生考上重点大学且属于群体 $A_0$ 的概率:
$$P(A_0 | B ) = \frac {P(A_0, B)} {P(B)} =\frac {P(B|A_0) \times P(A_0)}{P(B)} = \frac {0.7 \times 0.9}{0.645} =0.977$$
同理,这个考上重点大学的学生属于群体 A1 的概率:
$$P(A_1 | B ) = \frac {P(A_1, B)} {P(B)} =\frac {P(B|A_1) \times P(A_1)}{P(B)} = \frac {0.15 \times 0.1}{0.645} =0.023$$
结论:当一个学生考上重点大学时,学生属于群体 $A_0$ 或 $A_1$ 的概率分别为 0.977 和 0.023。
换言之,不努力学习还能上重点的概率是 2.3%,TA 们或许是天才吧。
稍微扩展一点,为接下来讲解朴素贝叶斯做铺垫。如果不是为了准确求解以上问题的概率,而仅仅是为了求出来自哪个群体的概率更大,为此我们就不必关心 $P(B)$ 的值,只需计算并比较 $P(B|A_i) \times P(A_i)$ 的值,在此案例中 $i=0,1$。
很容易得出下面不等式:
$$P(B|A_0) \times P(A_0) > P(B|A_1) \times P(A_1)$$
进而判断此学生更可能来自群体 $A_0$。
小结
今天通过小李质检往事引出贝叶斯公式,最后通过一个案例解释如何应用贝叶斯公式。