概率学系列 三:概率学的大前提 - 等概率样本点

前言

本文是由笔者所原创的 《概率论与数理统计》系列文章之一,

本文为作者原创作品,转载请注明出处;

本博文中涉及有关笔者所新创的概念,术语,设计图,分析模型以及分析思路等均属笔者的知识产权,严禁用于商业用途;版权所有,违者必究。

概述

在上一篇博文实战章节中的抽样模型的一小节中的最后部分,笔者花费了大量的笔墨去探讨了抽样模型的概率公式得以成立的背后的自然规律或者叫做数学逻辑;里面提及了数学的概率学要要能够成立,必须建立在某种客观规律上既是每个样本点的概率是相等的,也称作等概率或者等可能样本点,否则研究概率学的基础就不存在了;笔者新开辟一篇博文,会就该问题进行更为深入的归纳和总结。

偶然性还是规律性

假设有编号为 1、2、3、4、5 的五个小球,若从中随机抽取 1 个小球,问编号为 1、2、3、4、5 的 5 个小球,每个小球可能被抽中的概率是多少?于是,我们做了如下的实验,

➭ 试验 10 次

实验次数 结果
实验 3 次 三次都抽中 3 号小球,既 3 好小球概率为 100%,其它小球被抽中的概率为 0%
实验 5 次 有点背,五次都抽中 3 号小球,$P(3) = 100\%$,$P_{1-5} = 0\%$
实验 10 次 有七次抽中 3 号小球,$P(3) = 70\%$,其余小球抽中的概率之和 = 30%

当实验进行到这里,会给人一种强烈的误解,认为每个球出现的概率完全是随机的,譬如说上面实验中的 3 号球,在有限次的抽取的实验过程中,它被抽取到的概率可能远远大于其它的小球;似乎给我们一种错觉,随机抽取似乎是全凭运气说话,有些小球如果遇到几百年修来的运气以后,甚至 10 次抽样都抽到它,那么它的概率就是 100%,其它的小球的概率就只有 0%;如果真是这样,小球被抽取的概率完全随机,没有任何规律可寻,那么也就不会有概率学这门学科了,毕竟概率学是对规律的归纳和总结出来的一门学科,既然是规律性的东西,那么就必须有其必然性的东西,而不是偶然性的东西。继续增大试验次数,

➭ 试验 100 次

我们将试验次数增加到 100 次,

实验次数 结果
实验 100 次 $P(1)=18\%$、$P(2)=22\%$、$P(3)=25\%$、$P(4)=18\%$、$P(3)=17\%$

从这个试验中,我们大概可以看到规律了,每个球的概率似乎是在不断的趋近于某个数既 20%;

➭ 试验 1000 次

继续增大试验的次数,我们这次将试验增大到 1000 次,

实验次数 结果
实验 1000 次 $P(1)=19.9\%$、$P(2)=19.8\%$、$P(3)=20.1\%$、$P(4)=20.2\%$、$P(3)=20\%$

可以看到,从这次试验的结果中,我们可以看到每个小球被抽中的概率越来越接近于 20%;

➭ 试验 10000 次

实验次数 结果
实验 10000 次 $P(1)=19.99\%$、$P(2)=19.88\%$、$P(3)=20.01\%$、$P(4)=20.12\%$、$P(3)=20\%$

每个小球的概率越来越接近 20%;

➭ 无限多次

如果允许,如果我们进行无限多次试验呢?其实,这就是用数学中的极限在思考问题了,也就是我可以进行任何多次我想要的试验次数,如果在以极限为背景的情况下,那么可以断言,每个小球被抽取到的概率一定是 20%。也就是说,当我们在试验我们想要的任何多次的前提下,各个样本点的被抽取的概率是相同的,称作等概率样本点或者等可能样本点;由此,每个小球被抽取的概率从之前以感性思考而得到的偶然性,现在通过极限的理性思考而演变成了实际上是具有规律性的事物了;这一点非常非常之关键,整个概率学与数理统计都是建立在等概率样本点的基础之上的,继续以上面的例子为例,当我们在对这 5 个球进行随机抽样的时候且每次试验只抽取 1 个小球,概率学所默认的前提是,五个球中的任意一个球被抽取到的概率是相同的,且都是 20%,而这一前提的背后隐含着极限的定义。

➭ 结论

所以,通过上述的试验,我们得出的结论是,看似随机的事件,在通过数学逻辑分析以后,发现,它其实是具备规律性,所以该随机事件实际上是规律性的事件,由此该事件是可以通过数学来进行分析和定义的。

排列和组合计算的到底是什么?

在明白了随机事件的规律性以后,本章节,笔者试图去探求通过排列和组合的公式到底计算的是什么?要探寻这个问题,实际上就等价于回答这个问题:假设每一个等概率样本点的概率为 $p$,假设某个事件 $Z$ 的样本空间 $\Omega$ 的样本点总数为 $n$,又假设事件 $A$ 是事件 $Z$ 的子集且它的样本点的总数为 $m\phantom{2}(m<=n)$,那么概率要求的问题便是,事件 $A$ 相较于整个全局事件 $Z$ 而言,它发生的概率是多少?笔者用下面的公式来进行描述,$$\frac{m \times p}{n \times p}$$ 从公式中我们可以直观的看到,概率所要求解的正是某个子事件的样本点的概率之和与整个事件的样本空间中的样本点的概率之和的比值;有了这层理解以后,我们再回过头来看下面的几个例子,

  1. 假设有编号为 1、2、3、4、5 的五个小球,试问从中随机抽取 1 个小球,试问每个等可能的样本点被抽取的(等)概率既 $p_1$ 是多少?
    因为随机抽取 1 个小球,所以一个样本点由 1 个小球组成;那么现在要求解的是,该事件的样本空间 $\Omega$ 是多少?因为抽取动作只有 1 个步骤,所以根据乘法原理,从 5 个球中抽取 1 个球的所有途径之和 $= 5$,这就是要求的样本空间,又假设,样本空间中所有样本点的概率之和 $= 1$,那么有 $$p_1 = \frac{1}{5} = 0.2$$,所以,该事件中,每个小球可被抽取的(等)概率是 0.2;
  2. 假设有编号为 1、2、3、4、5 的五个小球,试问从中随机抽取 2 个小球,试问每个等可能的样本点被抽取的(等)概率 $p_2$ 是多少?
    因为随机抽取 2 个小球,所以一个样本点由 2 个小球组成,那么两个小球同时被抽中的可能性是多少呢? 要求解这个问题,首先要问的是,这是不是重复排列的问题,笔者打算对这两种情况分别求解,

    重复排列
    如果是有放回的进行抽样,自然这就是一个重复排列的问题,所以整个样本空间的样本点的总数 $= 5 \times 5 = 25$,假设样本空间中所有样本点的概率之和 $= 1$,那么 $$p_2 = \frac{1}{25} = 0.04$$

    排列

    如果是不放回的进行抽样,自然这就是一个排列的问题,所以整个样本空间的样本点的总数 $= 5 \times 4 = 20$,假设样本空间中所有样本点的概率之和 $= 1$,那么 $$p_2 = \frac{1}{20} = 0.05$$

  3. 假设有编号为 1、2、3、4、5 的五个小球,其中 3、5 为不合格品,试问从中随机不放回的抽取 3 个小球,试问恰好抽中 2 个不合格品的样本点概率 $p_3$ 是多少(考虑先后出现的顺序)?恰好抽中 2 个不合格品事件的概率 $p_4$ 是多少?
    第一个问题很好求解,因为即便是包含 2 个不合格品的样本点在整个样本空间中与其它样本点而言都是等可能的,所以,$$p_3 = \frac{1}{P^5_3} = \frac{1}{60} = 0.01667$$
    第二个问题就非常的有意思了,问的是包含 2 个不合格品的该事件的概率是多少?首先,我们知道,一个事件就是由与之相关的所有的样本点所组成的集合,假设该事件记为事件 $A$,那么事件 $A$ 所包含的所有样本点的(等)概率之和可以通过如下的方式求得,
    $$p_4 = P^3_1 \times P^2_1 \times \binom{2}{1} \times p_3 = 2 \times 3 \times 2 \times 0.01667 = 0.2 \dots 求解公式\phantom{1}①$$

    备注,思路是,在已抽取到两个不合格产品的情况下,总共的排列有多少种可能;

    如果之前有学过概率的同学如果是通过对公式死记硬背的方式来进行学习的,那么看到上面这个求解的公式一定会很惊讶,这个与书本上的求解公式完全不同呀,并且压根没有这种推算的方式;其实上面的这个笔者所给出的公式才是触及到了概率学所要探求的核心,既是求解该事件中所有样本点的等概率之和,因此它就是事件 $A$ 的概率;回过头来,让我们再看看教材中的解法,
    $$p_4 = \frac{P^3_1 \times P^2_1 \times \binom{2}{1}}{P^5_3} = \frac{12}{60} = 0.2 \dots 求解公式\phantom{1}②$$
    可见,两者的结果出奇的吻合,细心的读者可能会发现,这两个公式本质就是同一个方程,因为 $p_3 = \frac{1}{P^5_3}$,由此我们有,
    $$p_4 = P^3_1 \times P^2_1 \times \binom{2}{1} \times p_3 = P^3_1 \times P^2_1 \times \binom{2}{1} \times \frac{1}{P^5_3} = \frac{P^3_1 \times P^2_1 \times \binom{2}{1}}{P^5_3}$$
    虽然两个公式本质上求解的是同一个方程,但是描述的事务的方式却完全不同,而教科书中所使用的公式 ② 笔者并不推荐大家在学习概率学的时候,用这个方程去理解概率学本身,因为它省略了非常重要的一个因素,那就是等概率 $p$,将公式 ② 写完整了,实际上应该是
    $$p_4 = \frac{P^3_1 \times P^2_1 \times \binom{2}{1} \times p_3}{P^5_3 \times p_3} = \frac{12 \times p_3}{60 \times p_3} = 0.2 \dots 求解公式\phantom{1}②$$
    这样,我们就非常的清楚了,实际上概率所重点关注就是某个事件的概率,而该事件的概率实际上就是由该事件的所有样本点的(等)概率之和与样本空间中所有样本点的(等)概率之和的比值,当然也可以像公式 ① 那样先求得每个等可能样本点的概率大小,然后乘以该事件的所有样本点总数的方式来求解;最后笔者所要提及的是,公式 ① 才是概率学的真正本质所在;

等概率样本点

最后笔者想更为深入的探讨一下等概率样本点或称作等可能样本点,笔者在偶然性还是规律性章节中深入的描述了等概率样本点的由来,是通过极限的方式推导出随机抽样的过程中,任何样本点的被抽取出来的概率是相同的,因此如果样本空间中的样本点的总数为 $n$,且每个样本点的(等)概率为 $p$;但是对其推导的模型没有进行详细的描述,笔者试图用下面这张概念图对该模型进行描述,
equal probability sample point concept.png
如图,某个事件总共有 $n$ 个样本点,$SP$ 表示一个样本点,一个小的长方格,表示样本点的随机出现的次数,图中表示,当总的试验次数有足够多次(用 $M$ 次表示)以后,必然有每个样本点出现的次数都相等且都为 $N$ 次,那么此时一个样本点出现的概率就称作等概率,用 $p$ 表示,显然,$$p = \frac{N}{M}=\frac{N}{n \times N}=\frac{1}{n}$$
并且可以得到,$$np=1$$

也就是说,等概率的样本点满足这样的特性,样本空间中的所有等可能样本点的概率总和等于 $1$,且每个样本点的概率等于 $\frac{1}{n}$,什么意思呢?就是说,我们可以直接通过样本点的总数来求解样本点的等概率;这样,求等概率的过程就演变成了简单的乘法原理了,而不用再关注每一个样本点具体出现的概率是多少了;再进一步,如果某个事件 $A$ 有 $m$ 个样本点,那么事件 $A$ 发生的概率 $$P(A)=m \times p=m \times \frac{1}{n}=\frac{m}{n}$$ 其中 $m$ 往往是通过排列组合计算出来的。

所以,如果是在买彩票的过程中的时候,虽然一期只会开出一组中奖的号码,既是只会得到一个样本点,但是要评估它所被抽中的概率,背后有极限的理论在后面支撑着,也就是说,每一个样本点都是等可能的,假设在试验足够多次以后,每个样本点出现的概率是相等的,概率学正是在这样的一个前提下,来估算每个样本点可能出现的可能性的,既是将一个看似随机的事件通过背后的数学推理将其转化成了一个具有规律可寻的事件。

总结

笔者所看到的所有有关概率论与数理统计的教科书中,从来都不对概率学所研究的根本性问题进行探讨,到底概率学研究的是什么东西?其实它并不神秘,而且非常的简单,就是对某个事件的等概率的样本点的集合,计算其子集和全集之间的比值,这就是概率,就这么简单;相信,当读者弄清楚了概率所研究的根本性问题以后,再回过头来看教科书中所描述的概率学,那简直就是如鱼得水,信手拈来了;

References