概率学系列 二:深入浅出 - 加法和乘法原理以及排列和组合的定义

前言

本文是由笔者所原创的 《概率论与数理统计》系列文章之一,

本文为作者原创作品,转载请注明出处;

本博文中涉及有关笔者所新创的概念,术语,设计图,分析模型以及分析思路等均属笔者的知识产权,严禁用于商业用途;版权所有,违者必究。

加法原理和乘法原理

加法原理

如果某件事可以由 $k$ 类不同途径之一去完成,在第一类途径中有 $m_1$ 中完成方法,在第二类途径中有 $m_2$,第 $k$ 类途径中有 $m_k$ 种完成的方法,那么完成这件事总共有 $m_1 + m_2 + … + m_k$ 中方法。

以上便是加法原理的定义,那么该如何解读呢?注意两点,

  1. 途径
    指的是完成一件事情的某一条完整途径;比如从 A 点到 Z 点由多条途径(注意,加法原理需要保证途径是单向的),但是只要是有这么一条途径完成了 A -> Z,就称为一途径;
  2. $k$ 不同路径
    这里的可以更为直观的理解成,既是 $k$ 路径;

所以加法原理便是这些所有可能的途径之和。

乘法原理

如果某件事需经过 $k$ 个步骤才能完成,做第一步有 $m_1$ 种方法,做第二件事有 $m_2$ 种方法,…..,做第 $k$ 步有 $m_k$ 种方法,那么完成这件事总共有 $m_1 \times m_2 \times … \times m_k$ 种方法。

以上便是乘法原理的定义,那么又该如何解读呢?首先,与加法原理不同的是,加法原理实际上是站在结果的角度来思考问题的;而乘法原理是站在中间步骤的角度上来思考问题的;比如有多少个从 A 点到 Z 点的途径?加法原理是站在最终的结果的角度既途径来思考问题的,而乘法原理则是站在中间的步骤的可能性既方法的角度来思考问题的。其次,加法原理和乘法原理其实是相容的,比如,针对同一件事 A -> Z 有多少条途径,该途径之和 = $m_1 \times m_2 \times … \times m_k$ 种方法。

由此,可以猜测,乘法原理感觉上是对加法原理的进行了一次抽象而已;针对同一件事,两种原理的计算结果相同,只是算法和研究问题的角度不同而已;那么笔者在这里所描述的这种抽象指的是什么?笔者试图通过下面的例子一步一步的进行推导;

考虑这样一种最简单的情况,假设我们有这样一个篮子,里面放置了编号分别为 1、2、3 的三个小球,要完成这么一件事情,随机抽取两次,每次只取一个小球且不放回,试问,取出的两个小球的编号总共有多少种可能?(从概率学的观点,完成这件事总共的样本点是多少?)

加法原理出发,我们知道,它研究问题的角度是事情的结果,所以笔者将所有可能的结果绘制了出来,如下图所示,
addition concept.png

注意,笔者将该结果归为了三类,既是选中 1 的途径选中 2 的途径选中 3 的途径,图中黑色表示两次选出的小球,就是一类途径既结果,标识 AB 分别表示第一次和第二次取球的动作;将这三类相关的所有途径的相加的总和 6,也就是通过加法原理所求得的所有可能性的总和,也就是概率学中所描述的总体样本点。上述关系同样可以简化成下面这张图,红色的线条表示选中 1 号球的所有可能性,黑色线条表示选中 2 号球的所有可能性,绿色线条表示选中 3 号球的所有可能性;
addition concept 2.png

那么,为什么笔者说乘法原理是对加法原理抽象呢?其实乘法原理是对种种结果既途径进行了归纳和抽象,发现途径中的各个步骤与最终的结果(既所有途径之和)有着某种必然的关系,而通过数学的定义,可以归纳出这种关系;那么乘法原理是如何来从它的角度来描述这种关系的呢?注意,它研究问题的角度是从途径中的每一个步骤出发的,既是分别站在步骤 AB 的角度出发的,如上图 multiplication concept.png 可知,步骤 A3 钟选择,而步骤 B2 种选择,那么每个步骤的选择是否与最终结果既所有途径之和存在某种必然的联系呢?步骤 A 有 3 种选择,如果选定任意一种选择以后,步骤 B 都会有 2 种选择;所以这种关系可以用下面这个加法表达式来表示,
$$2 + 2 + 2$$
第一个 2 表示选中 1 号球以后的所有可能性,第二个 2 表示选中 2 号球以后的所有可能性,第三个 2 表示选中 3 号球以后的所有可能性;因此,我们得到了所有途径之和等于 3 个 2 相加这样的一个结果;实际上,这正是加法原理的解题思路,从某一个起点开始,计算所有可能的途径,然后将所有起点对应的途径的可能相加记得到最终的结果;然而,当我们将研究问题的角度转向过程中的每一个步骤以后,就会得到这样一个非常关键的结论,既所有途径之和 = 3 个 2 相加;而这个结论就是将加法原理转向乘法原理的关键之所在了,数学家们顺势而为,将这种关系定义为乘法原理,该原理既是将这种关系进行了抽象化,进行了数学上的定义,其定义的形式既是大家所熟知的
$$3 \times 2$$
当然,它实际所表达的数学意义其实就是 3 个 2 相加,也就是所有途径之和;然后,乘法原理换了个角度来描述这个问题,从各个步骤的选择方式来进行描述,第一次取出既步骤 A 的可能选择是 3,第二次取出既步骤 B 的可能选择是 2,那么总体选择 = $3 \times 2$ = 所有途径之和;笔者通过下面这张概念图来描述了这种关系,步骤 A 有 3 中可能,而步骤 B 有 2 中可能,两者的乘积便是所有途径之和,既是样本空间的大小;
multiplication concept.png

显然,这种规则可以推广到任意多个球,任意多个步骤的情形,笔者这里不再论述;由此可知,加法原理乘法原理是相容的,只是研究问题的角度不同而已,研究问题的方式其实最终都是加法原理

总结

笔者对上述的原理进一步进行总结,并给出了自己的定义,实际上加法原理的解题思路笔者将其命名为横向思维,考察的就是就是从起点一直到终点的所有途径的可能;而乘法原理的解题思路笔者将其命名为纵向思维,将计算所有从起点到终点途径的可能性的问题转化到了各个步骤上,只需要考察各个步骤的可能性,最终根据乘法原理只需要将各个步骤的可能性相乘便得到所有途径的可能性;因此,乘法原理通过纵向思维将解题办法和思路简化了,而这种简化正是建立在乘法原理对加法原理的抽象上的。

排列和组合

从原理上理解了加法原理和乘法原理以后,再来理解排列和组合就容易多了,

排列

从 $n$ 个不同元素中任意取 $r \phantom{1} (r \le n)$ 个元素排成一列(考虑元素先后出现的次序),称此为一个排列,此种排列的总数记为 $P^r_n$。按照乘法原理,取出的第一个元素有 $n$ 种取法,取出的第二个元素有 $n-1$ 种取法,……,取出第 $r$ 个元素有 $n-r+1$ 种取法,所以有
$$P^r_n = n \times (n - 1) \times \ldots \times (n - r + 1) = \frac{n!}{(n-r)!}$$
若 $r=n$,则称为全排列,记为 $P_n$。显然 $P_n=n!$。

上面便是排列所给出的定义,其实所描述的内容就是乘法原理

重复排列

从 $n$ 个不同元素中每次取出一个,放回后再取下一个,如此连续取 $r$ 次所得的排列称为重复排列,此种重复排列数共有 $n^r$ 个。注意:这里的 $r$ 允许大于 $n$;

很好理解,如果要放回,那么每一个步骤既每一次选择都有 $n$ 种可能性,所以,这种情况下,总共的样本点为 $n_1 \times n_2 \times \dots \times n_r = n^r$;还是以乘法原理中的例子为例,好玩的是,一种最为极端的例子,那么有可能三次都取到 1 号球;

组合

从 $n$ 个不同元素中任意取 $r \phantom{1} (r \le n)$ 个元素并成一组(不考虑元素间的先后次序),称此为一个组合,此中组合的总数记为 $\binom{n}{r}$ 或 $C^r_n$。按照乘法原理此中组合的总数为
$$\binom{n}{r} = \frac{P^r_n}{r!} = \frac{n(n - 1) \dots (n - r + 1)}{r!} = \frac{n!}{r!\phantom{1}(n-r)!}$$

组合也源自于乘法原理,但是它的样本集只是通过乘法原理所得到的所有途径总和的一个子集,因为它不考虑取出结果的顺序,所以它要对结果样本集进行去重;以乘法原理中的例子为例,按照乘法原理,我们得到的结果的全集是 { [1, 2]、[1, 3]、[2, 1]、[2, 3]、[3, 1]、[3, 2] };如果不考虑取出元素的先后顺序,那么结果集中的 [1, 2] 和 [2, 1],[1, 3] 和 [3, 1] 以及 [2, 3] 和 [3, 2] 都将视为是同一个结果,所以需要进行去重;去重以后,所得到的结果就是组合的结果,既是 { [1, 2]、[1, 3]、[2, 3] } 这样包含 3 个结果的样本集;因此可以看到,组合得到的样本集其实是乘法原理/排列所得到的样本集的一个子集,这也是组合有别于排列的关键因素;

通过笔者上述的描述,相信大家知道了该如何去重了,但是定义中为什么要将排列的结果除以 $r!$ 呢?不难发现,这样做的目的就是为了去重,但是,背后的规律是什么呢?数学意义或者依据在哪呢?很遗憾,定义中并没有给出,而是直接告诉你除以 $r!$ 就好,笔者不想止步于似懂非懂的层面,那么笔者就试图探究一下这样做背后的数据意义是什么,由此笔者做了如下的推导,假设总共有 n 个元素,

  1. 如果取 2 次,假设,去重以后的样本点有 $m$ 个,其中任意一个样本点用 $E_x$ 表示,该样本点可表述为 { $E_{x1},\phantom{1}E_{x2}$ } 其中 $E_{x1},\phantom{1}E_{x2}$ 为该样本点所包含的元素,如果考虑样本点中元素先后取出的顺序,那么要计算出由该样本点所衍生出来的所有样本点(这里指的是交换元素的位置),根据乘法原理,就相当于对该样本点 { $E_{x1},\phantom{1}E_{x2}$ } 中的元素进行一次全排列既 $P_2$,所以我们得到,由样本点 { $E_{x1},\phantom{1}E_{x2}$ } 所衍生的所有样本点(包括自己) = $1 \times P_2$ = 2 个,由此我们推广至去重后的所有样本空间既 $m$ 个样本点,均满足该特性,又有,
    ➭ 首先,去重以后的样本空间既组合的样本空间 $= m = \binom{n}{r}$;
    ➭ 那么,根据上述的规律是否可以求得排列的样本空间呢?显然,排列的样本空间 $P^2_n = P_2 \times \binom{n}{2} = 2 \times \binom{n}{2}$;
    ➥ 由此,我们好像得到了一个非常重要的关系既排列的样本空间 = $P_r\phantom{1}\times$ 组合的样本空间( $r$ 表示取的次数 );
    ➥ 但是,这个猜想是否适用于取任意 r 次呢?看下面的例证,

  2. 如果取 r 次,同样假设,去重以后的样本点总共有 $m$ 个,其中任意一个样本点用 $E_x$ 表示,该样本点可表述为 {$E_{x1}, E_{x2}, \dots, E_{xr}$},那么要求得该样本点所衍生的(通过修改元素先后取出的顺序)所有样本点就相当于对 {$E_{x1}, E_{x2}, \dots, E_{xr}$} 中的所有元素进行全排列既 $P^r_n$,同样,
    ➭ 首先,去重以后的样本空间既组合的样本空间 $= m = \binom{n}{r}$;
    ➭ 那么,显然,排列的样本空间 $P^r_n = P_r \times \binom{n}{r} = r! \times \binom{n}{r}$;
    ➥ 由此,该关系既排列的样本空间 = $P_r\phantom{1}\times$ 组合的样本空间( $r$ 表示取的次数 ) 成立;

所以,不难发现其背后的一个核心的逻辑,就是
$$ P^r_n = r! \times \binom{n}{r}$$
其背后的数学意义就是,排列的样本空间就是组合中的每一个样本点通过全排列所得到的样本空间的集合

补充,在遇到实际问题的时候,判断该问题是否是排列还是组合问题,有一个快速的判别方法,问自己,一个样本点中的各个元素的顺序是否可以交换?如果可以交换,则是排列问题,如果不可以交换则是组合问题;因为如果其中的某一个样本点中的元素允许交换位置,那么所有样本点中的元素都可以交换位置,则必然是排列问题;

重复组合

实战

TODO,添加例子引用的出处;

抽样模型

一批产品共有产品 $N$ 件,有 $M$ 件不合格品 和 $N-M$ 件合格品,从中随机抽取 $n$ 件,试求事件 $A_m$ = “取出的 $n$ 件产品中有 $m$ 件不合格品”的概率。

教材中的解法有些笼统,下面是笔者的解题思路,解,

首先,要考察这是一个排列还是一个组合的问题,因为只考察一次取出 $n$ 件中包含 $m$ 个不合格品的可能情况,所以并不考虑合格品和不合格品之间出现的顺序,所以这是一个组合问题;需要用组合的方式来解决;

其次,“取出的 $n$ 件产品中有 $m$ 件不合格品”是一个事件,将其命名为事件 Z,要完成这件事,其过程总体上可以分为两个大的步骤:步骤 A,从 $M$ 个不合格品中抽取出 $m$ 个,该步同样是一个事件,将其命名为事件 A;步骤 B 从 $N-M$ 个合格品中抽取 $n-m$ 个,同样将该事件命名为事件 B;通过组合的原理我们可以得到事件 A 的所有样本点集合为 $A = \binom{M}{m}$,事件 B 的所有样本点的集合为 $B = \binom{N-M}{n-m}$,最后根据乘法原理,可得事件 Z 的所有样本点集合 $$Z = A \times B = \binom{M}{m} \times \binom{N-M}{n-m}$$

再次,所有事件的对应的样本点是多少?既是问样本空间的所有样本点是多少呢?教材中对这个问题是一笔带过,不过这里笔者想要多啰嗦几句,“取出的 $n$ 件产品中有 $m$ 件不合格品”既事件 Z 只是某个样本空间的一个子集,所以,这里实际上要回答该事件所属的全集是什么?“抽取 $n$ 件中有 $m$ 件不合格品”实际上只是“抽取 $n$ 件产品(将该事件命名为事件 X)”中的一个特殊情况,事件 X 包含更多的其它的事件,比如抽取的 $n$ 件产品中全是合格品,抽取的 $n$ 件产品中仅有 $1$ 件不合格品 … 等等,所以针对该事件动作的逻辑判断得出,显然,事件 X 所对应的所有样本点既是样本空间 $\Omega$,也称为此类随机现象的一切可能,根据组合原理有 $\Omega = \binom{N}{n}$;

最后,计算事件 Z 出现的概率是多少,因为事件 Z 只是事件 X 的一个子集既是 $\Omega$ 的一个子集,所以事件 Z 的概率 $$P(Z) = \frac{事件\phantom{1}Z\phantom{1}的样本点个数}{事件\phantom{1}X\phantom{1}的样本点个数} = \frac{\binom{M}{m}\binom{N-M}{n-m}}{\binom{N}{n}}$$

笔者并不满足于只解出了该题,而是想进一步探究该模型背后的数学原理,笔者将其抽象为如下的概念图来进行表述,图中的每一个蓝色的小球表示一个样本点,AB 分别表示事件 A 和事件 B;来看下图,

  1. 下图抽象表示事件 X 对应的所有样本点集合既样本空间的所有样本点,
    chouyang model 1.png
  2. 下图抽象表示事件 Z 对应的所有样本点集合,灰色小球在事件 A 中本不应该出现,只是为了更为直观的与上图进行比对,笔者用灰色的小球表示哪些样本点减少了,
    chouyang model 2.png
    可见事件 Z 在步骤 A 中可选的可能性减少了很多,因为只能从不合格品中去抽取,所以,事件 Z 的样本点相比于 $\Omega$ 而言减少了许多,也就是说其可能性减少了许多;

是的,好像就是这样了,一切都该结束了;但是,笔者仍然有不好的 feelings,有些东西感觉上还是没有搞明白,至少,背后的数学原理还有不清晰的地方,于是,笔者决定继续深挖,有什么不好的 feeling 呢?这种不好的感觉源自于上述的所求得的概率公式 $$\frac{\binom{M}{m}\binom{N-M}{n-m}}{\binom{N}{n}}$$,如果是随机抽样,来看分子,表示我可以直接从一堆的 N 个产品中并且只从 M 个不合格品中抽取出 $m$ 个不合格品,这意味着我得有多大的神力呀,每次百发百中,$m$ 次抽取的都是直接从 M 个不合格品中取得的,至少笔者是没有这么大的神力;其实,笔者是想去探究概率公式以外的现实逻辑既背后的逻辑规律,背后的现实场景就是,某个抽检员,随机的从样本中抽取 n 个样品,并且里面恰好包含 m 个不合格品,求只抽取到 m 个不合格品的概率几何?按照除法公式的定义,分子一定是分母的一部分,如果分母的数字是一定的,那么分子的部分也必须是一定的,但是随机抽样却给了我们一种不确定性,因为随机即表示一种偶然性,既是这种偶然性让我认为分子是不确定的,是偶然的,不仅仅分子是偶然的,连分母应该也是偶然的;这似乎就是客观规律告诉我的,概率是建立在偶然性之上的,既然一切都是偶然发生的,又何谈用数学公式来衡量呢?数学是对逻辑规律的抽象表达,既然是对规律的抽象,那么所抽样的东西一定不能是偶然性的东西,如果是偶然性的东西就一定就不会有规律可谈;这就是笔者感觉非常不好的地方了,概率作为数学这么重要的一个分支,其理论基础一定不能建立在偶然性上,必须是建立在某种规律性的东西之上,否则,整座大厦即刻倾塌;那么这种规律性是什么呢?其实概率论中有过这样的定义,术语叫做等概率样本点,也就是说,每个事件的样本点看似是偶然发生的,但是它必须满足等概率的这个前提,相信有些读者对该前提有所耳闻,但是估计映像并不深刻,因为教科书上对概念的讲解永远都是一笔带过,而这个最为核心的概念在教科书上都是标准的一笔带过,永远不会带你去了解它背后的真谛,这或许就是为什么按照教科书上的内容学习高等数学这么难懂的原因吧,因为教科书对底层的基础性的理论的讲解太过于含糊,写到这里,让笔者很有感触,所以不得不吐槽、吐槽再吐槽… 好,回到正文上来,什么是等概率样本点呢?从字面的意思上很容易理解,就是这些个样本点发生的概率都是一样的?可为什么是这样呢?不明明说好的,随机抽取的吗?既是随机发生的吗?怎么可能各个随机发生的样本点的概率是一样的?如果是一样的,还叫随机吗?种种疑问,没有任何的教科书提及,笔者至今仍没看到有任何人追问过;其实,里面包含着极限的概念,比如扔一枚硬币,头 10 次中可能有 9 次都得到的是正面,但 100 此可能得到的是 70 次正面和 30 次的背面,但是如果投递的次数足够多的话,比如 1 万次,那么你会发现得到正面和反面的几率几乎相等了,比如 5068 次正面,4932 次背面,但是仍然会有极小的误差,所以,如果我们用极限的方式来思考,就是能够投递想要的任何多次,那么神奇的结果就发生了,你会发现得到正面和发面的概率都是 50%,所以,这两个样本点被称为等概率的样本点,前提是,要投递足够多次,用极限的方式来思考,就是能够投递你想要的任何多次,那么得到的这两个样本点一定就是等概率事件,既都是 50%,由此我们得到了一个固定的值这个过程太重要了,我们得到了从一个随机的模型转换成了得到了一个固定的模型了,既然是固定的模型了,那么就是规律性的东西了,既然是规律性的东西了,那么,我们就一定可以用数学的方式来加以定义和分析了,写到这里,笔者好生感慨,一个看似随机的模型,当通过数学的逻辑来进行抽象思考以后,结果发现,其实它是有规律的,是具备规律性的东西;笔者打算后续单独撰写一篇博文再来专门予以描述,因为这个概念太过于重要了,它是概率学的基础,没有它,就不可能会有概率学;Ok,适可而止,由前面的论述中我们可以知道,当试验的次数足够多次以后,每个样本点的概率是相等的,让我们再回到这个例子中来,假设我们总共有编号分别为 {1、2、3、4、5} 的 5 个样品,其中有 2 个次品,假设其编号为 {3、5},现在假设命题,“测验的过程中,取出 3 个球中恰好有 1 个次品的概率是多少”?那么这个时候就有,任意取出 3 个球的样本空间中的所有样本点都是等可能的,这句话是什么意思,也就是说其中的样本点,比如 [1、2、3]、[2、4、5]、[1、2、4] 等随机取出的样本点,它们被取出的概率是相等的,是一个固定的值;正是因为各个样本点的概率相等,是一个固定不变的值,因此它是有规律的,而不是偶然性的东西了,也就有了用数学的方法对其加以研究的前提了,也就因此,我们可以用一个固定的算法既是 $\binom{M}{m} \times \binom{N-M}{n-m}$ 的方式来求解取 $n$ 个球里面包含 $m$ 个球的所有等可能的样本点了,因为每个样本点的出现概率都相同,因此我们可以用 $1 \times p$ 来表示每个样本点的概率,p 是一个固定的值;由此实际上求解事件 Z 的概率公式,$$\frac{\binom{M}{m}\binom{N-M}{n-m}}{\binom{N}{n}}$$ 实际上等价于 $$\frac{\binom{M}{m}\binom{N-M}{n-m}\times p}{\binom{N}{n}\times p}$$ 其中 p 表示每个样本点所相等的概率值;由此,笔者的内心才坦然了,概率学是建立在每个样本点有相同概率的前提下的,否则,如果样本点出现的概率是偶然的,那么求解任何事件的概率都是没有意义的。

有关该部分更为深入的分析,笔者打算另外专门再写一篇博文来进行描述,准备将文章的标题命名为“概率学-大前提”。

放回抽样

抽样有两种方式:不放回抽样与放回抽样,上个例子既抽样模型讨论的是不放回抽样。返回抽样是抽取一件后放回,然后再抽取下一件,……,如此重复直至抽出 $n$ 件为止;现对上个例子在有放回抽样的情况下,讨论事件 $B_m =$ “取出的 $n$ 件产品中有 $m$ 件不合格品”的概率;

下面是教材中的标准解法,如下所述,

TODO…

前面两点还好理解,关键是第 3 点,笔者提出两个问题

  1. 为什么概率的公式最后要乘以 $\binom{n}{m}$ ?
  2. 为什么单单是对不合格品要进行一次组合?有太多的疑问需要解答,

顺着笔者所提出的上述两个的疑问,笔者给出了自己的解题思路,

  1. 首先,解题之前,要知道这到底是一个排列还是一个组合的问题?从教材中的标准答案中,不难发现,将其视为了排列的问题,因为整体样本空间为 $N^n$;但是,笔者要说的是,上面的命题也完全可以被解读为组合问题,如果有个抄写员,将凡是含有相同合格品和不合格品的样本点均视为同一个样本点,那么就是一个重复组合的问题了,因为去重了既不考虑元素出现的先后次序了;所以,教材中的这个例子的描述含混不清,容易造成误解;既然该例子既可以被看做是重复排列又可以被看做是重复组合的问题,那么就顺着教材的观点分析吧,将其视为重复排列的问题;我猜想,教材中的出题人的出发点就是想探讨重复排列的问题;

  2. 然后,首先还是来看“取出的 $n$ 个产品中恰好有 $1$ 个不合格品”的情况,将该事件命名为 $D_1$,取出 $n-1$ 个合格品重复排列的所有样本点 = $(N-M)^{n-1}$,取出 1 个不合格品的重复排列的所有样本点 = $M^1 = M$,那么现在的问题是,合格品的重复排列的样本空间和不合格品的重复排列的样本空间该如何合并在一起呢?首先,将抽取到 $n-1$ 个合格品的过程视为步骤 A,而将抽取到 1 不合格品的过程视为步骤 B,而根据前面的分析可知,步骤 A 的可能性为 $(N-M)^{n-1}$,而步骤 B 的可能性为 $M$,所以,根据乘法原理很容易想到,完成事件 $D_1$ 有 $(N-M)^{n-1} \times M$ 种可能;的确,根据乘法原理,这貌似就是最终结果了,但是别忘了,还有一种场景没考虑到,那就是步骤 A 的所有样本点与步骤 B 中的所有样本点之间是排列的关系,既是要考虑先后出现的次序,那么这层关系又该如何描述呢?在回答这个问题之前,笔者先通过下面这张概念图来模拟输出当前所得到的 $D_1’$ 的所有样本点,该集合是通过 $(N-M)^{n-1} \times M$ 计算得到的,
    example-return_sample-sample_space-1.png
    如图,每一行表示 $D_1’$ 的一个样本点,图中模拟表示有 $(N-M)^{n-1} \times M$ 个样本点,一个样本点中的元素包含两个部分,$n-1$ 个合格品和和 $1$ 个不合格品;通过这张图,一下子就可以发现问题的症结所在了,针对每一个样本点而言,红色的小点不应该只出现在右边,我们要考虑次序,也就是说红色的小球可以出现在一个样本点中的任意的一个位置,所以,我们漏掉了这种可能性,那么这种可能性又该如何计算呢?最直观的解决方案是,针对上图中的任意一个样本点,将其红色小球插入任意一个黑色小球的左右两边之后所能够得到的所有可能性(补充,为什么这里解决问题的思路是插入而不是将它们进行一次全排列呢?因为 $D_1’$ 中的每一个样本点都是由排列过后的合格品和非合格品的样本点所组成的,它们的顺序早已排列过了,因此 $D_1’$ 中任意一个样本点中黑色小球的顺序和红色小球的顺序是固定的,不可变的),很显然,红色小球能够插入的位置有 $n$ 个,因此有 $\binom{n}{1} = n$ 中可能性;又因为该可能性适合于 $D_1’$ 中所有的样本点,所以得到最终事件的样本点集合 $D_1 = (N-M)^{n-1} \times M^1 \times \binom{n}{1}$ ;Ok,这里便回答了我的第一个问题;但是第二个问题呢?为什么解决问题的思路必须从不合格品入手呢?实际上,同样可以从合格品上入手思考解决思路,也可以将 $n-1$ 个合格品插入$1$ 个不合格品的两边,这种情况可以理解为,总共有 n 个位置,但是只随机拿出 $n-1$ 个位置给你安放合格品,另外的 $1$ 个随机的位置安放不合格品,因此这种插入的方式有 $\binom{n}{n-1}$ 种可能,所以从这种角度思考计算所得到事件 $D_1$ 的样本点集合 $D_1=(N-M)^{n-1} \times M^1 \times \binom{n}{n-1}$ ;又因为 $\binom{n}{n-1} = \frac{n!}{(n-1)!} = n = \binom{n}{1}$,因此实际上 $(N-M)^{n-1} \times M^1 \times \binom{n}{n-1} = (N-M)^{n-1} \times M^1 \times \binom{n}{1}$,所以实际上两种不同的插入方式所得到结果是相同的,至此,第二个问题得到了完美解答。这下心里感觉好多了 :) 棒棒哒!!!

  3. 最后,来看“取出的 $n$ 个产品中恰好有 $m$ 个不合格品”的情况,将该事件命名为 $D_m$,同理,通过将抽取不合格品 A 和抽取合格品 B,我们可以得到 $D_m’ = M^m \times (N-M)^{n-m}$,同样,笔者通过下面这张概念图来描述当前样本点集合的情况,
    example-return_sample-sample_space-2.png
    如图,每一行表示一个样本点,红色小球表示 $m$ 个不合格品,黑色小球表示 $n-m$ 个合格品,剩下的工作同样是要对每一个样本点中的合格品和不合格品进行插入操作才能得到最终的样本点集合 $D_m$,插入动作有两种方式,可以是将红色小球既不合格品插入黑色小球既合格品中,也可以是将黑色小球插入红色小球中;两种方式的解决思路其实都可以归纳为,有 $n$ 个空位,先拿一部分的空位安放第一类元素,剩下的空位安放第二类元素,并且不考虑元素安放的先后顺序,那么只要计算出第一类元素可被安放的所有可能,既是这两类元素同时被安放的所有可能;

    先安放不合格品

    $n$ 个空位,随机安放 $m$ 个不合格品,不考虑 $m$ 个合格品的顺序,同时也不考虑 $n-m$ 个合格品安放的顺序,那么安放 $m$ 个不合格品的可能性是一个组合问题,该可能性为 $\binom{n}{m}$,而该可能性适合于 $D_m$ 中的每一个样本点,所以,最终的事件 $D_m$ 的样本点集合为 $$D_m = \binom{n}{m} \times M^m \times (N-M)^{n-m}$$

    先安放合格品

    同理,如果从先安放合格品的角度出发,可以得到可安放的可能性为 $\binom{n}{n-m}$,而很容易证明 $\binom{n}{n-m} = \binom{n}{m}$,所以实际上无论从先安放合格品还是先安放不合格品出发,得到的可能性都是一样的,因此最终得到事件 $D_m$ 的样本点集合也都是一样的。

彩票问题

在思考彩票问题的解题思路的时候,很容易让人陷入一个误区,就是彩票结果是任意的,由 7 个数字所组成的结果出现的可能性是随机的,不确定的;因此,那你又怎么可能使用一个确定的结果既 7 个确定的数字然后通过 $\binom{7}{7}$ 来统计其可能性呢?其实彩票问题转述为概率的问题应该是这样来问的,既是抽取到这该 7 个中奖号码的结果在所有可能性中的比例是多少?也就是说,出现这一期的中奖号码的可能的概率是多少?

技巧

某个步骤的可能性及其概率

  1. 当某个步骤明确只取一个样本点的时候,这个时候该步骤的可能性(既可取的样本点)为 1,
    比如掷一次骰子,那么该步骤的可能性为 1,假设骰子的点数总共有 6 种可能,因此事件的样本空间总共含有 6 个样本点;因此概率为 ${1\over 6}$。

  2. 当某个步骤的表述方式为任取一个某种类型的样本点的时候,假设这种类型的样本点为 n 个,那么该步骤的可能性(既可取的样本点)为 n;
    假设该步骤的其它所有类型的样本点为 m,因此样本空间的所有样本点为 $m+n$,因此概率为 ${n\over m+n}$;

特殊事件的样本点集合或样本空间

此章节笔者将总结在一些比较复杂的情况下如何确定样本空间的方法

插入模型

笔者将其命名为插入模型

一对多模型

包红包里面所遇到的情形;

References

《概率论与数理统计教程》 第二版,茆诗松版