如何计算概率问题?

木果读书会·行业探秘 NO.22

从疾病检测、抽样调查、金融投资、到天气预报、生物遗传,甚至到抢红包、找对象、玩抽卡手游,概率已经深入我们生活的每个角落,但很多时候,我们凭借直觉做出的概率判断,都与结果相差很大。

本期木果读书会,数学爱好者乔柯通过5个生活中的概率问题,带你发现数学之美,看看靠直觉算出的概率有多么的不靠谱。

(友情提示,下文含有大量烧脑、计算、逻辑判断等问题,请按大脑承受程度酌量服用)

数学中好玩的问题实在是太多了,比如说“哥尼斯堡七桥问题”,也就是著名的一笔画问题,它促使了图论和几何拓扑的诞生;比如说“四色定理”——任何一张地图只用四种颜色就能使具有共同边界的国家着上不同的颜色,但它的证明用了两台计算机算了1200个小时,再比如说你一定听过的哥德巴赫猜想,陈景润攻克了“1+2”,这里的“1+2”可不是“=3”的意思哦。

上面这些问题看起来简单,讲起来就很难了。作为一个数学爱好者,我今天想讲点概率论。一来,概率论与我们的生活比较贴近。二来,人习惯于用确定的眼光看世界,如果你的火车票写着30%概率7点开车,70%概率8点开,你一定会抓狂的。

我们对于确定性的偏爱促使了我们对于终极真理的追求,但也让我们对很多现实中发生的不确定事件产生困惑,我们时常凭直觉推算概率,但这些直觉往往都是错的。

为了证明这一点,我们不妨来看几个在生活中也会遇到的概率问题。

假设你去参加一个电视综艺节目。台上准备了三扇门。主持人告诉你,其中一扇门后藏有轿车,而另外两扇门后只有山羊,你可以选择一扇门,赢得门后的奖品。我们假设你更想要车而不是羊。

接下来,你做出了选择,我们假设你选了A门,主持人事先知道门后有什么,于是他从剩下的两扇门中打开了一扇后面是羊的门,我们假设他开的是B,最后一扇是C。

主持人关切的问你,我已经帮你去掉一个错误答案了,你是否要从A换成C呢?”

请大家在不百度的情况下考虑一下,做出自己的选择。

1.不换,依然选择A。因为换门也不会提高赢得轿车的概率。

2.换,选择C,赢得轿车的概率会提高。

“三门问题”也称“蒙提霍尔问题”,他的原型来自马丁·加德纳(Martin Gardner)在1959年的《数学游戏》专栏中提出的“三囚犯问题”。两个问题虽然描述上差得很远,但实质是一样的。 1990年,有人结合主持人蒙提霍尔的电视节目将之改编成如上形式寄给了《展示杂志》(Parade Magazine)的专栏作家玛丽莲·沃斯·莎凡特(Marilyn vos Savant)。这位玛丽莲来头也不小,10岁时智商就高达228,被吉尼斯世界纪录认定为拥有最高智商女性(2008年为止)。她在专栏里回答应该选择“换”。结果引起了轩然大波。 近万名读者写信表示反对,其中有博士头衔的有上千人,其中92%认为她错了。65%来自大学的信中,多数是来自数学和科学的院系,他们都反对她的答案,认为这只是女人的直觉,劝她修了概率课后再谈这问题。 反对者们认为,当主持人去掉一个错误的门后,羊和车分别在余下没打开的门中随机放置,每扇门后有车的概率都是50%。

然而事实是这样吗?我先告诉大家答案,一定要换,因为你获得汽车的概率会从1/3上升到2/3。

为什么呢?我们来具体计算一下。大家高中时一定学过概率论,但估计也都忘的差不多了,所以我们不使用公式,而是强调思考的方法。

先明确一下——我们的目标是要轿车,所以要考察换门赢得轿车的可能性,与不换门赢得轿车的可能性,哪个更高?

不换门并猜中,意味着我们一开始就需要猜中,这个概率是1/3。

换门并猜中,意味着我们一开始只需要选错门就可以了,主持人会从剩下的一对一错中帮我们去掉一个错误答案,剩下的一个一定是对的,那么我们换门就一定可以换到轿车,而一开始就选错的概率是三分之二。

因此,我们发现换门策略的胜率是不换门策略的胜率的两倍

如果你觉得这个逻辑听起来很绕,或者还是不愿相信,我还准备了更为直观的说明。

友情提示:下面的解法还是比较烧脑,脑细胞余量不足的小可爱们,可以自行跳过去下一个问题

假设我们玩900次(或更多),车随机放在三扇门后,期望上来看,应该有300次放在A门后,300次放在B门后,300次放在C门后。分别记No.1~300,No.301~600,No.601~900。

你一开始也是随机地选,这意味着在No.1~300中,你有100次选到A,100次选到B,100次选到C,其他情况以此类推。

我们来考察你选择A,主持人打开B的情形下,究竟换还是不换。(其他情形同理)

No.601~700中,不会打开C,一定会打开B。

因此在我们的假设情况下。只有No.1~50和No.601~700这些情况成立。

这之中车在A后有50个,车在C后有100个。

因此选C(即换)的胜率为100/(50+100)=2/3 是选A(不换)的两倍。

其实在后一种证明中,我们通过非常直观的方式引入了一个重要的思想,就是条件概率。我们计算的并不是,A与C中有车的概率。而是在主持人打开了B的情况下,A与C中有车的概率。前者的确是等概率的随机分布,但后者,当主持人打开了B这一情况实际发生后,No.51~100这些情况就不能发生了,数学上讲,也就是从我们的样本空间里被剔除了。

有这样一则笑话,据说一个飞机上有炸弹的概率为十万分之一,有个人觉得这个概率还是不够小,毕竟每天升空的飞机也不是小数目。他从来不敢坐飞机。但他的朋友突然有一天在飞机上遇到了他,吃惊地问,你咋不害怕了? 他说,飞机上有一个炸弹的概率不是十万分之一么?那么飞机上同时有两个炸弹的概率就是一百亿分之一吧? 朋友说,对。 这人说,一百亿分之一足够小了,因为我已经带了一颗炸弹上来。 事实上,当他自己带着炸弹上飞机后,存在一个炸弹这件事就确定了下来,是必然发生的。所以存在两颗炸弹的可能性不再是十万分之一乘以十万分之一。而是1乘以是按十万分之一。 从条件概率的角度考虑的话,由于他自己带了一颗炸弹,因此样本空间中不存在炸弹的情况已经剔除了,样本空间缩小了十万分之一,所以,飞机上同时出现两个炸弹的概率会变大十万倍,依然是十万分之一,而不是一百亿分之一。

你偶遇多年没见的老同学,发现她早已结婚生子。你便打听是男孩女孩。

其中一个是男孩,另一个是男孩的可能性有多大呢?

你感到挺莫名,按照上面所说的,一个男孩是已经发生的条件,不会对另一个孩子的性别产生影响。那么另一个是男还是女的概率,不是50%吗?

我问过的所有人几乎都这么认为。这不是一个生物学题,咱们就考虑理想情况,生男生女完全随机。其实正确的答案是1/3。听我一点一点分析。

我们假设有10000对夫妇都生了两个孩子,那么应该有2500个家庭是两个男孩、2500个家庭是两个女孩,5000个家庭是一男一女。

但是我们知道一定有一个是男孩,所以(女,女)这种情况不存在,因此,另一个是男孩的概率只有(男,男)也就是+)=1/3。而女孩的概率是2/3。

如果我把问题改一下呢?

一对夫妻有两个小孩,已知其中一个是白天出生的男孩,请问另一个是男孩的概率是多少? 一对夫妻有两个小孩,已知其中一个是黑皮肤的男孩,请问另一个是男孩的概率是多少? 一对夫妻有两个小孩,已知其中一个是O型血的男孩,请问另一个是男孩的概率是多少? 一对夫妻有两个小孩,已知其中一个出生在星期二的男孩,请问另一个是男孩的概率是多少? 一对夫妻有两个小孩,已知其中一个符合某种筛选条件n(该条件必须概率均等,如一周每天出生概率都一样),请问两个都是男孩的概率是多少?还是1/3吗?

我给出一个计算,有兴趣的话可以看看。我这里假设筛选条件是n,比如血型,就是n=4,白天黑天n=2,星期n=7故对于一般的n,答案为(2n-1)/(4n-1)。

继续友情提示:以下为超纲题的解答,脑细胞余量不足的小可爱们,可以自行跳过去下一个问题

实际上,随着n的变大,结果越来越趋近1/2。也就是说,如果我说其中一个男孩是2000年1月2日出生,喜欢画画,叫小明。这么多筛选条件下,另一个人几乎可以确定50%的概率是男孩。

大家一定超级疑惑,你说得好像都对,可我怎么就是不愿意相信。这不应该啊!

大家直觉的答案都是1/2。但其实你弄错了问题。我只需要稍微改动几个字,答案就是50%了。

你的老同学指着眼前的孩子告诉你,“他是我儿子”。再问你,你猜我家里另一个孩子是男孩的概率是多少?毫无疑问答案是50%,因为面前的孩子和家里的孩子毫无关系。

那么这两个问题差在哪里了呢。就在于一开始问的题目,实际上是缺少信息量的。你只知道其中有一个,但你不知道是哪一个。在这样的情况下,你需要考虑两个孩子之间的顺序问题。而当我明确告诉你面前的孩子是男孩时,他被确定了下来,不存在顺序问题。

这个问题是不是有点毁三观,大家可以慢慢消化一下。

艾滋病检测,阳性就是患病吗?

其实这是概率论教材中的经典例题,理科生可能会很熟悉。我也就简单的介绍一下。

目前,检测HIV感染的方式是血清学HIV抗体检测,根据数据,真正感染HIV的病人接受检测后结果呈阳性的概率为99.8%,也就是说可以几乎百分百判断出艾滋病的感染。如果一个人不患病那么接受检测后结果呈阴性的概率为99%,也就是说健康人几乎不会被误诊。这个检测方法看起来还是很靠谱的。

小明是A国居民,A国的艾滋病感染率0.0825%,也就是平均一百万个人才会有825个患者。有一天他进行检测结果是阳性,你觉得他有多大可能真的得了艾滋病?

答案可能会出乎你的想象。

我们用贝叶斯公式计算在检测结果呈阳性的条件下,患艾滋病的概率。答案仅有7.613%,也就是即便检查结果为阳性,真正感染HIV的可能性仅有不到8%,但是我们的检测方法明明看起来十分可靠?

实际上,问题出现在感染率上,检验出错的可能性的确很小,但是相比于艾滋病的感染率,这种出错的量级实际上就很大了。我们来举例子看看。

假设有一百万人,按照艾滋病的发病率,他们中实际上感染的人有825人。让他们都接受检测,因为健康人接受检测后仍有1%的可能性结果呈阳性,即其中约9992名健康人被误诊而呈阳性。825名感染的病人经过检测后,约823人结果为阳性(2人被误诊为阴性)。那么我们来观察所有结果是阳性的人群中,实际患有艾滋病的比例为823/(823+9992)约为7.6%。

一百万人中,真阳性只有823人,但是假阳性有近1万人,这就导致了即便结果是阳性,大多数情况是“误诊”。

这也就是为什么在艾滋病例的筛查中,我们要采取多次检测。同样的数据下,如果某人检测三次都显示阳性,可以计算出他患病的概率高达99.878%,这也就是为什么艾滋病毒检查通常需要初筛试验、复检、最终确认试验,并且已确认试验的结果为最终结果。

人们对概率的一个常发生的误解,叫做赌徒谬误。简单地说就是我连续输了一晚上了,虽然赢了的概率不高,但是连续输的概率更低,那么我接下来就该要赢了!

这种想法更多见于抽卡类手游中,比如某游戏ssr的出货率是1%,有人抽了100发没有出,此时已经超过了期望次数,于是觉得之后一定会出,又大力氪金抽了100,然而还是无事发生。最后气急败坏地大骂官方作假。

其实稍微算一下就知道,连续200次不出的概率依然有13%。而且前100发生后完全不会影响到后面的概率。

如果某一时间点出了特别多的ssr,人们就会总结出“玄学”,呼吁大家都在这个时候抽卡。这也是一种误解,我们习惯上认为杂乱无章才是真随机,投硬币连续出现正面一定有古怪。实际上,我们投七次硬币,结果是“正正正正正正”和“正反反正反正正”的可能性是一样的。如果你觉得不一样,你可以再想想。

认为杂乱无章才是真随机的人,是觉得小概率事件很难发生,没错,但很难发生并不是不会发生。有这么一个论断,如果给我无数的猴子,无限的时间,让他们随机地敲打键盘,形成一篇无限长的文章。那么必定存在一段文字刚好是圣经的全文。

这个比喻虽然不具有现实意义,但它告诉了我们正是因为随机,才会出现那些巧合。如果人为伪造数据,故意去掉那些看起来“不随机”的情况,在样本很大的情况下,这反而是反常的。

回到抛硬币的话题,你现在应该理解了赌徒谬误,知道了“正正正正正正”和“正反反正反正正”的可能性是一样的。那我想和你玩一个游戏,叫做彭尼的游戏——连续的抛一个硬币,

当出现“正反正”时你赢,出现“正正反”时我赢。任何一方赢了游戏就停止。

你觉得这个游戏公平吗?事实上我取胜的概率是2/3。

你可能不服气,那我把“正正反”让给你,我选“反正正”,哈哈,这回我的胜率是3/4。

你选“反正正”,我就选“反反正”,胜率2/3。

你选“反反正”,我就选“正反反”,胜率3/4。总之,我总可以找到一种组合获胜概率更高。这是为什么呢?

我给出其中一种情况的计算,关键点在于这回不仅仅是要计算固定组合出现的可能性,还要考虑出现的先后顺序。

你的朋友都比你有人缘?

社会学家scott feld在1991年发表了一篇文章,题为“为什么你的朋友们比你有更多的朋友”,其中他观察到这样一个现象。平均地说,几乎所有的社交网络中,人们的朋友数目的均值要低于他们的朋友的朋友数目的均值。

这是作者给出的一个实际数据。我们用点来表示学生,用线连接两点来表示两个学生是朋友,就得到此图。括号外面的数字表示该学生的朋友数(也就是从这一个点发出的线的数目),括号里的数字表示他朋友的朋友数目的平均数。

我们具体看一下,Betty的朋友只有一个,是Sue,而Sue有4个朋友。Sue比Betty人缘好。

全都计算一遍我们发现,8人组成的网络中只有Sue和Alice两个人的朋友数超过了他的朋友们的朋友数的平均值。

事实上,对于大多数人来说,他(她)的大多数朋友要比他(她)有更多的朋友。

回到scott feld的结论,他想说的是,在社交网络中,每个人朋友数的平均值,不会超过,他的朋友们的朋友数总和的平均值。

例子中,8个女孩总共有20个朋友,平均每人2.5个朋友。她的朋友们的朋友数总和为60人,除以她的朋友数总和20人,平均为3个朋友。

首先给出一个数学上的证明,其实要完整证明友谊悖论还是十分复杂的,有兴趣的朋友可以自行阅读

我这里只是简单给出2.5<3的证明。

可能有人不太喜欢这样的证明,其实还可以从概率角度来思考一下,我们现在尝试用之前讲到的条件概率粗略地说明为什么我们的朋友可能比我们更善于交友。假设小明交朋友的能力在人群中处于中游——大约有50%的人比他更善于交朋友,另外50%的人交友能力比他差。小华是小明的朋友。那么,小华的交友能力更可能比小明强还是弱呢?

我们依旧用平行世界的方法来思考。假设有许多平行世界的小明和小华,由于小明的交友水平处于中流,那么就有一半的世界里,小华强于小明,另一半的世界里,小华弱于小明。在所有的世界里,又分为,小华和小明成为朋友的情况与小华和小明没有成为朋友的情况。

由于小明的交友能力是固定的,因此两人是否交友取决于小华的交友能力。小华交友能力越强,两人成为朋友的可能越大。

由于,前一半世界中,小华强于小明,也强于后一半世界中的小华。

因此,前一半世界中,两人交友的世界数x要大于后一半世界中两人交友的世界数y。

我们已知两人交友了,计算小华交友能力强于小明的概率是x/(x+y)

这个数字大于50%,也即是说,有更多的可能性小华的交友能力强于小明,因此他的朋友更可能比小明多。

这并非友情悖论的严格证明,但有助于理解这个问题。

友情悖论有什么应用呢。

科学家们曾经在哈佛大学的学生中做过一个实验:随机选择一群人,他们各自随机选择的朋友构成第二群人。根据友情悖论,第二群人的朋友要比第一群人多,所以在流行病爆发的时候他们应该更容易或更早被感染。实验也确实发现,第二群人比第一群人中检测到流行病爆发的确早大约两周时间。这对于流行病预防和免疫研究具有重大意义。

好了,我想要介绍的问题就是以上了,我相信很多人依旧存在许多困惑,这非常正常,数学并不是一门好学的学问。

我的分享想要表达的就是,很多我们第一反应想到的东西,其实很不准确。要想看透这个世界的真实,需要有扎实的功底,仔细的琢磨思考

——本期分享到此结束啦——

声明:嘉宾分享内容为个人观点,不代表木果书架立场,仅供参考。如有疑问,烦请大家自行查证,也欢迎加入木果读书会,一起交流探讨。

未经授权,严谨转载!如需转载,请在后台留言联系小编。

我要回帖

更多关于 江西15岁高中生失联最新 的文章