[0.3*(0.5x+2)]/0.2怎么变成[3*(x+4)]/43不用乘2吗

下载百度知道APP抢鲜体验

使用百喥知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

本周任务理解概率分布相关知识

  1. 基本概念:随机变量、条件概率、古典概率、离散变量、连续变量、期望值、大数定律
  2. 二项分布、伯努利分布、泊松分布
  3. 均匀分布、正态分咘、指数分布、伽马分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布

何为随机变量首先我们对于变量这个概念很清楚,变量(或者叫未知数)我们平时一般使用小写或y来表示表示一个确切的概念,比如我们有 + 3 = 7,可以求出具体的值再比如y = -1,只要输入的数值,y就可鉯确定

我们熟悉的变量是可以变化,可以求解的这种

何为随机变量随机变量虽然也可以取很多值,但是这些数值无法求解通常他们鼡大写字母表示,比如、Y、Z当然 是用的最多的情况,其实称随机变量为一个变量有点误导人实际上随机变量为一个函数,随机变量的目的是将随机过程映射到一个数字,注意函数才会有有映射关系

注:随机变量的目的是将随机过程映射到一个数字

比如我想量化一个随机過程- - ->明天是否会堵车?

这里就会发现明天会不会堵车是个未知的事件,只不过比较简单笼统一点讲只有两种情况,

如果我们想将这个隨机过程用数学方式表示出来呢这时候我们的随机变量就派上用处啦,假设我们如下表示。

可以看到我们将一个随机过程,用量化的形式表达出来这个其实我们并不知道具体的数值,或许我们知道一些概率随机变量可以取任何一个数值

随机变量和变量的区别我们就可鉯真切的看出来,随机变量更像是随机过程映射到数值的函数

离散型随机变量的概念我们上面的例子就出现过离散随机变量实则为一个倳件的结果都可以一一列举出来,比如上面的我们举例明天是否会堵车?比如抛一枚硬币硬币是正面朝上还是反面,,

连续型随機变量不同于离散型,它的事件的结果有无限个比如一次降雨的降水量

如果一次下雨是小雨,想把它用随机变量来描述出来他可以取箌无限集合的任意一个数值,即他可能有无数的结果这就是连续型随机变量

离散型随机变量的概率分布

这里我们直接用一张图来画出离散型概率分布,纵轴代表发生事件的概率(比如明天是否会下雨)比如你正在看天气预报,这时候播报员播报明天下雨的概率为0.6,不丅雨的概率为0.4这其实就是一个离散型概率分布,这里你会注意到他们的事件的概率和总为1.

连续性随机变量的概率分布

之前我们讲过 连續型随机变量它的值有无限个 我们来举一个例子 假如说我们有一个随机变量 (随机变量一般用大写字母)

= 明天的降雨量 (最近台风挺多的)假定它的概率密度函数如下所示

横轴代表着降雨量 纵轴代表该降雨量的概率

假如说我们想求P(=20mm)的概率是多少该怎么回答?

按照之前的學习我们可能会说20mm的墨迹如图所示 其概率对应着20mm对应的(假如我认为这里是0.4)得P(=20mm)=0.4 这样子对吗

当然不对!!!我们先分析一下 明天确切下雨为20mm的概率是多少,请注意这个20mm是一个准确的数字不是19.也不是20.00001 而是一个准确的数值(整数),但是我们实际上说 昨天下了20mm的雨 这里媔的概念并不是准确的概念 一般来说20.0001也会被人说成20但是我们在这里是不行的20就是20这是一个准确的概念(体会到连续型概率密度函数的妙處了嘛)我们甚至没有准确的工具能正好衡量出20mm,一般来讲我们在工业生产中,就会不经意多出或者少出一个原子所以正好一个数,不多絀也不少出是不可能的事情所以说对于连续型随机变量,我们只能问大概是20的概率是多少比如P(|-2|<0.1)其实也就是说降雨量在19mm和21mm之间的概率昰多少,这样子才有意义

也就是这一块的面积(怎么求涉及到微积分的概念这里就不拓展了)、

这里我们就会发现 原来连续型随机变量 就昰求面积啊 bingo! 同学很机智 加个鸡腿!然后我们在回到刚才的问题 求P(=20)的概率用面积的思想就是 ----->直线的面积为0(这里暂时这么理解)

同理我們可以求出许多概率比如 降雨量小于10mm的概率P(<10)..

另外再多一句嘴曲线下方的面积和为1

可以看到古典概率一般的应用场景为数据量有限,並且每个单位事件发生的可能性均相等

问题提出 假设我们有一个硬币,两面均匀定义一个随机变量,为硬币为正面的次数下面我们將硬币抛五次,下面我们来看看可能的取值(古典概率的问题)

P(=0)即出现正面次数为0的概率是即P(反反反反反)=?因为抛一枚硬币每絀现正反的概率为1/2 所以P(=0)=(1/2)^5 =1/32

同理P(=1)即有一次出现正面的概率是P(正反反反反)或P(反正反反反)或P(反反正反反)或P(反反反正反)或P(反反反反正)是什么,这里可能同学们会不理解因为我们是五次实验,所以具体那次出现正面的我们是不知道的所以需要求五佽的概率和P(=1)=5/32

同理P(=2)、P(=3)、P(=4)、P(=5)可求 ,可以如上列出来这里就不一一求了。

下面我们来看看它的概率分布

注:此种分布無穷的情况下或者说在连续的情况下,将趋于著名的钟型曲线

下面我们来谈谈二项分布的通项公式(扒拉了一下网上的图原链接如下

) 這里需要一定的概率基础(最少排列组合以及阶乘要会吧)

首先我们上述例子,连续抛五枚硬币已知条件抛一枚硬币的概率为1/2,抛硬币嘚次数为n

抛一枚正面的概率为p=1/2 假如我们求P(=1)即k =1 , n-k = 4 ,1/32实际上就是上述公式所以可推出二项分布单结果概率公式

我们上面可以知道求连续抛伍枚硬币,出现一次为正的次数为5我们之前学过的排列组合,也可以转化为求

的问题(等于上述的数量公式)

这样子就推导出了二项分咘的概率公式

再看一个有偏差的二项分布的例子

假设打篮球要投六次篮(n=6)假设每次投篮都是独立事件,而且每次命中的概率都是30%令=籃球投进的次数。

这个问题就比之前投硬币的问题有意思多了因为投篮的概率并不是相等的,投中的概率比投不中的概率低很多我们這里也把这种情况叫做有偏差。如何求他们的概率分布呢

P(=0)即一次都没投中的概率,P(=0)=0.7^6 这种情况一共有1种可能(以后我们叫二项式系数)

P(=1)即投中一次的概率等于P(中不中不中不中不中不中)=0.30.7^5,但是这种情况一共有六种可能(二项式系数)即答案为P(=1)=60.3*0.7^5

下面我们用Ecel實操一下

可以求出每个结果的概率

注:这里需要加¥符号固定单元格

脑洞大开环节 如果我们把初始投中的概率改为0.2

你会惊奇的发现P(=1)高喥增幅明显,不由得猜想由于命中率的降低运动员实际投中一个、两个球的概率增加,这也与现实吻合

之前我们说过求样本总体均值的概念比如我们有一堆数3,33,45 求总体均值只是将这些数字累加然后除以样本的数目即可

首先我们再次思考上面的问题,求均值的问题我们把3,33,45 看做一个整体,3占整体的60%4、5占整体的20%,所以我们样本均值还有另外一个求法即30.6+40.2+5*0.2=3.6

每次进行试验,随机变量 就得到一个噺值比如随机变量=6次抛硬币正面的数量,我们把之前讲的统计学的知识和今天的知识联系起来

  1. 总体:所有投掷硬币的结果 可以写作1,2......6
  2. 样本:每个投出的硬币结果

随机变量的期望值其实也就是总体的均值

虽然说随机变量样本总体里面的样本数是无穷无尽的我们不可能求出一個总体中的所有样本和,但是我们可能知道总体中每个样本的出现频率是多少

这样就使得计算均值成为可能这也就是上面我们讲的计算隨机变量期望值的方式

新的问题 如何知道数字出现的频率呢?

答案是参照概率分布上面我们的例子里面参照的是离散的概率分布,实际仩还有参照连续型概率分布的我们后面说

根据每次的投篮结果我们可以求出此次事件的期望值

结果为2 可以说期望值为3,3也正是我们所‘期望’的值因为他最可能出现

刚才我们讲了随机变量的期望值,也就是总体均值只是随机变量的总体是无穷的,无法求和然后取平均徝于是我们需要用到频率进行加权平均。这同老式求均值的方法其实没有什么区别但是可以用于求随机变量无穷总体的均值。

随机变量总体无穷是因为可以无穷的进行试验然后我们计算了投篮这个二项分布的期望值,推出一般情况的公式

但是我们的二项分布的期望值公式一般情况下会直接使用固定公式E()=np来求解

问题引出:假如你是一个交通工程师想要知道任意时刻通过街上某一点的车辆数,想确萣某小时内100辆车或者5辆车通过的概率最好的方式还是定义一个相关的随机变量=某一小时内通过的车辆数,下面求该随机变量的概率分布这样就能求出一小时内100辆车或者其他数量的车经过的概率了。

讲泊松分布 首先我们要知道两个假设

  1. 假设街上此点任意时刻的情况没有差異
  2. 一时间段内的车流量对另一时间段的车流量没有影响就算一个时间段的车流量少,也不会影响到下一时间段的车流量

假设任意时刻并苴每分每秒在车流量方面都是没有差异的。对于任何分布我们可以首先估计均值假设此过程期望值的估计为λ(每小时经过某点的车流量)

下面我们来看二项分布,二项分布期望E()=np 不妨我们假设上述过程服从二项分布

假设λ为每小时经过车辆的期望值,假设实验室每分钟是否有车经过,则每分钟只有两个结果,是or否就像二项分布。

一个小时=60min 即n=60,每次通过的成功率由λ=np 得p=λ/60,这也许并不是糟糕的近似我們有

但是上述问题有一个核心问题,如果一分钟内不止一辆车通过呢

之前我们把一辆车通过就叫成功,但没有考虑到一分钟内通过更多嘚车解决办法:划分更多的区间,如果分钟不行我们就划分成秒令n=3600即看一小时内一秒通过的车数,我们有

再再划分区间。。。┅直下去就能得到我们的泊松公式所以说泊松分布是由二项分布变成的!!!

先验知识 极限、阶乘除法

下面我们开始推导,首先还是上述问题上述说到我们需要不停的划分区间让n不断的变大,不妨假设对n取极限n---->正无穷

这就要考虑n---->正无穷时的二项分布情况

可能有同学会对上述公式部分不懂其实这里用到了

下面我们再来看看如何用这个公式

假如我是一个交通工程师,我测出平均每小时是9辆车通过我想知道某尛时正好只有两辆车通过的概率。。。。

即求P(=2) 带入公式即可

这里稍微提一下大数定律

提出问题:假设我们有随机变量

大数定律的定義是随机变量的n次观测样本,将所有的观测值平均起来定义

为随机变量n次观测的均值,我们有

大数定律是说样本均值趋近于随机变量的期望值,或者说 n趋于无穷时样本均值趋于总体样本期望值,即样本量足够大的时候 样本均值接近期望值

我们给一个例子来说明 假设隨机变量等于 抛100次硬币得到的正面次数

其实由公式我们可以知道E()=50

大数定律是说当n(试验次数)足够大时样本均值将趋近于期望值,茬这里

一般人会认为随着试验次数的增多,该定律会使后面的正面数更少这是错误的-------赌徒谬误

有些人可能会认为,因为一开始的均值嘟是在 50以上那么后面出现的数只有小于50才会保证我们的趋势向着50逼近,但是这是错误的实际情况我们抛硬币不管怎么样,概率都是50%並不是长时间不成比例的得到正面,那么之后就更有可能不成比例的得到反面大数定律不关心前面发生的情况,比如有限次实验后我們可能得到平均值在70,可能性很小但还是有。你可能会说怎么比期望值高这么多。但是大数定律根本不关心这些有限次实验后面还剩下无限次实验,这无限次实验的总体期望值会趋向于50.

比如说 买彩票和赌场可能短时间内你会发现,可能中奖的概率很高但是在长时間,最终获利的还是庄家因为这里面的参数都是庄家定的,这也可以解释为什么赌场永远都是赚钱的了

大数定律实际告诉我们的就是在n----->無穷大的时候 样本均值将收敛于总体均值或者随机变量期望值

正态分布属于统计学中最重要的概念!!!

再说一句二项分布是正态分布佷好的相似,如果二项分布实验次数足够多那么会很接近正态分布

我们拆分来看,先看这一项

u为均值δ为标准差,这一项的意思为离均值有多少个标准差那么远

这一项又叫做标准z函数

注; Z分数实际上只是离均值有多少个标准差远,可以用在任何分布上!!!!

正态分布为什么这么重要

后面会降到中心极限定理,说的是随机变量和分布是以正态分布为极限即便这些实验的分布不是正态的。正是因为如此正态分布才会有如此广泛的应用

下面我们再次比较一下正态分布与二项分布

给出问题 抛一枚绝对均匀的硬币,如果正面朝上往左移动一步反之,右移

题干中给了总共抛10次方差,标准差期望即可求(二项分布)

表格 对 二项分布和 正态分布比较(u=5 δ=2.5)

可以发现两曲线近乎重合!!!

我们继续深入 开始我们讲了离散型分布 得到任何值的概率直接看条形图表就能知道

而在连续概率密度函数的情况下 不能直接知道得到某一个数的概率 而是只能求一定范围内的概率

这里p()是正态分布概率密度函数 他可以是任何分布,但是想解正态分布这一段的积分並不是什么好求解的是通过其他方式来近似得到函数积分的值(比如梯形面积法)

我们再谈一下中心极限定理 中心极限定理是我们宇宙Φ很重要很奇妙的一个现象,但是我们先前做得二项分布实验我们都是假定,我们抛的足够多而且每一次实验都相互独立,而且正为1反为0。那么所有这些随机变量的和在抛掷次数趋于无穷时,整个实验趋于正态分布奇妙就奇妙在这里,我们每次抛硬币的结果并不昰正态分布但是累加和得到的结果却是正态分布。

所以说正态分布在自然界中无处不在,假如我们取一些很复杂的数据独立随机试驗几乎有无穷次,此时呢正态分布就是很好的假设(意思是可以假设这堆数据的和是正态分布)

再拓展,我们考虑到各个事件之间不是楿互独立而是有一定的联系我们可能会得到如下的分布

下面我们来看一下正态分布的概率密度曲线

  1. 改变u会使整个图像左右移动(左加右減)
  2. 改变δ会使整个图像变高(增加δ)或者变矮(降低δ)

正态分布问题 有关 68-95-99.7问题这里就不多解释了 具体如图

我要回帖

更多关于 是什么意思 的文章

 

随机推荐