
《概率与概率分布(课件三)》由会员分享,可在线阅读,更多相关《概率与概率分布(课件三)(37页珍藏版)》请在文档大全上搜索。
1、第六章、概率与概率分布:基础知识 概率 概率(probability)反映随机现象不同结果的可能性大小,它可以从不同的方面或不同的途径得到评估,这样就有了主观概率(subjective probability)、经典概率(classical approach to probability)和经验概率(empirical definition of probability)等概率。第六章、概率与概率分布:基础知识 概率主观概率是基于个人的经验、智慧和对事物的愿望而估计出的概率。例如,我问同学们中学生考取一本的概率是多大,一位来自农村普通中学的学生可能会报告出一个相当低的概率,而另一位来自城市重点
2、中学的同学可能会报告出相当大的概率。在不知道具体情况和所有可能的情况下,我们报告的概率只能依赖于个人的经验、智慧和愿望,得到的结果往往不同。 第六章、概率与概率分布:基础知识 概率经典概率,又称古典概率、先验概率或者数学概率,它是某一特殊事件相对所有其他事件出现可能性的数学指标,是所有可能性或者情况已知的时候通过数学知识计算出来的概率。设p(A)为事件A的概率,f(A)为事件A出现的频数,f(非A)为非A事件出现的频数,p(A)=f(A)f(A)+f(非A)。例如,从54张牌中随机挑选一张,它是K的概率为p(K)=454 。第六章、概率与概率分布:基础知识 概率经验概率是由有限容量的样本计算出
3、的概率,又称概率估计值。经验概率与经典概率的区别在于,经典概率的计算需要知道总体参数,而经验概率只用样本情况估算。当问到抛硬币正面朝上的概率是多大时,答案50%就是经典概率,它反映出无限的情况下,正面朝上的概率是50%。但是,这否意味着我们抛100次硬币一定有50次正面朝上呢?答案是不能完全肯定的,抛100次硬币可能不是50次正面朝上,但这个数应该接近50次。 第六章、概率与概率分布:基础知识 经验概率的基础知识1.样本空间(sample space)样本空间是指数据收集或实验过程中所有可能出现的结果。数据收集或实验过程中,有些现象的数据表现为连续的,还有些现象的数据表现为离散的,无论是反映分
4、类的离散数据还是反映测量的连续数据,所有可能出现的结果称为样本空间。第六章、概率与概率分布:基础知识 经验概率的基础知识2.2.随机性与立独性(随机性与立独性(random and independentrandom and independent)随机性随机性意味着一事件出现是不被知晓的,我们最多可以估计意味着一事件出现是不被知晓的,我们最多可以估计它出现的概率,随机事件的出现没有特定模式和稳定特它出现的概率,随机事件的出现没有特定模式和稳定特征。例如,在抛硬币过程中,正面朝上事件是不知的,征。例如,在抛硬币过程中,正面朝上事件是不知的,我们可以估计它的概率是我们可以估计它的概率是50%50
5、%,这样的事件就具有随机,这样的事件就具有随机性。性。立独性立独性反映两个事件之间的关系,立独意味着一个事件不影反映两个事件之间的关系,立独意味着一个事件不影响另一个事件。例如,响另一个事件。例如,2020岁的大学生的身高就具有随机岁的大学生的身高就具有随机性,并且不同人的身高之间也没有必然的联系。性,并且不同人的身高之间也没有必然的联系。第六章、概率与概率分布:基础知识 经验概率的基础知识3.3.相互排除与相互包含事件相互排除与相互包含事件 ( mutually exclusive events mutually exclusive events vs. mutually inclusive
6、 events vs. mutually inclusive events )相互排除事件相互排除事件是指在样本空间中不会同时出现的事件,例如在是指在样本空间中不会同时出现的事件,例如在美国的民意调查中,一个被调查对象不可能既是民主党又美国的民意调查中,一个被调查对象不可能既是民主党又是共和党,民主党和共和党是两个相互排除事件。是共和党,民主党和共和党是两个相互排除事件。相互包含事件相互包含事件是指可以在样本空间中同时出现的事件,例如在是指可以在样本空间中同时出现的事件,例如在美国的民调中,某人既可以是民主党又可以对某个决定表美国的民调中,某人既可以是民主党又可以对某个决定表示同意意见,民主党
7、与同意意见两种情况可以在样本空间示同意意见,民主党与同意意见两种情况可以在样本空间同时发生,它们就是两个相互包含事件。同时发生,它们就是两个相互包含事件。第六章、概率与概率分布:概率计算规则 概率的公理概率的公理系统包括以下内容:概率不能为负数,取值在01之间;必然事件出现的概率为1;不可能事件出现的概率为0。第六章、概率与概率分布:概率计算规则 概率的加法定理当当A A和和B B是相互排除事件时,他们同时出现的概率是是相互排除事件时,他们同时出现的概率是0 0,即,即p p(A and BA and B)=0=0,这时,这时A A或或B B出现的概率为:出现的概率为:p(A+B)=pp(A+
8、B)=p(A A)+p+p(B B)。当有)。当有n n个相互排除事件时,个相互排除事件时,P(A1+A2+An)=P(A1)+P(A2)+ +P(An)P(A1+A2+An)=P(A1)+P(A2)+ +P(An)。当当P(A and P(A and B) 0B) 0时,即时,即A A和和B B 相互包含时,相互包含时,P(A+B)=P(A)+P(B) P(A+B)=P(A)+P(B) P(A and B)P(A and B)。例如,民调中,同意为例如,民调中,同意为40%40%,不同意为,不同意为35%35%,不确定为,不确定为25%25%,由于每个被调查者只能给出一种意见,同意、反对和不
9、由于每个被调查者只能给出一种意见,同意、反对和不确定三个事件之间是相互排除,那么,同意和不确定概确定三个事件之间是相互排除,那么,同意和不确定概率为率为0.4+0.25=0.65 0.4+0.25=0.65 。 第六章、概率与概率分布:概率计算规则 乘法定理当当A A和和B B 是两个相互独立事件时,它们同时出现的概率等于是两个相互独立事件时,它们同时出现的概率等于两个事件单独出现概率的乘积。两个事件单独出现概率的乘积。即即P(A and B)=P(A)P(A and B)=P(A)P(B) P(B) 。当有。当有n n个相互独立的事件时,个相互独立的事件时,P(A1 and A2 and A
10、n)=P(A1) P(A1 and A2 and An)=P(A1) P(A2)P(A2)P(An) P(An) 。例如,有道四选一的单选考试题,靠随机指出正确答案的概例如,有道四选一的单选考试题,靠随机指出正确答案的概率为率为P(Qi)=1P(Qi)=14=0.25,4=0.25,指对三道题的正确答案的概率就为指对三道题的正确答案的概率就为P(Q1 and Q2 and Q3)=0.25P(Q1 and Q2 and Q3)=0.250.250.250.25=0.01560.25=0.0156第六章、概率与概率分布:概率分布 概率分布的类型1.离散分布与连续分布 用概率大小来说明变量不同水平
11、或者不同情况出现可能性大小,形成概率分布。根据所要说明变量是连续变量还是离散变量,概率分布可以分为离散分布和连续分布。例如二项分布为离散型概率分布,而正态分布为连续型概率分布。第六章、概率与概率分布:概率分布 概率分布的类型2.2.经验分布与理论分布经验分布与理论分布理论分布是基于变量或事件的经典概率而形成,或者是指数学家构想出来的用以解释统计概念和样本情况的统计模。经验分布是基于有限样本抽查情况统计出的概率分布。例如,上抛硬币,正反面朝上的概率各位50%,正反面朝上的概率分别为50%的分布就一个理论分布。如果,我们抛硬币100次,结果不一定就是正反面朝上各50次,假设朝上52次,朝下48次,
12、朝上和朝下的概率分别为52%和48%,这种基于事件经验概率形成的分布为经验分布。第六章、概率与概率分布:概率分布 概率分布的类型3.3.随机变量分布与样本分布随机变量分布与样本分布随机变量分布是指变量各种取值其概率大小分布;样本分布是指代表性样本统计指标,如平均数等,其概率大小分布。假设要研究20岁大学生的身高情况,我们可以从这个总体中随机抽出200人样本,求出一个平均值。通过抽取200人的样本来计算平均值的过程,可以不断反复,这样就可以得到无数个平均值,这无数个平均值的分布就为样本分布。第六章、概率与概率分布:正态分布模型 正态分布的定义正态分布是一个用来描述各种统计概念和经验分布的理论概正
13、态分布是一个用来描述各种统计概念和经验分布的理论概率分布,它的分布形状由下列公式定义:率分布,它的分布形状由下列公式定义:式中,式中,f f(x x)是某特定值)是某特定值x x的相对概率,的相对概率,x x为观测值,为观测值,e e为自为自然对数的底,然对数的底,e2.7183e2.7183,是圆周率,是圆周率,3.14163.1416,为为总体平均数,总体平均数, 为总体的标准差为总体的标准差第六章、概率与概率分布:正态分布模型 正态分布的特征 1.分布图:正态分布图形状是对称正态分布图形状是对称的,取值范围是:的,取值范围是:,平均数、中,平均数、中数和众数相等,数和众数相等,s s3
14、3=0.0 , =0.0 , s s4 4=3.0 =3.0 321.5()(xNxN422()xNxns3=s4=第六章、概率与概率分布:正态分布模型 正态分布的特征2.正态分布是一系列的。其具体形态由和决定,值的大小决定曲线最高点在横轴上位置,值决定诸x值围绕值的分散情况。在一系列的正态分布中,有一个分布=0,=1(z分数具有=0,=1的特征),该分布为标准正态分布,其函数式为:1222zeY= 第六章、概率与概率分布:正态分布模型 正态分布的特征.所有正态分布函数求积分所得到的正态分布曲线下的面积为1 ;并且,对所有正态分布来讲,平均数到距离平均数相同标准差单位点值围成的正态分布曲线下面
15、积相等。例如,1之间的面积约为68%;1.96之间的面积约为95%;3之间的面积约为99.7%。 第六章、概率与概率分布:标准正态分布表及应用 标准正态分布表结构第一列z为标准分数或z分数;第二列Y为相应z分值处纵坐标高度,即得到相应z分值的相对概率;阴影部分p为不同z分点到平均值(即0值)之间的面积,表示总体概率分布中0到某z分值之间概率大小。第六章、概率与概率分布:标准状态分布表及应用 标准状态分布表应用1.查表求正态曲线下各部分所包括的面积例:设一门课程的考试成绩符合正态分布,其:设一门课程的考试成绩符合正态分布,其 =12=12分,分, =4=4分,问成绩在分,问成绩在8 8分到分到1
16、616分之间的人数占全部人数的百分分之间的人数占全部人数的百分之几?即分值处于该分数段的概率有多大?之几?即分值处于该分数段的概率有多大?解:将原始分转化为z分数,z8=(812)4=1,z16=(1612)4=1;查正态分布表,z=1.00时,p=0.3413,由于正态分布对称,8到12分之间的概率也为0.3413,故本题答案为68.26%,即8到16分之间人数占全部人数的68.26%。第六章、概率与概率分布:标准状态分布表及应用 标准状态分布表应用2.2.设定概率查表求原始分设定概率查表求原始分 例:用智力测验选择人才,例:用智力测验选择人才,IQIQ的均值的均值=100=100,标准差,
17、标准差 =16=16,设总体设总体IQIQ分值分布符合正态,问截处分值分布符合正态,问截处IQIQ分值在高分端占分值在高分端占5%5%的最低值。的最低值。解:已知高于某点概率为解:已知高于某点概率为0.050.05,那么该点值到均值的概率为,那么该点值到均值的概率为0.450.45;由;由p=0.45p=0.45,查表得到,查表得到z=1.65z=1.65;根据标准分值定义可;根据标准分值定义可知,知,z=1.65z=1.65时,原始值时,原始值x=zx=z =1.65=1.651616100=126.4100=126.4第六章、概率与概率分布:t分布模型 中心限制定理中心限制定理(centr
18、al limit theorem )从任何一个总体(无论正态还是非正态)随机抽取容量为n的样本,当n足够大时(n30),样本平均数的分布正态或接近正态,其分布的平均数为总体参数,标准差(平均数分布的标准差常称为标准误)为 n第六章、概率与概率分布:t分布模型 t分布提出上世纪二十年代,年轻的生物学家 William Gossett以“student”为笔名,发表关于小样本分布的研究成果,解决了有关小样本平均数分布的问题。后来,研究者将他所描述的分布称为t分布或学生分布(students distributions )。t分布理论模型常被用来解释小样本分布以及总体参数不知情况下的样本分布。 第六
19、章、概率与概率分布:t分布模型 t分布的定义定义:t分布由Gossett提出的密度函数来定义,它是一组分布,分布形态由自由度决定。自由度v=n1,即样本容量减1为自由度。自由度的含义是:当容量为n的样本,其平均数确定后,如果n1个数据确定下来,那么剩下的一个数据也就确定下来而不能自由变化,也就是说只有n1个数据可以自由变动。第六章、概率与概率分布:t分布模型 t分布的特征由t分布函数描述的t分布有以下几个特点:t分布的平均值为0;t分布以平均值0对称,左侧t为负,右侧为正;t的取值在之间;当n趋向时,t分布为正态分布,其方差为1;当n130时,t分布接近正态分布,方差大于1;当n130时,t分
20、布与正态分布相差较大。由此,正态分布可以看成是t分布的极限状态或理想状态,当样本容量足够大时,t分布趋向正态分布,下图反映这种关系。第六章、概率与概率分布:t分布模型 t分布形态图正态分布自由度为10的t分布自由度为1的t分布第六章、概率与概率分布:t分布模型 t 统计量当总体正态,样本代表的总体方差不知时,样本平均数的分布符合t分布;另外,当总体为非正态,其方差也不知时,若n30时,样本平均数的分布近似为t分布。在总体方差不知时,Gossett指出可用样本方差或标准差代替总体方差或标准差,即Sn-1= 是的无偏估计量 当n 趋向时,Sn-1等于(而不是S等于)。由此,平均数分布的标准误 =
21、,t= (为总体平均数),这个样本统计量t值符合自由度为n-1的t分布。21()1niiXXn1nSnXSxxS第六章、概率与概率分布:t分布模型 t分布表t分布表类似正态分布表,是统计学家根据不同的自由度的t分布函数计算出来的,它方便实际研究的应用。t分布表具体结构见附表,表的左列为各种自由度;最上一行是指不同自由度下t分布两侧的概率,分别列出了0.5,0.4,0.3,0.2,0.1,0.05,0.02,0.01,0.001等;最下一行标明的是单侧概率;表中间所列的值是t值,它反映在不同自由度下,t分布两侧或单侧概率达到某个水平的t绝对值的最小限度。第六章、概率与概率分布:t分布模型 t分布
22、表应用应用一:由df(自由度)和p(单或者双侧概率)查t已知已知df=20,设定双侧概率为,设定双侧概率为0.05,单侧概率也为,单侧概率也为0.05,查表,查表求求t。通过查表可知, =2.086 , =1.725。运用t分布理论函数计算的t分布表,我们是这样解释样本分布的:假设抽样符合t分布,从总体随机抽取容量为21的样本,通过上述讲到的方法计算出样本的t值,能得到t值大于2.086或者小于负的2.086的可能性小于5%,能得到大于1.725的 t值的可能性也小于5%。0.052t0.05t第六章、概率与概率分布:t分布模型 t分布表的应用 应用二:由df和t值查p已知df=17,计算出t
23、=2.567,查表求p。查表可知t=2.567对应的双侧概率为0.02,单侧概率为0.01,在实际应用中,表中可能没有我们计算出的t值,这时可以用线性内插方法或接近原则得到一个p值。一般情况下,我们只需要将t值与0.05或0.01概率水平的t值进行比较就行了。第六章、概率与概率分布:卡方分布模型 卡方分布及其特征正态分布和t分布理论模型主要用来解释样本平均数,并做推论分析的。样本方差的解释和推论分析是否也有可以运用的分布模型?答案是肯定的。卡方分布就常被用来解释样本的方差,并做出相关推论分析的。概率论研究发现,从正态总体中随机抽取容量为n的样本的n / 符合自由度为n-1的卡方分布。2s2第六
24、章、概率与概率分布:卡方分布模型 卡方分布及其特征卡方分布的特点卡方分布是由概率论提出的分布函数定义,它是一族分布,分布的具体形态由自由度决定;卡方分布是正偏态分布,随自由度变化,df很大时它接近正态分布,当df 时, 卡方分布为正态;卡方值不会是负,卡方分布取值范围为0+ ;一些离散型的数据统计量的分布近似卡方分布,在离散变量的卡方分析中会具体讲解。第六章、概率与概率分布:卡方分布模型 卡方分布表的应用 卡方分布表是根据卡方分布函数计算出来的(见附表)。表的左列为自由度;最上面一行是概率值,表示某自由度下某卡方值以上的概率;中间部分为卡方值。df=n, 表示自由度为n时,比该值大的卡方值出现
25、概率小于5%。例题例题1、查卡方表、查卡方表df=30, =?, =?查表可知,查表可知, =43.8, =50.9。例题例题2、已知正态总体的、已知正态总体的 =10,随机抽取样本,随机抽取样本n=16,样本方差,样本方差 = 。问其卡方值是多少?大于该值的概率有多大?问其卡方值是多少?大于该值的概率有多大?x2=n / =16 10=11.010=11.0。查。查df=15df=15的卡方的卡方表,表,2=11.0时,时,P=0.750。因此,随机抽样得到的因此,随机抽样得到的2值大于值大于11.0的概率是的概率是75%。20.0520.0120.0520.0122s110162s2110
26、1620.05第六章、概率与概率分布:F分布模型 F分布及其特征卡方分布主要用来解释单一样本的方差,并做推论分析,F分布主要用来解释两个样本的方差,并做推论分析。另外,在因素设计的方差分析中我们也会用到F分布模型。例如,两个来自同一正态总体的样本, / 的分布为分子自由度为 -1,分母自由度为 -1的F分布。121nS221nS1n2n第六章、概率与概率分布:F分布模型 F分布及其特征F分布的特点 F分布由概率论提出的函数定义,它也是一族分布,分布的具体形态由分子和分母的自由度决定; F分布是一个正偏态分布,随分子自由度和分母自由度增加,F分布趋近正态分布;F值总为正数; 当d =1,d 任意
27、时,F值与分母自由度相同概率的t值(双侧概率值)的平方相等。1f2f第六章、概率与概率分布:F分布模型 F分布表及其应用附表左第一列为分母自由度;左第二列为设定的概率0.05和0.01水平,意指F曲线下某F值之右侧的概率(单侧表),大于F值或小于 值的概率(双侧表);最上行为分子自由度;表中间成对上下排列的数值为设定0.05和0.01概率时,不同分子分母自由度下的F 分布临界值。1F第六章、概率与概率分布:F分布模型 F分布表及其应用例如:d =2, d =9时,表4第二列第九行有成对数值4.26和8.02,4.26在上,8.02在下。4.26表示在分子、分母自由度分别为2和9的F分布中,F值大于4.26的概率或可能性为0.05;8.02表示在分子、分母自由度分别为2和9的F分布中,F值大于8.02的概率或可能性为0.01。 1f2f第六章、概率与概率分布:F分布模型 F分布表及其应用用F分布解释两个样本的方差,可理解为:随机从同一个正态总体中抽取容量分别为3和10的两个样本,这两个样本方差的比值,即F= / ,只有5%的可能比4.26大,1%的可能比8.02大。上述4.26写为 (2,9)=4.26。 23 1S210 1S0.05F