统计学课件-概率论基础.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计学课件-概率论基础.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 课件 概率论 基础
- 资源描述:
-
1、经济计量学经济计量学概率论与统计学基础概率论与统计学基础(chp2chp5)2-2主要内容主要内容n概率论基础知识概率论基础知识n数理统计基础知识数理统计基础知识概率论部分概率论部分2-4概率论基础知识主要内容概率论基础知识主要内容n概率概率n随机变量随机变量n概率密度函数概率密度函数n多维随机变量多维随机变量n随机变量的数字特征随机变量的数字特征n一些重要的概率分布一些重要的概率分布2-5一、概率一、概率n随机试验随机试验可以在相同条件下重复进行可以在相同条件下重复进行每次试验的可能结果不止一个,但事先能明确每次试验的可能结果不止一个,但事先能明确所有的可能结果所有的可能结果进行一次试验之前
2、不能确定会出现哪一个结果进行一次试验之前不能确定会出现哪一个结果n实例实例一枚硬币抛掷两次一枚硬币抛掷两次在校园里询问任意一个学生的年龄在校园里询问任意一个学生的年龄2-6n样本空间样本空间(sampling space)/总体总体(population)某一个随机试验的所有可能结果组成的集合,记某一个随机试验的所有可能结果组成的集合,记为为Sn样本点样本点(sampling point)样本空间里的某一元素,即随机试验的某一可能样本空间里的某一元素,即随机试验的某一可能结果结果n实例实例一枚硬币抛掷两次,出现正面记为一枚硬币抛掷两次,出现正面记为H,出现反面,出现反面记为记为Tn样本空间:样
3、本空间:HH, HT, TH, TTn样本点:样本点: HH, HT, TH, TT2-7n事件事件(event)某一随机试验的样本空间的一个子集某一随机试验的样本空间的一个子集n实例:一枚硬币抛掷两次实例:一枚硬币抛掷两次事件事件A:出现两个正面:出现两个正面事件事件B:出现一个正面和一个反面:出现一个正面和一个反面事件事件C:出现两个反面:出现两个反面2-8n频率频率(frequency)在相同条件下,某随机试验进行了在相同条件下,某随机试验进行了n次,其中次,其中事件事件A发生了发生了m次,则比值次,则比值m/n称为事件称为事件A发生发生的频率,记的频率,记fn(A)n实例:抛掷一枚硬币
4、,事件实例:抛掷一枚硬币,事件A为出现正面为出现正面当当n逐渐增大时,频率趋向于某一常数,称为逐渐增大时,频率趋向于某一常数,称为频率稳定性频率稳定性n550500204840401200024000fn(A)0.60.540.4840.51810.50690.50160.50052-9n概率概率(probability)S是某一随机试验的样本空间,对于其中的任意是某一随机试验的样本空间,对于其中的任意一个事件一个事件A赋予一个实数赋予一个实数P(A),如果,如果P(A)满足下满足下列三个条件,则称列三个条件,则称P(A)为事件为事件A的概率。的概率。1. 0 P(A) 12. P(S)=13
5、. 如果如果A1,A2,是两两不相容的事件,那么是两两不相容的事件,那么 P(A1+A2+)=P(A1)+P(A2)+n当当n趋近于无穷大时,频率趋近于无穷大时,频率fn(A)无限接近于概无限接近于概率率P(A),从而用概率来度量事件,从而用概率来度量事件A在一次试验在一次试验中发生的可能性中发生的可能性2-10n条件概率条件概率(conditional probability)设设A、B是两个事件,且是两个事件,且P(A)0,称下式为事件,称下式为事件A发生的发生的条件下事件条件下事件B发生的条件概率:发生的条件概率:n实例实例一枚硬币抛掷两次,出现正面记为一枚硬币抛掷两次,出现正面记为H,
6、出现反面,出现反面记为记为T。样本空间:。样本空间:HH, HT, TH, TT。事件事件A为为“至少有一次至少有一次H”,事件,事件B为为“两次都是两次都是同一面同一面”。则事件。则事件A的概率为的概率为3/4,事件,事件A和和B同同时发生的概率为时发生的概率为1/4,在,在A发生的条件下发生的条件下B发生的发生的概率为概率为1/3)()()|(APABPABP 2-11二、随机变量二、随机变量n随机变量随机变量(stochastic/random variable)一个变量若它的值是由随机试验决定的,称其为随机一个变量若它的值是由随机试验决定的,称其为随机变量。随机变量通常用大写字母变量。
7、随机变量通常用大写字母X、Y、Z表示,其数表示,其数值则用小写字母值则用小写字母x、y、z表示表示n离散型随机变量离散型随机变量(discrete random variable)可能取到的值是有限个的随机变量可能取到的值是有限个的随机变量n例:离散型随机变量:扔一次骰子出现的点数;未出生婴儿的例:离散型随机变量:扔一次骰子出现的点数;未出生婴儿的性别性别n连续型随机变量连续型随机变量(continuous random variable)可能取到的值是无限个的随机变量可能取到的值是无限个的随机变量n例:人的身高;百米跑速度例:人的身高;百米跑速度2-12三、概率密度函数三、概率密度函数(pr
8、obability density function,PDF/probability distribution)n离散型变量的概率函数离散型变量的概率函数/概率分布概率分布n实例实例X:投掷两颗骰子出现的点数之和,:投掷两颗骰子出现的点数之和,X的的PDF为:为:n,2 ,1i),xX(P)X(fi X23456789101112f(X)1/362/363/364/365/366/365/364/363/362/361/362-13n连续型变量的累积分布函数连续型变量的累积分布函数(cumulative distribution function,CDF)n实例实例枪靶的半径为枪靶的半径为2米
9、,若每枪都能击中枪靶,且米,若每枪都能击中枪靶,且击中靶上任一同心圆内的点的概率与该圆的面击中靶上任一同心圆内的点的概率与该圆的面积成正比,则弹着点与靶心的距离积成正比,则弹着点与靶心的距离X是一个连是一个连续型随机变量,其续型随机变量,其CDF为:为:ba),a(F)b(F)bXa(P.b)a(F1)aX(P.a)xX(P)x(F 2-14概率密度函数2, 120 , 4/0, 0)(2xxxxxFF(x)x212-15概率密度函数连续型变量的概率密度函数连续型变量的概率密度函数(PDF)实例在上例中,PDF为:ba,dx)x(f)a(F)b(F)bXa(P.b1dx)x(f.a)t(f)x
10、X(P)x(Fdx)x(fbax 有有以以下下重重要要性性质质:概概率率密密度度函函数数 其其它它,02x0 ,2/x)x(fxf(x)122-16PDF与与CDF关系关系xxxXxPxfx)(lim)(0 概率密度函数概率密度函数(PDF)是是累积分布函数累积分布函数(CDF)的的导数导数,即即xdttfxFxFxf)()(),()( 对于这一点进一步剖析对于这一点进一步剖析,可以得到:可以得到: 这表明,这表明,f(x)不是不是X取值取值x的概率,而是它在的概率,而是它在x点点概率分布的密集程度。但是概率分布的密集程度。但是f(x)的大小能反映的大小能反映X在在x附近取值的概率大小。因此,
11、对于连续型随机变量,附近取值的概率大小。因此,对于连续型随机变量,用密度函数描述它的分布比分布函数直观。用密度函数描述它的分布比分布函数直观。2-17概率密度函数概率密度函数n连续型变量的概率密度函数连续型变量的概率密度函数(PDF)f(x)xab badxxfbXaP)()(2-18多维随机变量多维随机变量n多维随机变量多维随机变量多个变量的取值由同一个随机试验决定,称这多个变量的取值由同一个随机试验决定,称这些变量为多维随机变量。些变量为多维随机变量。以下我们考虑最简单的二维随机变量,用以下我们考虑最简单的二维随机变量,用(X,Y)表示,其数值用表示,其数值用(x,y)表示表示n实例实例离
12、散型二维随机变量:每一位学生的性别和民离散型二维随机变量:每一位学生的性别和民族族连续型二维随机变量:每一位学生的身高和体连续型二维随机变量:每一位学生的身高和体重重2-19多维随机变量离散型变量的联合概率密度函数离散型变量的联合概率密度函数(joint PDF)实例譬如:既是男生又是满族的概率为譬如:既是男生又是满族的概率为0.08,既是女生又是回族的,既是女生又是回族的概率为概率为0),(),(yYxXPyxf 民族民族汉族汉族满族满族回族回族蒙古族蒙古族性别性别男男0.270.080.160女女0.350.1000.042-20多维随机变量离散型变量的离散型变量的边缘概率密度函数边缘概率
13、密度函数 (marginal PDF)实例实例)(),()()(),()(yYPyxfyfxXPyxfxfxy X (民族民族)边缘概边缘概率率汉族汉族满族满族回族回族蒙古族蒙古族Y(性别性别)男男0.270.080.1600.51女女0.350.1000.040.49边缘概率边缘概率0.620.180.160.042-21离散型变量的条件概率密度函数离散型变量的条件概率密度函数 (conditional PDF)n表示在表示在Y=y的条件下的条件下X=x的概率的概率譬如:譬如:f (满族满族, 女生女生)=0.10, f (女生女生)=0.49, f (满族满族|女生女生) =0.10/0.
14、49 =0.20 f (汉族汉族, 男生男生)=0.27, f (男生男生)=0.51, f (汉族汉族|男生男生) =0.27/0.51=0.53)(),()(),()|()|(yfyxfyYPyYxXPyYxXPyxf X (民族民族)边缘概边缘概率率汉族汉族满族满族回族回族蒙古族蒙古族Y(性别性别)男男0.270.080.1600.51女女0.350.1000.040.49边缘概率边缘概率0.620.180.160.042-22多维随机变量统计独立性统计独立性 (statistically independence)n如果两个随机变量的联合如果两个随机变量的联合PDF等于它们边缘等于它们
15、边缘PDF的乘的乘积,则称这两个变量是相互独立的(积,则称这两个变量是相互独立的(independent)。)。两个变量独立意味着其中一个变量的结果不会影响另两个变量独立意味着其中一个变量的结果不会影响另一个。一个。譬如譬如:f (X=H,Y=H)=f (X=H)*f(Y=H)=1/2*1/2=1/4 )()(),()()(),(yYPxXPyYxXPyfxfyxf 即即:实例:抛硬币实例:抛硬币X (第一次第一次)正面正面(H)反面反面(T)Y(第二次第二次)正面正面(H)1/41/4反面反面(T)1/41/42-23多维随机变量多维随机变量连续型变量的联合概率密度函数连续型变量的联合概率密
16、度函数 (joint PDF)连续型变量的边缘概率密度函数连续型变量的边缘概率密度函数 (marginal PDF)统计独立性统计独立性 (statistically independence) dcbayxdxdyyxfdYcbXaPyYxXPyxFdxdyyxf),(),(),(),(),(易易知知:)()(),()()(),(yYPyfdxyxfxXPxfdyyxf )()(),(yfxfyxf 2-24四、随机变量的数字特征四、随机变量的数字特征n以上讨论了随机变量的概率密度函数以上讨论了随机变量的概率密度函数PDF和累积分布函数和累积分布函数CDF,但在处理实际问题,但在处理实际问题
17、时,往往不需要求出这些函数,而是只需时,往往不需要求出这些函数,而是只需要了解变量的某些特征值。要了解变量的某些特征值。n这些特征值包括三类:这些特征值包括三类:度量变量分布的度量变量分布的集中趋势集中趋势(central tendency):数学期望或均值;中位数;众数):数学期望或均值;中位数;众数度量变量分布的度量变量分布的离散性离散性(dispersion):方差;):方差;标准差标准差度量两个变量的度量两个变量的相关性相关性(correlation):协方):协方差;相关系数差;相关系数2-25数学期望数学期望(expectation)或)或均值均值(mean)n离散型变量的期望:离
18、散型变量的期望:n实例:扔两个骰子的点数之和实例:扔两个骰子的点数之和)()(),()()(1iniixfxXExXPxfPDFXxf则,即的为若x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/367)36/1(12)36/2(3)36/1(2)( XE2-26随机变量的数字特征随机变量的数字特征n连续型变量的期望:连续型变量的期望:n实例实例: dxxfxXExXPdxxfPDFXxfx)()()()()(则则,即即的的为为若若49dxx91x)X(E3x0;x91)x(f3022 则则若若2-27随机变量的数字特征期
19、望的性质:期望的性质:)()()(. 5)()()()(),(. 4)()()(. 3),()(. 2,)(. 1YEXEYXEYXdxxfxgXgEYEXgYYEXEYXEcXEcXcEcccE相互独立,则与若则若为常数为常数2-28n随机变量的类型随机变量的类型定类变量(定类变量(nominal variable):性别;民族):性别;民族定序变量(定序变量(ordinal variable):教育水平;收):教育水平;收入等级入等级定距变量(定距变量(interval variable):考试成绩;):考试成绩;收入水平收入水平n一般地,不同类型的变量用不同的数学特一般地,不同类型的变量
20、用不同的数学特征表示其集中趋势。定类变量用众数;定征表示其集中趋势。定类变量用众数;定序变量用中位数;定距变量用均值或中位序变量用中位数;定距变量用均值或中位数数2-29随机变量的数字特征方差(方差(variance)n方差被定义为随机变量对其均值的期望距离,用于方差被定义为随机变量对其均值的期望距离,用于表示随机变量与其均值的偏离程度。方差较小说明表示随机变量与其均值的偏离程度。方差较小说明变量的分布比较集中,反之则说明变量的分布很分变量的分布比较集中,反之则说明变量的分布很分散散n方差的性质2222()() () Var XEXE XE XE X相互独立与,若为常数为常数YXYVarXVa
21、rYXVarcXVarcXcVarccVar)()()(. 3),()(. 2, 0)(. 122-30随机变量的数字特征实例:6/357)36/1(144)36/2(9)36/1(4)()(6/357)36/1()712()36/2()73()36/1()72()(2222222222 XEXEXEXE 或或x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/362-31随机变量的数字特征标准差(standard deviation)n方差的量纲与变量的量纲不同,为此引入与变量具有相同量纲的数字特征标准差,同样度量变量的离
22、散程度n标准差的性质:)(XVarSD 为为常常数数、为为常常数数bcXSDcbXcSDbccSDa),()(., 0)(. 2-32随机变量的数字特征度量变量离散程度的其他常用指标还有:度量变量离散程度的其他常用指标还有:n极差极差/全距全距n极差率极差率n变异系数变异系数)X(E)X(SDCV )Xmin()Xmax(range )Xmin()Xmax(I 2-33随机变量的数字特征协方差(协方差(covariance)n协方差度量两个随机变量的相关协方差度量两个随机变量的相关(correlation)程度程度协方差大于协方差大于0表示两个变量正相关表示两个变量正相关(positively
23、 correlated),即其中一个变量随着另一个变量的增大而,即其中一个变量随着另一个变量的增大而增大增大协方差小于协方差小于0表示两个变量负相关(表示两个变量负相关(negatively correlated),即其中一个变量随着另一个变量的增大而),即其中一个变量随着另一个变量的增大而减小减小协方差等于协方差等于0表示两个变量不相关表示两个变量不相关(uncorrelated))()()()()(),(YEXEYXEYEYXEXEYXCovXY 2-34n协方差的性质:若X和Y相互独立,则Cov(X,Y)=0Cov(aX,bY)=abCov(X,Y)|Cov(X,Y)| F (n1,n2
24、)= , 0 2.80)=0.05数量统计基础数量统计基础2-62数量统计基础的主要内容数量统计基础的主要内容n总体与样本总体与样本n参数估计参数估计点估计点估计区间估计区间估计n假设检验假设检验置信区间法置信区间法显著性检验法显著性检验法2-63总体与样本总体(总体(population)n研究对象的全体,记为研究对象的全体,记为X随机样本(随机样本(random sample)/样本(样本(sample)n在相同条件下对总体在相同条件下对总体X进行进行n次重复的、独立的次重复的、独立的观测,每次观测结果都是与观测,每次观测结果都是与X具有相同分布的、具有相同分布的、相互独立的随机变量,记为
25、相互独立的随机变量,记为X1 , X2 , , Xn ,把,把它们称为来自总体的一个简单随机样本,简称它们称为来自总体的一个简单随机样本,简称样本,称样本,称n为样本容量。当观测完成后,得到一为样本容量。当观测完成后,得到一组观测值组观测值x1 , x2 , , xn ,称为样本值。,称为样本值。2-64n我们感兴趣的实际上是总体,但由于不可我们感兴趣的实际上是总体,但由于不可能或很难得到总体的信息,只能从中抽取能或很难得到总体的信息,只能从中抽取一个样本,根据样本数据来推断总体的性一个样本,根据样本数据来推断总体的性质。这其中包含两类问题:质。这其中包含两类问题:参数估计参数估计和和假假设检
展开阅读全文