第九讲定类或定序因变量回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第九讲定类或定序因变量回归分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 讲定类 因变量 回归 分析 课件
- 资源描述:
-
1、第九讲第九讲 定类或定序因变量回归分析定类或定序因变量回归分析 n 线性回归模型在定量分析中广为流行,然而当因变量是一个定线性回归模型在定量分析中广为流行,然而当因变量是一个定类变量而不是一个连续变量时,很难应用线性回归模型。类变量而不是一个连续变量时,很难应用线性回归模型。n 如政治学中研究是否选举某候选人,经济学研究中涉及的是否销如政治学中研究是否选举某候选人,经济学研究中涉及的是否销售或购买某种商品,如在社会学和人口学研究中所涉及的如犯罪、逃售或购买某种商品,如在社会学和人口学研究中所涉及的如犯罪、逃学、迁移、结婚、离婚、生育、患病等等都可以按照二分类变量或多学、迁移、结婚、离婚、生育、
2、患病等等都可以按照二分类变量或多分类来测量。分类来测量。n 又如在研究态度与偏好等心理现象时也经常按几个类型进行测量又如在研究态度与偏好等心理现象时也经常按几个类型进行测量的,如的,如“强烈反对强烈反对”、“反对反对”、“中立中立”、“支持支持”、和、和“强烈支强烈支持持”。n 另外,有时对一些连续变量也要转换成类型变量,如在分析升学另外,有时对一些连续变量也要转换成类型变量,如在分析升学考试的影响因素时,将考生分为录取线以上和录取线以下,只要选定考试的影响因素时,将考生分为录取线以上和录取线以下,只要选定一个分界点,连续变量便可以被转换成定类变量。一个分界点,连续变量便可以被转换成定类变量。
3、 一、问题的提出一、问题的提出n 从统计理论上看,在进行最小二乘法的参数估计时,我们仅从统计理论上看,在进行最小二乘法的参数估计时,我们仅仅关注残差项仅关注残差项的分布,很少对因变量的分布,很少对因变量Y所服从的分布予以关注,所服从的分布予以关注,实际上实际上,我们拥有我们拥有Y的信息要远远大于拥有残差项的信息要远远大于拥有残差项的信息。的信息。n 因变量因变量Y服从正态分布的推断来源于残差项服从正态分布,因服从正态分布的推断来源于残差项服从正态分布,因为为Y 是残差项的线性函数。事实上,社会经济现象往往有不同于是残差项的线性函数。事实上,社会经济现象往往有不同于正态分布的其他分布,例如:正态
4、分布的其他分布,例如:n(1)二项分布()二项分布(binomial distribution)n(2)泊松分布()泊松分布(Poisson)()(1)!()!yNyNyyNy!yeyy 二、线性概率模型二、线性概率模型n1、模型建立、模型建立 n 以最小二乘法为基础的线性回归方程是估测因变量的平均值,而以最小二乘法为基础的线性回归方程是估测因变量的平均值,而二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估测概率,就是所谓的线性概率回归。用公式表示为:测概率,就是所谓的线性概率回归。用公式表示为:nP = a + i iX
5、i + n 对二项分布线性概率模型的结果解释:对二项分布线性概率模型的结果解释:n 在其他变量不变的情形下,在其他变量不变的情形下,x每增加一个单位,事件发生概率的每增加一个单位,事件发生概率的期望将变动期望将变动个单位。个单位。n 例如,林楠和谢文(例如,林楠和谢文(1988)曾用线性概率模型估测入党(政治)曾用线性概率模型估测入党(政治资本)的概率,模型为:资本)的概率,模型为:nP = -0.39 +0.01A +0.04E +0.03Un 其中:其中:P党员概率,党员概率, A年龄,年龄, E受教育年限,受教育年限, U单位身份单位身份n 2、线性概率模型存在的问题、线性概率模型存在的
6、问题 n1)异方差性)异方差性 n 普通最小二乘法假设残差项的方差是相同的,但二项分布的方差为普通最小二乘法假设残差项的方差是相同的,但二项分布的方差为 p(1-p),这意味着方差是中间大,两边小,所以方程中残差项的方差),这意味着方差是中间大,两边小,所以方程中残差项的方差不可能恒定。不可能恒定。n2)非正态性)非正态性n 在给定自变量在给定自变量x条件下,条件下, 是是y的预测值与实际值的离差。由于的预测值与实际值的离差。由于y仅仅仅仅有有0和和1两个值,误差项两个值,误差项 要么等于要么等于 ,或者,或者 很明显,该误差项不是正态分布。很明显,该误差项不是正态分布。 n3)无意义的解释)
7、无意义的解释n 从解释力上看,由于概率的值是有边界的,在从解释力上看,由于概率的值是有边界的,在0与与1之间。但林楠方程之间。但林楠方程很有可能要超过该限制,因变量的估计值可能是负数,也可能大于很有可能要超过该限制,因变量的估计值可能是负数,也可能大于1,因,因此模型的结果是无意义的。例如,运用林楠方程,我们发现如果年龄为此模型的结果是无意义的。例如,运用林楠方程,我们发现如果年龄为100岁,受教育程度超过岁,受教育程度超过10年,则入党的概率约等于年,则入党的概率约等于1。n4)非线性关系)非线性关系0*0( /)E y x1*1(/)E yx 三、简单对数比率回归三、简单对数比率回归 1、
8、模型建立、模型建立n 既然用线性概率回归存在以上两个方面的局限性,我们能否用比率做既然用线性概率回归存在以上两个方面的局限性,我们能否用比率做因变量呢?因变量呢?n 比如用男女比率作因变量,用成功与不成功之比做因变量。用比率做比如用男女比率作因变量,用成功与不成功之比做因变量。用比率做因变量可以建立估计方程,但存在的问题是,比率是非对称的因变量可以建立估计方程,但存在的问题是,比率是非对称的.n 一个简单的解决办法就是取对数,结果就是所谓对数比率(一个简单的解决办法就是取对数,结果就是所谓对数比率(logit)。若用若用P代表某事件的概率,则对数比率函数的定义为代表某事件的概率,则对数比率函数
9、的定义为ng(P)= log (P/1-P)n 以对数比率为因变量对自变量以对数比率为因变量对自变量X1,X2,X3做回归称为对数比率做回归称为对数比率回归(回归(logistic regression),其方程式为:),其方程式为:n log()1iiPaXP表1 概率、比率和对数比率概率0.010.100.200.300.400.500.600.700.800.900.99比率0.010.110.250.430.671.001.502.334.009.0099对数比率-4.60-2.20-1.39-0.85-0.410.000.410.851.392.204.6000exp()()1 ex
10、p()KkikkiiKkikkxpx 该模型即为该模型即为logit回归模型。回归模型。logit回归模型实际上是普通多元回归模型实际上是普通多元线性回归模型的推广,但它的误差项服从二项分布而非正态分布,线性回归模型的推广,但它的误差项服从二项分布而非正态分布,因此,需要采用极大似然估计方法进行参数估计,参数因此,需要采用极大似然估计方法进行参数估计,参数 称为称为logit回归系数,表示当其他自变量取值保持不变时,该自变量取回归系数,表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起的发生比自然对数值的变化量。值增加一个单位引起的发生比自然对数值的变化量。 2、发生比发生比n 发生
11、比是事件的发生频数与不发生频数之间的比,即:发生比是事件的发生频数与不发生频数之间的比,即:nOdds=(事件发生频数事件发生频数)/(事件不发生频数)(事件不发生频数)n n 当比值大于当比值大于1时,表明事件更有可能发生。比如一时,表明事件更有可能发生。比如一个事件发生的概率为个事件发生的概率为0.6,事件不发生的概率为,事件不发生的概率为0.4,发,发生比等于生比等于0.6/0.4=1.5。事件发生的可能性是不发生的。事件发生的可能性是不发生的1.5倍。倍。/(1)kkkoddsppn四、极大似然估计的基本思想四、极大似然估计的基本思想n1) 概率问题概率问题n 例例1、假定我们要估计一
12、样本中男性的发生概率。以、假定我们要估计一样本中男性的发生概率。以s表示样本中男性表示样本中男性的数量;的数量;N是样本规模;是样本规模;是总体中男性的概率(是总体中男性的概率( =0.5 )。)。n根据贝努利公式:根据贝努利公式:n其中其中k!=k(k-1)2.1n10个样本中有个样本中有3个男性的概率为:个男性的概率为:n n 如果我们已知样本中如果我们已知样本中s、N及其概率分布的信息,需要估计总体特征及其概率分布的信息,需要估计总体特征 ,则需要借助极大似然估计法来完成。极大似然估计则需要借助极大似然估计法来完成。极大似然估计ML就是估计这样一个参就是估计这样一个参数值,由于该参数的存
13、在可以使得被观察的事件最有可能发生。数值,由于该参数的存在可以使得被观察的事件最有可能发生。!Pr( /,)(1)!()!sNsNsNsNs310 310!Pr(3/0.5,10)0.5 (10.5)0.1173!(103)!sNn 2) 似然函数似然函数n 当已知当已知N 和和 ,求,求s发生的可能性有多大,所建立的函数,称为发生的可能性有多大,所建立的函数,称为概率函数。而当已知概率函数。而当已知N 和和s,求,求 发生的可能性有多大,所建立的函发生的可能性有多大,所建立的函数,称为似然函数。数,称为似然函数。n 二者的差异:第一、前者是在参数已知下的数据的函数,后者二者的差异:第一、前者
14、是在参数已知下的数据的函数,后者是在数据已知条件下的参数的函数。第二、是在数据已知条件下的参数的函数。第二、参数参数值是由可能性最高值是由可能性最高的值决定,我们称该值为极大似然估计。的值决定,我们称该值为极大似然估计。n nL( /s=3, N=10)=n 由于极大似然估计就是估计参数值由于极大似然估计就是估计参数值 ,使得样本发生的可能性最,使得样本发生的可能性最大,故求最大化的前提是对上式求偏导:大,故求最大化的前提是对上式求偏导: 310 310!(1)3!(103)!(/3,10)0LSn37ln(/3,10)10!ln(1) 3!7!3 ln7 ln(1)(1)03701LSn解得
15、上式可以得到的估计值为0.3 例例2,运用极大似然估计法估计泊松分布中参数,运用极大似然估计法估计泊松分布中参数n概率密度函数为:概率密度函数为:n似然函数为:似然函数为:nLi( /yi) n假定观察值是独立的,样本的似然函数就是个体似然函数的乘积。假定观察值是独立的,样本的似然函数就是个体似然函数的乘积。nLi( /yi) = L1 * L2 * Lnn = Li!yeyy!yeyy1Ni(/)!iyNieLyyLnL = -N + yiln( )- ln(yi!)lnL/ = -N + yi/ = yi / N例例3、运用极大似然估计法估计正态分布中的参数、运用极大似然估计法估计正态分布
16、中的参数 n设变量设变量X为具有平均数为具有平均数,方差,方差 的正态变量,这里的正态变量,这里和和 为未知为未知参数。试由样本观察值参数。试由样本观察值X1,X2Xn估计平均值估计平均值和方差和方差。n 解:由最大似然法得下述似然函数:解:由最大似然法得下述似然函数: n 22221ln()0niixL231()ln10niixL1niixxn221()niixxn22()2112ixniLe 例例3、估计、估计logistic回归模型中的参数回归模型中的参数n由于由于logistic模型是二项分布,其似然函数为模型是二项分布,其似然函数为:n n L=(1)1111ln ()ln (1)l
17、n ()(1) ln (1)ln ()ln (1)1()ln (1)iiinyyiiiniiiiiniiiiinxiiiLppypyppyppyxe(1)1(1)iinyyiiippn 通过三个例子的比较,我们可以看出在线性回归中,似然函数是通过三个例子的比较,我们可以看出在线性回归中,似然函数是通过对似然方程求偏导数得到的,对于未知参数是线性的,容易求解通过对似然方程求偏导数得到的,对于未知参数是线性的,容易求解,但是对于但是对于logistic回归,似然函数是回归,似然函数是和和的非线性函数,求解比较困的非线性函数,求解比较困难,需要借助于计算机,通过迭代计算完成。难,需要借助于计算机,通
18、过迭代计算完成。 n 最大似然估计与最大似然估计与OLS估计的统计性质几乎完全相同,即具有一估计的统计性质几乎完全相同,即具有一致性、渐进有效性和渐进正态性。一致性是指当样本规模增大时,模致性、渐进有效性和渐进正态性。一致性是指当样本规模增大时,模型参数估计逐渐向真值收敛,即估计将近似于无偏。所谓渐进有效性型参数估计逐渐向真值收敛,即估计将近似于无偏。所谓渐进有效性是指当样本规模增大时,参数估计的标准误相应缩小。所谓渐进正态是指当样本规模增大时,参数估计的标准误相应缩小。所谓渐进正态性是指随着样本规模增大,最大似然估计值的分布渐进于正态分布。性是指随着样本规模增大,最大似然估计值的分布渐进于正
展开阅读全文