第十讲定类或定序因变量回归分析-40800960课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第十讲定类或定序因变量回归分析-40800960课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十 讲定类 因变量 回归 分析 40800960 课件
- 资源描述:
-
1、第十讲第十讲 定类或定序因变量回归分析定类或定序因变量回归分析 n 当因变量是一个定类变量而不是定距变量时,线性回当因变量是一个定类变量而不是定距变量时,线性回归模型受到挑战。归模型受到挑战。n 如政治学中研究是否选举某候选人,经济学研究中涉如政治学中研究是否选举某候选人,经济学研究中涉及的是否销售或购买某种商品,社会学和人口学研究中所及的是否销售或购买某种商品,社会学和人口学研究中所涉及的如犯罪、迁移、婚姻、生育、患病等等都可以按照涉及的如犯罪、迁移、婚姻、生育、患病等等都可以按照二分类变量或多分类来测量。二分类变量或多分类来测量。n 一、问题的提出一、问题的提出n 在研究态度与偏好等心理现
2、象时也经常在研究态度与偏好等心理现象时也经常按类型进行测量的,如按类型进行测量的,如“强烈反对强烈反对”、“反反对对”、“中立中立”、“支持支持”、和、和“强烈支强烈支持持”。n 连续变量转换成类型变量的情形,如在连续变量转换成类型变量的情形,如在分析升学考试的影响因素时,将考生分为录分析升学考试的影响因素时,将考生分为录取线以上和录取线以下。取线以上和录取线以下。n 从统计理论上看,最小二乘法关注正态分布,然而社会经济从统计理论上看,最小二乘法关注正态分布,然而社会经济现象往往有不同于正态分布的其他分布,例如:现象往往有不同于正态分布的其他分布,例如:n(1)二项分布()二项分布(binom
3、ial distribution)n(2)泊松分布()泊松分布(Poisson)()(1)!()!yNyNyyNy!yeyy 二、线性概率模型二、线性概率模型n1、模型建立、模型建立 n 以最小二乘法为基础的线性回归方程是估测因变量的平均值,而以最小二乘法为基础的线性回归方程是估测因变量的平均值,而二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估测概率,就是所谓的线性概率回归。用公式表示为:测概率,就是所谓的线性概率回归。用公式表示为:nP = a + i iXi + n 对二项分布线性概率模型的结果解释:对二项分布线性概
4、率模型的结果解释: 在其他变量不变的情形在其他变量不变的情形下,下,x每增加一个单位,事件发生概率的期望将变动每增加一个单位,事件发生概率的期望将变动个单位。个单位。n n 例如,林楠和谢文(例如,林楠和谢文(1988)曾用线性概率)曾用线性概率模型估测入党(政治资本)的概率,模型模型估测入党(政治资本)的概率,模型为:为:nP = -0.39 +0.01A +0.04E +0.03Un 其中:其中:P党员概率,党员概率, A年龄,年龄, E受受教育年限,教育年限, U单位身份单位身份n1)无意义的解释)无意义的解释n 从解释力上看,由于概率的值是有边界的,从解释力上看,由于概率的值是有边界的
5、,在在0与与1之间。但林楠方程很有可能要超过该限之间。但林楠方程很有可能要超过该限制,因变量的估计值可能是负数,也可能大于制,因变量的估计值可能是负数,也可能大于1,因此模型的结果是无意义的。例如,运用林楠因此模型的结果是无意义的。例如,运用林楠方程,我们发现如果年龄为方程,我们发现如果年龄为100岁,受教育程度岁,受教育程度超过超过10年,则入党的概率约等于年,则入党的概率约等于1。n2)非线性关系)非线性关系 2、线性概率模型存在的问题、线性概率模型存在的问题 三、简单对数比率回归三、简单对数比率回归 1、模型建立、模型建立n 既然用线性概率回归存在局限性,能否用比既然用线性概率回归存在局
6、限性,能否用比率做因变量呢?比如用男女比率作因变量,用成功率做因变量呢?比如用男女比率作因变量,用成功与不成功之比做因变量。用比率做因变量存在的问与不成功之比做因变量。用比率做因变量存在的问题是,比率是非对称的题是,比率是非对称的.表1 概率、比率和对数比率概率0.010.100.200.300.400.500.600.700.800.900.99比率0.010.110.250.430.671.001.502.334.009.0099对数比率-4.60-2.20-1.39-0.85-0.410.000.410.851.392.204.60 一一个简单的解决办法就是取对数,结果就是所谓对数比个简
7、单的解决办法就是取对数,结果就是所谓对数比率(率(logit)。若用。若用P代表某事件的概率,则对数比率函数的定义代表某事件的概率,则对数比率函数的定义为为g(P)= log (P/1-P) 以对数比率为因变量对自变量以对数比率为因变量对自变量X1,X2,X3做回归称做回归称为对数比率回归(为对数比率回归(logistic regression),其方程式为:),其方程式为: lo g ()1iiPaXP00exp()()1 exp()KkikkiiKkikkxpx 该模型即为该模型即为logit回归模型。回归模型。logit回归模型是普通回归模型是普通多元线性回归模型的推广,但它的误差项服从
8、二项分多元线性回归模型的推广,但它的误差项服从二项分布,因此需要采用极大似然估计方法进行参数估计,布,因此需要采用极大似然估计方法进行参数估计,参数参数 称为称为logit回归系数,表示当其他自变量取值保持回归系数,表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起的发生比自不变时,该自变量取值增加一个单位引起的发生比自然对数值的变化量。然对数值的变化量。 2、发生比发生比n 发生比是事件的发生频数与不发生频数之间的比,即:发生比是事件的发生频数与不发生频数之间的比,即:nOdds=(事件发生频数事件发生频数)/(事件不发生频数)(事件不发生频数)n n 当比值大于当比值大于1时,表
9、明事件更有可能发生。比如一时,表明事件更有可能发生。比如一个事件发生的概率为个事件发生的概率为0.6,事件不发生的概率为,事件不发生的概率为0.4,发,发生比等于生比等于0.6/0.4=1.5。事件发生的可能性是不发生的。事件发生的可能性是不发生的1.5倍。倍。/(1)kkkoddspp四、四、logistic回归模型的检验与评价回归模型的检验与评价n1、Logistic回归模型估计的假设前提回归模型估计的假设前提 第一、数据来自于随机样本。第一、数据来自于随机样本。n第二、因变量第二、因变量Yi被假设为被假设为K个自变量个自变量Xk(k=1,2,K)的函数。的函数。n第三、正如第三、正如OL
10、S回归,回归,logistic回归也对多重共线性有所回归也对多重共线性有所限制,自变量之间存在多重共线性会导致标准误的膨胀。限制,自变量之间存在多重共线性会导致标准误的膨胀。n Logistic回归模型还有一些与回归模型还有一些与OLS回归不同的假设前回归不同的假设前提:第一,因变量是二分变量;第二,因变量和各自变量提:第一,因变量是二分变量;第二,因变量和各自变量之间的关系是非线性的。之间的关系是非线性的。 2、拟合优度检验、拟合优度检验 如果模型的预测值能够与对应的观测值有较高的一致性,如果模型的预测值能够与对应的观测值有较高的一致性,就认为这一模型能够拟合数据。否则需要对模型重新设置。就
11、认为这一模型能够拟合数据。否则需要对模型重新设置。 因此,模型的拟合优度是指预测值与观测值的匹配程因此,模型的拟合优度是指预测值与观测值的匹配程度。检验拟合优度的指标有皮尔逊卡方检验、对数似然比卡度。检验拟合优度的指标有皮尔逊卡方检验、对数似然比卡方检验等。方检验等。1)皮尔逊卡方检验)皮尔逊卡方检验 皮尔逊卡方检验主要用于检验残差项的大小。计算公皮尔逊卡方检验主要用于检验残差项的大小。计算公式:式: 其中其中yi是观察值(是观察值(0或或1),),pi是估算值的概率,是估算值的概率, i=1,2n,分母是估算值的标准差,自由度为,分母是估算值的标准差,自由度为n-J-1,其中,其中J为为自变
12、量数目。自变量数目。221()(1)niiiiiyppp2)Hosmer-Lemeshow 拟合优度检验拟合优度检验 该方法通常适用于自变量很多,或自变量为连续变量该方法通常适用于自变量很多,或自变量为连续变量的情形。的情形。HL方法根据预测概率的大小将所有观察单位十等方法根据预测概率的大小将所有观察单位十等分,然后根据每一组中因变量的实际值与理论值计算分,然后根据每一组中因变量的实际值与理论值计算Peason卡方,其统计量为:卡方,其统计量为:n其中其中G 代表分组数,且代表分组数,且G 10;ng为第为第g组中的观测值数;组中的观测值数;yg第第g组事件的观测数量;组事件的观测数量;pg为
展开阅读全文