包含虚拟变量的回归分析课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《包含虚拟变量的回归分析课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 包含 虚拟 变量 回归 分析 课件
- 资源描述:
-
1、一、什么是虚拟变量?一、什么是虚拟变量?什么是虚拟变量?什么是虚拟变量?变量的分类变量的分类a.定类定类/类别变量(类别变量(nominal/categorical variable)b.定序定序/有序变量(有序变量(ordinal variable)c.定距定距/定量变量(定量变量(interval variable)o 问题:如何在计量分析中使用定类变量和定序变量问题:如何在计量分析中使用定类变量和定序变量什么是虚拟变量?什么是虚拟变量?o 对于只有两种取值的定类变量,可以用对于只有两种取值的定类变量,可以用0和和1表示这两种取值表示这两种取值。这样的变量称为。这样的变量称为虚拟变量(虚拟
2、变量(dummy variable)或或二分变量二分变量(binary variable)。其中,赋值为。其中,赋值为0的一组称为的一组称为对照组(对照组(reference group)或或基准组(基准组(benchmark group)o 注意:变量名的选择注意:变量名的选择 非非亚亚洲洲国国家家亚亚洲洲国国家家;非非党党员员中中共共党党员员;男男性性女女性性,Asia,CCP,female010101什么是虚拟变量?什么是虚拟变量?o 对于有多个取值的定类变量,可构造多个虚拟变量来表示对于有多个取值的定类变量,可构造多个虚拟变量来表示o 用用east、central、west三个虚拟变量
3、表示不同地区三个虚拟变量表示不同地区o 用用sx、jy、qt三个虚拟变量表示本科生毕业后的状态三个虚拟变量表示本科生毕业后的状态 东部或中部东部或中部西部西部;东部或西部东部或西部中部中部;中部或西部中部或西部东部东部,0,1,0,1,0,1westcentraleast 升学或就业升学或就业其他情况其他情况;未就业未就业就业就业;未升学未升学升学升学,0,1,0,1,0,1qtjysx什么是虚拟变量?什么是虚拟变量?o 对于定序变量和定距变量,也可以用虚拟变量表示对于定序变量和定距变量,也可以用虚拟变量表示o 学习成绩(定序变量)学习成绩(定序变量)o 年收入(定距变量,但通过划分收入区间将
4、之转换为虚拟变量)年收入(定距变量,但通过划分收入区间将之转换为虚拟变量)其他其他不及格不及格;其他其他及格及格;其他其他良好良好;其他其他优秀优秀,0,14,0,13,0,12,0,11gggg 其他其他万元以上万元以上;其他其他万元万元;其他其他万元万元;其他其他万元以下万元以下,010,14,0105,13,051,12,01,11iiii1.自变量中包含一个虚拟变量自变量中包含一个虚拟变量2.自变量中包含多个虚拟变量自变量中包含多个虚拟变量3.交互项交互项二、自变量中包含虚拟变量二、自变量中包含虚拟变量自变量中包含一个虚拟变量自变量中包含一个虚拟变量自变量仅为一个虚拟变量自变量仅为一个
5、虚拟变量o 如果自变量仅为一个虚拟变量,实际上是以自变量为分类依如果自变量仅为一个虚拟变量,实际上是以自变量为分类依据,分析因变量的均值差异据,分析因变量的均值差异类类的的均均值值存存在在显显著著差差异异是是统统计计显显著著的的,说说明明两两若若的的均均值值为为:时时,当当虚虚拟拟变变量量的的均均值值为为:时时,当当虚虚拟拟变变量量对对于于DDYEYDDYEYDuDY10010)1|(1)0|(0,自变量中包含一个虚拟变量自变量中包含一个虚拟变量例题例题7_1:工资差异:工资差异美美元元为为已已婚婚劳劳动动者者的的平平均均工工资资美美元元为为未未婚婚劳劳动动者者的的平平均均工工资资美美元元女女
6、性性的的平平均均工工资资为为美美元元男男性性的的平平均均工工资资为为576731844844)320()250(731844594512107107)300()210(512107.semarried.wage.sefemale.wage 自变量中包含一个虚拟变量自变量中包含一个虚拟变量自变量包含定距变量和一个虚拟变量自变量包含定距变量和一个虚拟变量o 此时,虚拟变量的回归系数表示在控制其它自变量的情况下此时,虚拟变量的回归系数表示在控制其它自变量的情况下,两组之间的差异,两组之间的差异o 例题例题7_2:课本:课本p217,例,例7.2分分比比没没有有计计算算机机的的学学生生高高的的学学生生
7、的的成成绩绩平平均均而而言言相相同同,拥拥有有计计算算机机和和如如果果两两个个学学生生的的1570)0105.0()094.0()057.0()33.0(0087.0447.0157.026.1.ACThsGPAseACThsGPAPCcolGPA 自变量中包含一个虚拟变量自变量中包含一个虚拟变量自变量包含定距变量和一个虚拟变量自变量包含定距变量和一个虚拟变量o 虚拟变量可用于政策分析,虚拟变量取值为虚拟变量可用于政策分析,虚拟变量取值为0的一组称为的一组称为控控制组或对照组(制组或对照组(control group),取值为,取值为1的一组称为的一组称为实验组实验组(experimental
8、 group)或或处理组(处理组(treatment group)o 例题例题7_3:课本:课本p218,例,例7.3自变量中包含多个虚拟变量自变量中包含多个虚拟变量o 自变量中包含多个虚拟变量可分为三种情况自变量中包含多个虚拟变量可分为三种情况a.每个虚拟变量代表不同的分类每个虚拟变量代表不同的分类b.若干个虚拟变量代表同一种分类,且这种分类是定类的若干个虚拟变量代表同一种分类,且这种分类是定类的c.若干个虚拟变量代表同一种分类,且这种分类是定序的若干个虚拟变量代表同一种分类,且这种分类是定序的自变量中包含多个虚拟变量自变量中包含多个虚拟变量每个虚拟变量代表不同的分类每个虚拟变量代表不同的分
9、类例题例题7_4:性别和婚姻状况对工资的影响(课本:性别和婚姻状况对工资的影响(课本p220,例例7.6)o 引入性别和婚姻状况两个虚拟变量引入性别和婚姻状况两个虚拟变量o 上述结果表明,性别对工资有显著影响,但婚姻状况没有上述结果表明,性别对工资有显著影响,但婚姻状况没有显著影响。这一模型可能存在问题,即假定婚姻状况的影显著影响。这一模型可能存在问题,即假定婚姻状况的影响对于男性和女性是相同的。进一步的分析应考虑婚姻状响对于男性和女性是相同的。进一步的分析应考虑婚姻状况的影响存在性别差异。况的影响存在性别差异。_cons .4 41 17 77 78 83 37 7 .0 09 98 88
10、86 66 62 2 4 4.2 23 3 0 0.0 00 00 0 .2 22 23 35 55 55 57 7 .6 61 12 20 01 11 16 6 tenursq -.0 00 00 05 57 74 44 4 .0 00 00 02 23 34 47 7 -2 2.4 45 5 0 0.0 01 15 5 -.0 00 01 10 03 35 55 5 -.0 00 00 01 11 13 34 4 tenure .0 03 31 12 29 96 62 2 .0 00 06 68 84 48 82 2 4 4.5 57 7 0 0.0 00 00 0 .0 01 17 78
11、 84 42 26 6 .0 04 44 47 74 49 99 9 expersq -.0 00 00 05 53 39 99 9 .0 00 00 01 11 12 22 2 -4 4.8 81 1 0 0.0 00 00 0 -.0 00 00 07 76 60 03 3 -.0 00 00 03 31 19 96 6 exper .0 02 26 69 95 53 35 5 .0 00 05 53 32 25 58 8 5 5.0 06 6 0 0.0 00 00 0 .0 01 16 64 49 90 07 7 .0 03 37 74 41 16 63 3 educ .0 07 79
12、 91 15 54 47 7 .0 00 06 68 80 00 03 3 1 11 1.6 64 4 0 0.0 00 00 0 .0 06 65 57 79 95 52 2 .0 09 92 25 51 14 43 3 married .0 05 52 29 92 21 19 9 .0 04 40 07 75 56 61 1 1 1.3 30 0 0 0.1 19 95 5 -.0 02 27 71 14 45 56 6 .1 13 32 29 98 89 94 4 female -.2 29 90 01 18 83 38 8 .0 03 36 61 11 12 21 1 -8 8.0 0
13、4 4 0 0.0 00 00 0 -.3 36 61 11 12 27 79 9 -.2 21 19 92 23 39 96 6 lwage Coef.Std.Err.t P|t|95%Conf.Interval 自变量中包含多个虚拟变量自变量中包含多个虚拟变量每个虚拟变量代表不同的分类每个虚拟变量代表不同的分类例题例题7_4:性别和婚姻状况对工资的影响(课本:性别和婚姻状况对工资的影响(课本p220,例例7.6)o虚拟变量的定义虚拟变量的定义o如果有如果有n种分类,则回归时只能引入种分类,则回归时只能引入n-1个虚拟变量,否则会造成完全共个虚拟变量,否则会造成完全共线性。未引入的即为对照组
14、。下面是以单身男性为对照组的回归结果线性。未引入的即为对照组。下面是以单身男性为对照组的回归结果:其他其他已婚女性已婚女性;其他其他单身女性单身女性;其他其他已婚男性已婚男性;其他其他单身男性单身男性,0,1,0,1,0,1,0,1mfsfmmsmlwageCoef.Std.Err.tPt95%Conf.Intervalmm0.2127 0.0554 3.8400 0.0000 0.1039 0.3214 sf-0.1104 0.0557-1.9800 0.0480-0.2199-0.0008 mf-0.1983 0.0578-3.4300 0.0010-0.3119-0.0846 自变量中包
15、含多个虚拟变量自变量中包含多个虚拟变量每个虚拟变量代表不同的分类每个虚拟变量代表不同的分类例题例题7_4:性别和婚姻状况对工资的影响(课本:性别和婚姻状况对工资的影响(课本p220,例例7.6)o 不同性别和婚姻状况个体的样本回归方程不同性别和婚姻状况个体的样本回归方程 edu.lwageedu.lwageedu.lwageedu.lwage0790198.032100790110.032100790213.0321007903210已婚女性:已婚女性:单身女性:单身女性:已婚男性:已婚男性:单身男性:单身男性:自变量中包含多个虚拟变量自变量中包含多个虚拟变量每个虚拟变量代表不同的分类每个虚拟
16、变量代表不同的分类例题例题7_4:性别和婚姻状况对工资的影响(课本:性别和婚姻状况对工资的影响(课本p220,例例7.6)o 根据研究关注问题的不同,可以选择不同的对照组。根据研究关注问题的不同,可以选择不同的对照组。下面是下面是以已婚女性为对照组的回归结果:以已婚女性为对照组的回归结果:lwageCoef.Std.Err.tPt95%Conf.Intervalsm0.1983 0.0578 3.4300 0.0010 0.0846 0.3119 mm0.4109 0.0458 8.9800 0.0000 0.3210 0.5009 sf0.0879 0.0523 1.6800 0.0940-
17、0.0149 0.1908 自变量包含多个虚拟变量自变量包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定类的若干个虚拟变量代表同一种分类,且这种分类是定类的例题例题7_5:工资的地区差异:工资的地区差异o northcen=1表示中北部地区表示中北部地区o west=1表示西部地区表示西部地区o south=1表示南部地区表示南部地区o other_region=1表示其他地区表示其他地区o 同样地,如果有同样地,如果有n种分类,回归时只能引入种分类,回归时只能引入n-1个虚拟变量!个虚拟变量!自变量中包含多个虚拟变量自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类
18、是定类的若干个虚拟变量代表同一种分类,且这种分类是定类的例题例题7_5:工资的地区差异:工资的地区差异以其他地区为对照组以其他地区为对照组lwageCoef.Std.Err.tPtnorthcen-0.0783 0.0563-1.39 0.1650 south-0.1048 0.0527-1.99 0.0470 west0.0218 0.0624 0.35 0.7270 educ0.0890 0.0075 11.86 0.0000 exper0.0418 0.0052 8.00 0.0000 expersq-0.0007 0.0001-6.25 0.0000 _cons0.1918 0.112
19、5 1.70 0.0890 自变量中包含多个虚拟变量自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定类的若干个虚拟变量代表同一种分类,且这种分类是定类的例题例题7_5:工资的地区差异:工资的地区差异以南部为对照组以南部为对照组lwageCoef.Std.Err.tPtnorthcen0.0265 0.0512 0.52 0.6040 west0.1266 0.0574 2.21 0.0280 other_region0.1048 0.0527 1.99 0.0470 educ0.0890 0.0075 11.86 0.0000 exper0.0418 0.0052 8.00
20、 0.0000 expersq-0.0007 0.0001-6.25 0.0000 _cons0.0870 0.1072 0.81 0.4170 自变量包含多个虚拟变量自变量包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定序的若干个虚拟变量代表同一种分类,且这种分类是定序的例题例题7_6:法学院排名对起薪的影响(课本:法学院排名对起薪的影响(课本p224,例,例7.8)o 共引入共引入6个虚拟变量表示法学院排名个虚拟变量表示法学院排名排名前排名前10top10=1排名排名11-25r11_25=1排名排名26-40r26_40=1排名排名41-60r41_60=1排名排名61-10
21、0r61_100=1排名排名100以后以后bottom=1自变量中包含多个虚拟变量自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定序的若干个虚拟变量代表同一种分类,且这种分类是定序的例题例题7_6:如果有:如果有n种排序,回归时引入的虚拟变量数目应少于种排序,回归时引入的虚拟变量数目应少于n,下面,下面是以排名在是以排名在100名以后的为对照组的回归结果名以后的为对照组的回归结果lsalaryCoef.Std.Err.tPttop100.6996 0.0535 13.08 0.0000 r11_250.5935 0.0394 15.05 0.0000 r26_400.375
22、1 0.0341 11.01 0.0000 r41_600.2628 0.0280 9.40 0.0000 r61_1000.1316 0.0210 6.25 0.0000 LSAT0.0057 0.0031 1.86 0.0660 GPA0.0137 0.0742 0.19 0.8540 llibvol0.0364 0.0260 1.40 0.1650 lcost0.0008 0.0251 0.03 0.9730 _cons9.1653 0.4114 22.28 0.0000 自变量中包含多个虚拟变量自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定序的若干个虚拟变量代表同
23、一种分类,且这种分类是定序的例题例题7_6:以排名在:以排名在26-60名的为对照组名的为对照组o另外,参看课本另外,参看课本p223,例,例7.7lsalaryCoef.Std.Err.tPttop100.3733 0.0437 8.55 0.0000 r11_250.2766 0.0323 8.56 0.0000 r61_100-0.1732 0.0240-7.22 0.0000 bottom-0.2994 0.0269-11.14 0.0000 LSAT0.0049 0.0032 1.53 0.1290 GPA0.0596 0.0759 0.78 0.4340 llibvol0.0436
24、 0.0270 1.62 0.1090 lcost0.0103 0.0260 0.39 0.6940 _cons9.3214 0.4402 21.18 0.0000 交互项交互项含有虚拟变量之间的交互项(含有虚拟变量之间的交互项(interaction term)例题例题7_7:性别和婚姻状况对工资的影响:性别和婚姻状况对工资的影响femalemarriedfemale_married单身男性单身男性000已婚男性已婚男性010单身女性单身女性100已婚女性已婚女性111marriedfemalemarriedfemalemarriedfemale _,0,1,0,1单身单身已婚已婚;男性男性
展开阅读全文