中级社会统计课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《中级社会统计课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中级 社会 统计 课件
- 资源描述:
-
1、Ming-chi Chen社會統計Page.1中級社會統計第十五講二元依變項的迴歸分析:分對數模型(logit model or logistic model)OLS無法處理的變數 是否做慈善捐款?是否投票?家庭子女數 是否尋求民俗醫療?什麼國家會有民主體制 中國廣東省一年抗議事件發生次數 他們有的是二元依變項,回答有是/非兩種可能,有的則是從0到某個有限整數的次數。有的則是有順序的質性變數 統稱為受限的依變數Limited dependent variable,limdepMing-chi Chen社會統計Page.2Ming-chi Chen社會統計Page.3廣義線性模型GLM 我們之前
2、所討論的線性迴歸模型(linear regression model,就是我們用OLS來求解的迴歸模型)其實屬於一個更大的統計模型家族,這就是廣義線性模型generalized linear model,GLM 之前的線性迴歸模型方法只能處理連續的DV,而且有很多限制(homoscedasticity,殘差與IV不相關等)GLM則可以處理DV不符合變異數齊一性假設或變異數常態分配的連續變數、處理間斷性DV。這些DV有時候也被稱為類別categorical或受限limited依變項 可以參照鄭旭智等譯、J.Scott Long原著,類別與受限依變項的迴歸統計模式。(台北:弘智1997)底下的討論
3、主要基於Agresti的Statistical Methods for the Social Sciences,3rd ed.GLM的構成 g(x)=+1X1+2X2+kXk 所有的GLM都有三個部分 隨機部分random component:對DV做其機率分佈的假設,在線性迴歸模型中我們假設為常態分配。系統部分systematic component:自變項 連結函數link function:指定依變項Y的期望值(或稱均數)是如何可以線性地被自變項預測的函數。Ming-chi Chen社會統計Page.4隨機部分 指定依變項Y以及其機率分配 之前我們所討論的,包括ANOVA在內,都預設了
4、Y是連續變數 Y是一個常態分配,且具有相同的變異數。換句話說,ANOVA和一般線性模型都是有著常態隨機部分的概化線性模型GLMs with normal random component 除此之外,DV也可能是二元變數(成功/失敗):二項分配binomial,適合分對數logit模型來分析 DV也可能是一個次數count:波耳松分配Poisson distribution DV雖然是連續變數,但只能取正值,分配會右偏,而均數越大變異也越大,是一種gamma distributionMing-chi Chen社會統計Page.5系統部分 迴歸方程式等號右邊的部分+1X1+2X2+kXkMing-
5、chi Chen社會統計Page.6連結函數 指定=E(Y)是如何關連到自變數 g()=+1X1+2X2+kXk g()就是連結函數link function 最簡單的連結函數是g()=,這是一個identity link恆等連結=+1X1+2X2+kXk OLSMing-chi Chen社會統計Page.7常見的連結函數分佈分佈名稱名稱連結函數連結函數均值函數均值函數常態恆等 指數倒數 Gamma逆高斯二次倒數 卜瓦松自然對數 二項式 Logit 對數連結log link g()=ln()100=102=log10100=2 e3=20.056(e2.718)=ln20.056=3 在社會科
6、學裡,多半時候log其實就是指ln 在這個式子裡,不管g()為正或負,恆為正 這是一個對數連結log link,適用於次數DV 用log link的GLM往往被稱為loglinear modelMing-chi Chen社會統計Page.9分對數連結logit link 對於二元變數,我們往往指定連結函數g()=log(/1-)在介於0與1之間時適用 當DV為二元變數時,我們可以指定一個事件發生的機率為 這種迴歸模型稱為logit modelMing-chi Chen社會統計Page.10GLM與最大概似法 GLM在兩個面向上概化了OLS 隨機部分可以不是常態分配 可以針對依變項做特定的函數
7、OLS用最小平方法來估算迴歸係數,而GLM用一個不受常態分配假設限制的方法最大概似法maximum likelihood來估算 在SAS裡是用proc genmod這個指令 proc genmod y=x/dist=norm link=identity;在Stata裡是用glm這個指令 glm consum income,family(gamma)link(identity)Ming-chi Chen社會統計Page.11Ming-chi Chen社會統計Page.12收入與消費p.389在data editor裡自行輸入資料Ming-chi Chen社會統計Page.13收入與消費p.389
8、Stata沒有內建White test的功能,有的是另一個檢定Cook-Weisberg。一樣是要先run過迴歸分析。Ming-chi Chen社會統計Page.14White Test所以拒絕虛無假設,也等於說變異數不齊一。Ming-chi Chen社會統計Page.15看圖形判斷Ming-chi Chen社會統計Page.16看圖形判斷Ming-chi Chen社會統計Page.17看圖形判斷X越大殘差值越大Stata與Gamma GLMMing-chi Chen社會統計Page.18incomeconsum*612.081.23620Heteroscedasticity&Gamma GL
9、M 依變項y的標準差並非像常態分配預設一般維持不變,而會隨著均數增大而增大,根據圖形以及White test發現有Heteroscedasticity的問題。設依變項有著Gamma分配的特質 Gamma分配的特質 標準差和均數等比例增大縮小(均數倍增標準差也倍增)恆為正、右偏。卡方分配就是一種Gamma分配二元依變項 誰會做慈善捐款?誰去投票?誰會去尋求民俗醫療?什麼廠商西進大陸 什麼國家會有民主體制 誰移居到都市/外國?贊成婚前性行為 以上都是社會科學關心的問題,他們都是二元依變項。回答有是/非兩種可能Ming-chi Chen社會統計Page.20二元依變項的分析 依變項Y有兩種結果,用機
10、率的術語來說就是成功/失敗。也就是Y有1或0兩個可能值=E(Y)=P(y=1)表示成功的機率Ming-chi Chen社會統計Page.21二元依變項的分析 如何用迴歸方程式來預測成功的機率?用線性機率模型(linear probability model):=P(y=1)=+X?問題何在?在自變項X相當小時,機率 0;而在X很大的時候,1 但是機率不可能小於0或大於1 而且,自變項的機率分配是一個二項分配binomial distribution,用常態分配假設有其不適之處。怎麼辦?Ming-chi Chen社會統計Page.22線性機率模型Ming-chi Chen社會統計Page.231
11、0 xlinear勝算與羅吉斯轉換 可以把依變項做一些適當的轉換/(1-)稱為勝算odds,是賭徒常用的機率計算方式,就是成功/不成功的比。勝算介於0和之間。這樣的轉換只解決了一部份的問題 再把勝算取自然對數log/(1-),這個過程稱羅吉斯轉換logistic transformation又稱logit。這樣轉換之後,log/(1-)就會介於-和之間了(probit和complementary log-log轉換也有類似的效果)Ming-chi Chen社會統計Page.24Odds勝算 今天下午新竹降雨機率為74,折算成下雨的勝算為?Odds=0.74/(1-0.74)=2.846 新興民
12、主化國家在政權轉型後一年內發生軍事政變的機率為15,則發生政變的勝算為?Odds=0.15/(1-0.15)=0.176 勝算這個概念雖然沒有機率來得符合我們的直覺,但應該還不難理解。Ming-chi Chen社會統計Page.25Odds ratio勝算比 我們也常用勝算比(odds ratio)來表達兩個勝算之間的關係 今天下午新竹下雨的機率是74,而苗栗下雨的機率是65。新竹下雨的勝算是2.846,苗栗則是1.444 新竹和苗栗今天下午下雨的勝算比是2.846/1.444=1.971Ming-chi Chen社會統計Page.26Logistic Regression Model 當從0
13、增加到1時,odds從0增加到,而分對數logit則從-增加到。當=1/2時,odds=1,而logit=0 當1/2時,logit0 當1/2時,logit0Ming-chi Chen社會統計Page.27X1logLogistic Regression ModelMing-chi Chen社會統計Page.2810 xlinearLogistic,0Logistic,0,X變大,也變大 當0,X變大,變小|越大,logistic曲線越陡 但是在logistic regression model裡,這不是斜率的意思。Ming-chi Chen社會統計Page.29Logistic曲線的切線斜
14、率 斜率會隨著X不同而不同。如果=0.5,則勝算odds/(1-)=1 log/(1-)=0 0=+X X=-/當X=-/,=0.5Ming-chi Chen社會統計Page.30 (1-)是logistic曲線在特定值時的切線斜率 若自變項X預測得知=0.5則,在這個X值上切線的斜率是0.25 當=1/2時,切線斜率最大,logit=0,也就是當X=-/時。Stata與logit regression 用88q1的資料 我們想要瞭解什麼樣的人會捐錢幫助別人?在Stata裡依變項失敗(沒有捐錢)要以0來表示 gen donation=v54這是為了不動原資料方便轉換 Tab donation看
15、有無異常值 Recode donation(2=0)Ming-chi Chen社會統計Page.32Stata與logit regression gen h_inc=v47家戶月平均收入 用do檔來方便作轉換Ming-chi Chen社會統計Page.33Stata與logit regressionMing-chi Chen社會統計Page.34把這個do file個容易記得的地方和名字存起來。Stata與logit regressionMing-chi Chen社會統計Page.35找到你放do file的檔案夾執行。Stata與logit regressionMing-chi Chen社會
16、統計Page.36家戶月平均收入捐款機率捐款機率*0000055.08036.0-1log亦可用glm donation h_inc,family(binomial)link(logit)State與線性機率模型 前面的係數太小,因為收入是以元為單位,試以萬元作為單位。gen demi_inc=h_inc/10000 tab demi_inc看分佈狀況Ming-chi Chen社會統計Page.37以上得出線性機率模型linear probability model,LPM捐款機率P(y=1)=0.7028+0.008554*以萬元計的家戶月收入Stata&Logit regressionMi
17、ng-chi Chen社會統計Page.38的差距,其餘均相同。兩者僅在係數上有萬倍0000055.08036.0-1log054873.0803644.0-1log家戶月平均收入捐款機率捐款機率:之前以元為單位的模型以萬元計的家庭月收入捐款機率捐款機率logit regressionMing-chi Chen社會統計Page.39家戶月平均收入家戶月平均收入捐款機率*0548573.0803644.0*0548573.0803644.01ee也就是說,根據logistic迴歸模型的預測,受訪者的家庭月收入10萬元會有79.5的機會捐款。7947.087.487.3113522.13522.1
18、10*0548573.0803644.010*0548573.0803644.0eeee若某個受訪者的家庭月收入為10萬元,則捐款的機率為Stata與logit regressionMing-chi Chen社會統計Page.40Stata logistic指令產生的係數不是logistic regression model的係數,而是odds ratio,也就是e,這也可以用計算機取反對數自行計算出來。詮釋連續自變數的logit迴歸係數Ming-chi Chen社會統計Page.41)ratio odds63905.0%(.639563905.105639.1oddsXregression
展开阅读全文