漫谈统计陷阱New课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《漫谈统计陷阱New课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 漫谈 统计 陷阱 New 课件
- 资源描述:
-
1、1統計思考(Statistical Thinking)Statistics is the science of learning from data(資料,數據)Data are numbers,but they are not“just numbers”資料(data)+說明(context)=資訊(information)例:50(just a number)50公斤是可接受的體重50分則是不及格的分數統計是將資料(數據)適當處理後,彙整成資訊的過程2Always Look at the Data一般認知未必為真真實資料才能提供正確的資訊某年美國黑人 vs.美國白人 之比例 白人 認為 2
2、3.8%vs.49.9%(average)人口調查局(Census Bureau):11.8%vs.74%交通大學的總學生數3資料勝過軼聞Data Beat Anecdotes軼聞(anecdotes)是令人印象深刻的事件,多為特例,可能產生誤導。研究資料才能提供正確的結論電纜線與白血病的案例傳聞:聽說電纜線產生的電磁場會引發白血病研究:五百萬美元經費歷經五年的研究顯示暴露在電纜線產生的電磁場與白血病沒有關聯E.W.Campion,“Editorial:power lines,cancer and fear,”New England Journal of Medicine,337,No.1(1
3、997).軼事,趣聞4留意隱藏變數Beware the Lurking Variable表面的資料未必可信比較兩航空公司的班機延誤率:America West 似乎較佳5留意隱藏變數(續)考慮隱藏變數:班機起飛城市 Alaska Airlines America West On Time Delayed On Time Delayed Los Angeles 497 62 694 117 Phoenix 221 12 4840 415 San Diego 212 20 383 65 San Francisco 503 102 320 129 Seattle 1841 305 201 61 To
4、tal 3274 501 6438 787 6留意隱藏變數(續二)每一個班機起飛城市的班機延誤率都是Alaska Airlines 較低7留意隱藏變數(續三)Hint:The hub of Alaska Airlines is in Seattle and the hub of America West is in Phoenix.資料來源A.Barnett,“How numbers can trick you,”Technology Review,October 1994,Department of Transportation.Simpsons paradox辛普森悖論(Simpsons
5、Paradox)u當研究兩個變數之間的關聯性,有可能存在一個隱藏隱藏變變數數(lurking variable),而當隱藏變數被考慮時,兩個變數之間的關聯性方向剛好與隱藏變數沒有被考慮時相反相反u隱藏變數會將樣本分成子群,當沒有考慮到這個有不同群組的因素時,可能會對兩個變量之關聯性得到錯誤的結論考慮以下兩組男性和女性申請大學的錄取率countsAcceptedNotacceptedTotalMen198162360Women88112200Total286274560percentsAcceptedNotacceptedMen55%45%Women44%56%男性男性被接受的比例較高:歧視?歧
6、視?(Simpsons Paradox)歧視?(Simpsons Paradox)分開成申請商學院和藝術學院之人數商學院商學院countsAcceptedNotacceptedTotalMen18102120Women2496120Total42198240percentsAcceptedNotacceptedMen15%85%Women20%80%在商學院有較高比例的女女性性被接受。歧視?(Simpsons Paradox)藝術學院藝術學院countsAcceptedNotacceptedTotalMen18060240Women641680Total24476320percentsAcce
7、ptedNotacceptedMen75%25%Women80%20%在藝術學院亦有較高比例的女女性性被接受。歧視?(Simpsons Paradox)u因此,各學院內相對於男性有較高比例的女性被接受。沒有任何對女性的歧視!u這是辛普森悖論的一個例子。當潛潛藏藏變變數數(申請學院:商學院或藝術學院)被忽略時的數據似乎顯示出對女性的歧視。然而,當學院因奇被考慮進來時,關聯性是相反相反的,而且反過來顯示存在對男性的歧視。13小心隱藏的變數13範例:冥想和老化(Noetic Sciences Review,Summer 1993,p.28)解釋變數:是否有作冥想的練習(yes/no)反應變數:與年齡
8、有關的某酵素之測量值一個人若很注意自己的健康也可能會影響此反應變數之結果同時,也可能會想嘗試冥想14資料來源很重要Where the Data Come from Matters專欄作家安蘭德斯(Ann Landers)以“如果可以重新再來,你是否還要孩子?”調查其讀者的意見得到一個聳動的結論:70%的父母認為有小孩不值得(約一萬封回信)另一問卷調查給所有父母有相同表達機會,結果顯示:91%的父母認為有小孩很值得15資料來源很重要(續)Ms.Landers 的讀者多為親子關係有問題的父母,調查結果自然偏頗網路調查、街頭訪問也有類似的情形16Variation is Everywhere變異處處
9、可見資料不可能一成不變個體變異(如身高體重)量測誤差統計幫助我們處理變異(variation)17結論的不確定性(Conclusions are not certain)乳房X光攝影(mammograms)是否可以降低乳癌死亡的風險?由13個 臨床試驗資料顯示,乳房攝影可以使5064歲女性死於乳癌的風險降低26%風險降低率之95%信賴區間(confidence interval)為17%34%H.C.Cox,“Editorial:benefit and harm associated with screening for breast cancer,”New England Journal o
10、f Medicine,338,No.16(1998)Statistics gives us a language for talking about uncertainty that is used and understood by statistically literate people everywhere.18在大部分的時候,讓我們陷入困境的,並非我們不知道的事物,而是我們認為不會讓我們陷入困境的事物。華德(Artemus Ward,美國幽默作家)19統計數字會撒謊統計數字會撒謊大仲馬的作品多曲折感人,而大仲馬又多私生子,所以,取笑譏諷他的人,往往把他的作品比作他的私生子。最使他頭痛
11、的是巴黎統計學會的秘書長李昂納,這人是大仲馬的朋友,每次舉統計數字的例子,總是說大仲馬的情婦和私生子有多少。有一年該統計學會開年會,大仲馬估計,李昂納又要大放厥詞,說他的壞話了。於是他請求參加年會,獲得了批准。果然不出大仲馬所料,李昂納又舉他的情婦和私生子的例子。李昂納報告完畢,請大仲馬致詞,一向不願在大庭廣眾之下發表演講的大仲馬,這次卻破例登臺說:“所有統計數字都是撒謊的,包括有關本人的數字在內。”聽眾哄堂大笑。(網路笑話大全網路笑話大全)20統計數字統計數字 vs.謊言世界上有三種謊言,就是謊言,天大的謊言,與統計數字統計數字There are three kinds of lies:li
12、es,damned lies,and statistics.-Benjamin Disraeli(18041881,英國首相,議員,保守黨政治家和文學人物)21是誰在讓數字說話?為什麼很多人會被統計數字騙了呢?有數據支持的論點,大家通常容易相信但讓數字說話的是人說實話?說謊話?故意操弄數據?還是只是對數據處理不當?統計,在一個重視事實的文化中非常有用,但也有人利用它作為惡意誇大或簡化、甚至隱藏或曲解事實以達到其特定目的之工具水能載舟也能覆舟22統計是必備知能現今,在報告社會經濟趨勢、商業狀況、民意調查和普查的數據時,統計方法或者統計術語是不可少的。但如果作者不能正確理解並恰當地使用這些統計語言
13、,而讀者又並不能真正了解這些術語的涵義,那麼,所敘述的統計結果對讀者毫無意義。“終有一天,統計思考會像閱讀與寫作能力一樣,成為公民不可不具備的能力。”(原文:“Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.”)威爾斯(H.G.Wells,18661946,英國著名科幻小說家)23HOW TO LIE WITH STATISTICS別讓統計數字馬扁了你【別讓統計數字騙了你】Darrell Huff著(1954)、鄭惟厚譯(20
14、05)天下文化出版 2425學習目標了解統計能如何騙人的招術壞蛋們早就會了,為了自衛,老實人也必須學會26.有內建偏差的樣本著名範例:美國總統選舉民調(FDR Poll)1936年Franklin D.Roosevelt(FDR)vs.Alf Landon民調預測共和黨候選人Landon會大勝,結果 FDR大勝民調這麼不準嗎?統計沒用嗎?原因:採用電話調查雖然樣本數很大但有嚴重內建偏差(bias)只有有錢人才裝得起電話27有內建偏差的樣本1950年代在評論紐約的某篇報導時曾寫道:1924年畢業的耶魯大學畢業生,平均年薪為25111美元。PS.當時一般人的平均年收入低於10000美元這份報導有哪
15、些可能的誤導?28假設數字和抽樣上沒有任何造假數字的精確程度令人懷疑(多報 or 少報)樣本足以代表全體嗎?問卷設計的適確性?就算樣本夠大,問卷設計得宜,但受訪者常常會想要給一個讓訪問員喜歡的答案,訪問員也常挑選特定族群訪問有時我們也許得拐彎抹角用別的方法而非直接提問29面子問題曾有人挨家挨戶的訪問你家讀什麼雜誌?p結果顯示許多人喜歡高格調的,讀八卦雜誌的人卻不多,但這卻和出版商的數據差異甚大 有什麼替代的方法?30內建偏差之來源有代表性的樣本,是指把各種偏差來源都排除的樣本。電話民調有哪些可能的內建偏差?在火車站、大賣場做民調又可能忽略了哪些族群?若想知道大家平均每天刷幾次牙、洗幾次澡,抽樣
16、得到的數據會準確嗎?若否,高估或低估?31內建偏差之來源敏感性問題 面子、金 錢、道德規範、法令規範 etc.樣本涵蓋率不足問卷低回收率自發性回應32抽樣方法簡單隨機抽樣(simple random sampling)l由母體隨機抽樣而得l符合許多統計理論的假設l有些情況難以取得,或花費太高分層抽樣(stratified random sampling)l將母體依特性分成若干組(稱為層,層內同質性高),甴每層依比例隨機抽樣l民調、市場調查常用l有些情況層與層之間可能難以辨認,每一層的比例也難以拿捏 332.精心選擇的平均(Average)三個常用的中心(central tendency)測度平
展开阅读全文