书签 分享 收藏 举报 版权申诉 / 125
上传文档赚钱

类型第9章数据分析一资料课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5186677
  • 上传时间:2023-02-16
  • 格式:PPT
  • 页数:125
  • 大小:914KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第9章数据分析一资料课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 分析 资料 课件
    资源描述:

    1、1第九讲第九讲 数据分析(一)数据分析(一)余可发余可发 博士博士江西财经大学工商管理学院2345678910问题问题025:您认为打工的外地人对北京市的社会秩:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)序是否有影响?(单选)1有很大影响 2有较大影响 3没有影响 4不好说 4编码答案112)制作编码表12变量名变量名码位码位码数码数尺度尺度编码编码不适用不适用不知道不知道未回答未回答缺失值缺失值备注备注num1-44IntervalDirectW0151CategoryD99W01a6-72ID9999W0281CD99W0391OrdinalD99W04101OD0,9W05

    2、.1111C0-199W05.2121C0-199W05.3131C0-199W05.4141C0-199W05.5151C0-199W05.6161C0-199W05.7171C0-199W06181CD99W07191CD79W08.120-212ID97989999W08.222-232ID97989999W08.324-252ID97989999直接过录直接过录0-1编码编码变量名变量名:一个数据文件中一个数据文件中,一个变量只能有一个唯一名称。一个变量只能有一个唯一名称。码位:某一变量在码位:某一变量在数据文件中占据的栏位数据文件中占据的栏位码数:码数:某一变量由几位数组成。某一变量

    3、由几位数组成。该变量是数值型(该变量是数值型(Numeric)如定距、定比,如定距、定比,还是字串型(还是字串型(String),如定类、定序。),如定类、定序。前者在统计中可以做高级运算,后者则不可以。前者在统计中可以做高级运算,后者则不可以。不适于被访人回答的问题的编码。不适于被访人回答的问题的编码。一般采用一般采用7,97,997等。等。被访人回答不知道时的编码。被访人回答不知道时的编码。一般采用一般采用8,98,998等。等。被访人拒绝回答某变量时的编码。被访人拒绝回答某变量时的编码。一般采用一般采用9,99,999等。等。问卷中出现漏答时的处理编码。问卷中出现漏答时的处理编码。一般采

    4、用一般采用9,99,999等。等。13外部式录入内部式录入采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。采用SPSS数据编辑器(SPSS Data Editor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。14151617VAR000016.005.004.003.002.001.00Count22201816141218VAR000011717.017.017.02020.020.037.02121.021.058.

    5、01616.016.074.01313.013.087.01313.013.0100.0100100.0100.01.002.003.004.005.006.00TotalValidFrequencyPercentValidPercentCumulative Percent19270.31001001iixxfffxfxfxnxx为组频数 2021hfSfLMmme1212223万元 85.103101310230100212111hfSfLMhfSfLMmmemme24hLMo2112526万元 四分位差万元 万元 606243.9662.109262.109101310343010043.

    6、961073430901331.QQQQ27nxxnxxs2)(28fxfxffxxs2)(29是否喜欢现在居住的城市050100150200北京广州上海沈阳成都不喜欢一般喜欢 30德国德国英国英国法国法国意大利意大利西班牙西班牙荷兰荷兰瑞典瑞典瑞士瑞士比利时比利时奥地利奥地利土耳其土耳其挪威挪威丹麦丹麦中国中国芬兰芬兰葡萄牙葡萄牙希腊希腊俄罗斯俄罗斯 200 400 600 800 1000 1200 1400 xxx年中国内地与欧洲各国市场调查业年中国内地与欧洲各国市场调查业 的市场规模比较(年营业额:百万美元)的市场规模比较(年营业额:百万美元)31对环境问题的关心情况2%8%15%31

    7、%44%根本不知道不太关心一般关心比较关心很关心32 32.5 2 15元元 14元元 13元元 12元元 11元元 10元元 9元元 8元以下元以下33 森氏森氏满满 10.5%意意 4度度 沃力沃力 中美中美 3 14.4%38.5%2 1 20%40%首都知名度首都知名度 郑州市主要纯水品牌的知名度、美誉度和市场占有率郑州市主要纯水品牌的知名度、美誉度和市场占有率 34对现在居住城市的喜欢程度对比-3.5-6-10.5-8-13.578.571.556.554.543.5成都上海广州沈阳北京-20%0%20%40%60%80%100%系列1系列235对郑州市三大纯水品牌和纯水公司的满意程

    8、度比较0246水质口感价格送水及时度送水员的态度举止送水服务拨通订水热线难易程度接线员态度信誉知名度宣传力度美誉度系列1系列2系列336373839频数分布表频数分布表一般性描述一般性描述探索性分析探索性分析交叉列表交叉列表计算连续变计算连续变量的相对比量的相对比4041待分析变量的列表待分析变量的列表定义需要计算的统计量定义需要计算的统计量定义需要绘制的统计图定义需要绘制的统计图定义表格定义表格42百分位数百分位数离散趋势离散趋势集中趋势集中趋势43统计图类型统计图类型直方图加上正态曲线直方图加上正态曲线以频数绘制条图或饼图以频数绘制条图或饼图无图形无图形条图条图饼图饼图直方图直方图以构成比

    9、绘制条图或饼图以构成比绘制条图或饼图44按数值升序按数值升序按数值降序按数值降序按频数升序按频数升序按频数降序按频数降序45Statistics身 高9991160.639.2659160.100161.08.403870.6235.226.077.405.15569.1136.4205.5160478.0154.700160.100166.500ValidMissingNMeanStd.Error of MeanMedianModeStd.DeviationVarianceSkewnessStd.Error of SkewnessKurtosisStd.Error of KurtosisRa

    10、ngeMinimumMaximumSum255075Percentiles4647身高202.5197.5192.5187.5182.5177.5172.5167.5162.5157.5152.5147.5142.5137.5身高Frequency160140120100806040200Std.Dev=8.40 Mean=160.6N=999.0048495051Descriptive Statistics999136.4205.5160.6398.403899932.5108.059.58210.7649999身高体重Valid N(listwise)NMinimumMaximumMean

    11、Std.Deviation52Descriptive Statistics999-2.884255.33824.00000001.00000000999-2.515794.49776.00000001.00000000999Zscore:身高Zscore:体重Valid N(listwise)NMinimumMaximumMeanStd.Deviation5354统计量统计量图图分组变量列表分组变量列表待分析变量列表待分析变量列表5556箱图绘制方式箱图绘制方式茎叶图茎叶图直方图直方图57缺失值的缺失值的处理方式处理方式58Case Processing Summary45999.8%1.2%

    12、460100.0%53899.6%2.4%540100.0%性别男女腰围NPercentNPercentNPercentValidMissingTotalCases59Descriptives80.628.449179.74581.51080.30279.00092.5749.621559.5117.558.013.800.535.114.061.22778.076.451077.19078.96277.66476.500109.42310.460552.7118.065.313.000.709.105.698.210MeanLower BoundUpper Bound95%Confidenc

    13、eInterval for Mean5%Trimmed MeanMedianVarianceStd.DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosisMeanLower BoundUpper Bound95%ConfidenceInterval for Mean5%Trimmed MeanMedianVarianceStd.DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis性别男女腰围StatisticStd.Error60538459N=性别

    14、女男腰围14012010080604059772963234539870851517842103527184573761626364210:H0Ht,ttt,00:H0H6566210:H21:AH6721:AH210:H68697071720100:HHnsxU05.096.12U2U2UU 730100:PPHPPHnPPPpU)1(05.096.12U2U2UU 74211210:HH22212121nsnsxxU05.096.12U2U2UU 75211210:PPHPPH22211121)1()1(nppnppppU05.096.12U2U2UU 76xx770975.000097.

    15、030053.0nxxxx:75.9H000AH:7879210:H21:AH83.651x77.592x7299.5921S8747.4222S8494.1S 22112122nnSSxx80*28.3S)()(u)21()21(2121xxxxxxxx81820100:HH1nsxt01.0)1(nt)1(nt)1(ntt83211210:HH)11(2212122221121nnnnsnsnxxt01.0)2(21 nnt)2(21 nnt)2(21 nntt84211210:ppHppH2122112121)11)(1(nnpnpnpnnppppt 其中 01.0)2(21 nnt)2

    16、(21 nnt)2(21 nntt85x8600:H0:AH*667.635005200 xSuxt87df888921:AH210:H47.981x65.1322x3267.821S2350.522S5034.1S 222121nSSxx90735.225034.165.13247.982121xxSxxt10)1(2ndf919221:AH210:H15.281x61.282x93)11()1()1()()(221121222211nnnnxxxxSxx2121222221212111)1()1(nnnnnxxnxx332.0942121xxSxxt381.13332.061.2815.2

    17、8 91516)1()1(21)()(nndf(4)查临界t值,作出统计推断 当df=9时,查临界值得:t 0.05(9)=2.262,|t|1.381 0.05,接受 ,表明两种工艺的粗提物中茶多糖含量无显著差异。210:H95kiiiiEEQX122)(iQiiEk9697 两个配对样本的非参数检验两个配对样本的非参数检验 两个独立样本的非参数检验两个独立样本的非参数检验 多个独立样本的非参数检验多个独立样本的非参数检验 多个相关样本的非参数检验多个相关样本的非参数检验98治疗前(治疗前(x):):24.00 16.70 21.60 23.70 37.50 31.40 14.90 37.3

    18、0 17.90 15.50 29.00 19.90治疗后(治疗后(Y):):23.10 20.40 17.70 20.70 42.1 36.10 21.80 40.30 26.00 15.50 35.40 25.5099100101 Wilcoxon符号检验符号检验 适用于连续变量适用于连续变量 sign符号检验符号检验 适用于对无法用数字计量的情况进行比较,如两分类,对于适用于对无法用数字计量的情况进行比较,如两分类,对于 连续资料最好不要使用连续资料最好不要使用 McNemar 实际上就是常用的配对实际上就是常用的配对2检验,只适用于二分类资料检验,只适用于二分类资料 Marginal H

    19、omogeneity 是是McNemar法向多分类情形下的扩展,适用于资料为有序法向多分类情形下的扩展,适用于资料为有序 分类情况分类情况配对样本的非参数检验配对样本的非参数检验102Exact:用于计算确切概率:用于计算确切概率只给出近似概率只给出近似概率 蒙特卡罗方法蒙特卡罗方法给出精确概率值,并给出精确概率值,并可设定耗时限制可设定耗时限制103v共共12对指标,指标值治疗后小于治疗前的有对指标,指标值治疗后小于治疗前的有3对,其平均秩次为对,其平均秩次为2.83,总秩和为,总秩和为8.50;治疗后大于治疗前的有;治疗后大于治疗前的有8对,其平均秩次为对,其平均秩次为7.19,总秩和为,

    20、总秩和为57.50;治疗后等于治疗前的有;治疗后等于治疗前的有1对。对。(1)秩次表秩次表104v Wilcoxon符号秩检验的统计量符号秩检验的统计量Z值值-2.179,近似概率,近似概率(Asymp.sig.)P0.029,按,按0.05的水准的水准可以认为治疗前后该指可以认为治疗前后该指标值的差别具有统计学意义。标值的差别具有统计学意义。(2)检验统计量检验统计量105例例2 在缺氧条件下,观察在缺氧条件下,观察4只猫与只猫与12只兔的生存时间(分钟),只兔的生存时间(分钟),结果如下。试判断猫、兔在缺氧条件下生存时间的差异是否具结果如下。试判断猫、兔在缺氧条件下生存时间的差异是否具有统

    21、计学意义。数据见有统计学意义。数据见npb.sav:生存时间(猫):生存时间(猫):25 34 44 46 46生存时间(兔):生存时间(兔):15 15 16 17 19 21 21 23 25 27 28 28 30 35两独立样本的非参数检验两独立样本的非参数检验106107108109 默认的默认的Mann-Whitney U检验最常用检验最常用110v 生存时间样本共生存时间样本共19例,其中猫的生存时间例,其中猫的生存时间5例,例,其平均秩次为其平均秩次为15.70,总秩和为,总秩和为78.50;兔的生存时;兔的生存时间间14例,其平均秩次为例,其平均秩次为7.96,总秩和为,总秩

    22、和为111.50。(1)秩次表秩次表111v 给出给出Mann-Whitney U、Wilcoxon W 统计量和统计量和Z值,近似值概率值,近似值概率(Asymp.Sig)和精确概率值()和精确概率值(Exact.sig)均小于)均小于0.05,结论一致,表明,结论一致,表明猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫(15.7)、兔()、兔(7.96)来看,可以认为缺氧条件下猫的生存时间长于兔。)来看,可以认为缺氧条件下猫的生存时间长于兔。(2)检验统计量检验统计量112例例3 14名新生儿出生体重按其母亲的吸

    23、烟习惯分组(名新生儿出生体重按其母亲的吸烟习惯分组(A组:每日吸烟多组:每日吸烟多于于20支;支;B组:每日吸烟少于组:每日吸烟少于20支;支;C组:过去吸烟而现已戒烟;组:过去吸烟而现已戒烟;D组:组:从不吸烟),具体如下。试问四个吸烟组出生体重分布是否相同?数据从不吸烟),具体如下。试问四个吸烟组出生体重分布是否相同?数据见见npc.sav:A组:组:2.7 2.4 2.2 3.4 B组:组:2.9 3.2 3.2C组:组:3.3 3.6 3.4 3.4多个独立样本的非参数检验多个独立样本的非参数检验D组:组:3.5 3.6 3.7113114115设置组别变量的最小值设置组别变量的最小值

    24、1、最大值、最大值4116117 Kruskal-Wallis H检验:检验:k=3个独立随机连续分布样个独立随机连续分布样本的比较,而正态性假设及等方差假设存在问题时,它本的比较,而正态性假设及等方差假设存在问题时,它可以进行总体是否相同的检验。可以进行总体是否相同的检验。Median:中位数检验,三种方法中检验效能最低,但:中位数检验,三种方法中检验效能最低,但对于拖长尾的对称分布很有效对于拖长尾的对称分布很有效 Jonckheere-Terpstra:对连续性资料或有序分类资料:对连续性资料或有序分类资料都适用,并当分组变量为有序分类资料时,此法的检验效都适用,并当分组变量为有序分类资料

    25、时,此法的检验效能要高于能要高于Kruskal-Wallis法。法。118v 母亲每日吸烟多于母亲每日吸烟多于20支组共支组共4名新生儿,体重平均秩次名新生儿,体重平均秩次3.75;每;每日吸烟少于日吸烟少于20支组共支组共3名新生儿,体重平均秩次名新生儿,体重平均秩次5.00;过去吸烟现;过去吸烟现已戒烟组共已戒烟组共4名新生儿,体重平均秩次名新生儿,体重平均秩次9.38;从不吸烟组共;从不吸烟组共3名新生名新生儿,平均秩次儿,平均秩次12.50。(1)秩次表秩次表119v Kruskal-Wallis H统计量的近似显著概率为统计量的近似显著概率为0.023,按,按0.05的水准拒绝原假设

    26、,可认为四个组中至少有两组出生体重的水准拒绝原假设,可认为四个组中至少有两组出生体重的总体分布不同。的总体分布不同。(2)检验统计量检验统计量120例例4 三批甘蓝叶样本分别在甲、乙、丙、丁四种条件下测量核黄素浓度,三批甘蓝叶样本分别在甲、乙、丙、丁四种条件下测量核黄素浓度,试验结果如下。问四种条件下的测量结果的差异是否具有统计学意义?数试验结果如下。问四种条件下的测量结果的差异是否具有统计学意义?数据见据见npd.sav:多个相关样本的非参数检验多个相关样本的非参数检验121122 Friedman:常用的多个配伍样本的非参数检验:常用的多个配伍样本的非参数检验 Kendalls W:可进一步给出一致性程度:可进一步给出一致性程度 Cochrans Q:是两配对样本:是两配对样本McNemar方法的推广,方法的推广,只适合二分类变量只适合二分类变量123(1)秩次表秩次表v 经经Friedman Test,近似概率(,近似概率(Asymp.sig.)P0.042,小于,小于0.05,故拒绝原假设,认为四种条件下测量结果的差别具有统计学意义的。故拒绝原假设,认为四种条件下测量结果的差别具有统计学意义的。(2)检验统计量检验统计量124125谢谢!谢谢!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第9章数据分析一资料课件.ppt
    链接地址:https://www.163wenku.com/p-5186677.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库