多层统计分析模型课件.ppt

上传人（卖家）：晟晟文业

文档编号：5188184

上传时间：2023-02-16

格式：PPT

页数：70

大小：654KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《多层统计分析模型课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多层统计分析模型课件

资源描述：: 1、多层统计分析模型陶庄中国CDC卫生统计研究室绪论青蛙与池塘（“Frog-pond theory”）n青蛙学生个体；n池塘学校环境；n学生的成绩好坏不仅受到个体本身的影响，也受到学校环境的影响！多层数据n低一层（低水平）单位（个体）低一层（低水平）单位（个体）的数据的数据嵌嵌套（套（nested）于于高一层（高水平）的单位高一层（高水平）的单位（组群）（组群）之中。之中。n结局变量，个体解释变量，结局变量，个体解释变量，场景变量场景变量（contextual variables）组内观察相关（within-group observation dependence）n同一组内的个体，较不同组的个体
2、而言，在观念、行为等很多方面更为接近或相似；即便不是刻意分组，也是如此。n组内同质（within-group homogeneity），组间异质（between-group heterogeneity）n很小的相关将导致很大的I类错误。多层数据的常见来源n复杂抽样；n多中心临床试验；n纵向研究（longitudinal studies）与重复测量（repeated measures）；n“高低搭配”；nMeta分析；n多层统计模型的研究内容n哪些个体解释变量会影响结局变量；n哪些场景变量会影响结局变量；n个体解释变量对结局变量的影响是否会受到场景变量的影响。多层统计模型出现前对多层数据进行分析
3、的探索探索（1）分别估计n在个体水平和组群水平分别进行分析；n试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。jjjijijijxylevelxylevel1010:2:1探索（2）传统回归n用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层（cross-level）交互作用。ijjijjijijzxzxy3210探索（3）两步模型（two-stage model）n第一步模型，对各组分别进行同一回归模型估计，获得一系列的系数；n对这些系数的恒定性进行检验；n如果不恒定，则进行第二步模型，以组变量为因变量，系数为自变量进行回归。探索（3）两步模型的问题n无论哪一步均使用OL
4、S，并不适用；n当组群过多，则十分麻烦；n某些组内样本量很少时，进行回归不稳定；n将每个组群认为是不相关的，忽略了其为从一大样本中抽取的事实。多层统计模型的出现n研究的学者很多；n系统的主要为两；n研究的理论没有根本上的分歧；n双方研究成果的发布时间基本相同（上世纪80年代末90年代初）；n分别有各自分析的成熟的软件；n目前，大家基本上接受两组人分别独立开发出同一模型的结果。S.Raudenbush与A.Brykn模型称为：hierarchical linear model；n软件为：HLMH.Goldsteinn模型称为：multilevel models；n软件为：MLwiN（早期版本称M
5、L3，MLn）多层统计模型的名称nmultilevel modelsnhierarchical linear modelnrandom-effect modelnrandom coefficient modelnvarious component modelnmixed-effect modelnempirical Bayes model多层统计模型的优点n同时分析组效应和个体效应；n不需有独立性假设；n对稀疏（sparse）数据，即每组样本很少的数据，特别有效；n特别适合对发展模型（GM）的分析。多层统计模型的局限性（1）n模型复杂，不够简约；n需较大样本以保证稳定性；n组群数量较少，会出现
6、偏倚；n高水平单位并非严格抽样获得；n某些场景变量通常是各组个体的聚集性测量，而不是总体内个体的聚集性测量；多层统计模型的局限性（2）n研究对象一般具有流动性，即受到群组影响的程度不同，虽可用出入时间进行控制，但此信息一般不可知；n依然存在自变量带有测量误差的问题，必需借助于结构方程模型（SEM）；n完全嵌套假设，即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。用于多层统计模型的软件n专门软件：HLM；MLwiN；SuperMIX；aML；EGRET；LISREL；Mplus等。n通用统计学软件：SAS；SPSS；stata；S-plus/R等。线性多层统计模型基础知识组内相关系数（Intr
7、a-Class Correlation Coefficient,ICC）222bwbICCn组间方差占总方差的比例。n可使用对“空模型”的拟合获得；n值域在0到1之间，越接近1，说明相关越明显；n对ICC的检验是是否选择多层模型的依据。两水平模型的公式表达空模型（又称截距模型）ijjijjjijjijeuytotaluleveleylevel00000000:2:1两个水平1自变量、一个水平2自变量ijijjjijjijijjijjjjjjjijijjijjijezuuzwzxwytotaluwuwlevelezxylevel1101111110111010011111010101000111
8、10:2:1一般模型ijqjQqqijjqijQqMmmjqmQqqijqPppijpMmmjmijQjMmmjQmQQjjMmmjmjjMmmjmjijQqqijqjPppijpjijeuzuzwzxwytotaluwuwuwlevelezxylevel1011101100010111101010000110:2:1SAS中的公式表达eZXY模型假设0,0,00,0102120120120102jijjijuuuujjijueCovueCovNuuNe模型假设SAS的表达IRNGRGeuVareuEuuuuuuuuu2222122022122120120220120000000固定和随机回归
9、系数Level 2 vari ati onLevel 2 vari ati onI ntake achi evem entI ntake achi evem entExamExamScoreScore0 01 12 23 34 45 56 60 00.50.51 1模型估计方法最大似然法（ML）n包括普通最大似然法（ML）和限制性最大似然法（REML）；n两者用于估计的残差基础不同，后者的残差包括所有的随机变异；nREML是SAS的MIXED过程和HLM的默认算法；nREML通常用于组数量较少的模型；nML可以用于模型比较，而REML不行；nREML估计较优，而ML较快。最小二乘法（LS）n包
10、括迭代广义最小二乘法（IGLS）和限制性迭代广义最小二乘法（RIGLS）n都以普通最小二乘估计（OLS）为初始值进行迭代；n地位及相对关系大致等同于ML和REML；n是MLwiN使用的算法。经验Bayes方法（EB）n“收缩估计（shrinkage estimator）”n以可靠性权重确定最后的估计值；n对于某些样本量很小的组，则更多的使用总样本的信息，进行“借力（borrow strength）”000*01jjjj空模型的可靠性权重ICCnICCnnjjjuuj11/220200对模型拟合的评价nSAS给出：-2LL，AIC，AICC，BIC等统计量，其值越小越好；n但只在比较模型时有用；
11、n模型收敛的速度可以说明拟合的好坏。假设检验n全局检验：F检验；n局部检验：对方差-协方差估计使用Wald Z检验；对系数使用t检验；n单测检验，P值需除2；n其它可使用LR等。模型比较n对于嵌套模型，使用LR检验；n对于非嵌套模型，使用AIC，AICC和BIC检验；n无论何种，均需使用ML进行估计。对变异的解释程度（RB）2020202020222222111零模型所设模型零模型所设模型零模型零模型所设模型零模型所设模型零模型uuuuullRBRB对变异的解释程度（SB）nSBSBululllllllllllll22022220212222222222221212121211,11总总总总总
12、总总总总总总总零模型所设模型零模型所设模型零模型零模型所设模型零模型所设模型零模型示例与SAS实现例1：对医生满意度调查nPatid：病人编号；nPhys：医生编号；nAge：病人年龄；nSat：满意度分数；nPractice：执业时间；空模型ijjijjjijjijeuSatueSat00000000空模型n2步迭代完成；n所有随机系数的检验均高于检验水准；nICC=0.00292/（0.00292+1.291）=0.23%n不用进一步拟合多水平模型例2：SNA角度测量值nid：观察对象编号；nocca：每次观察编号；nAge：病人年龄；nSNA：角度；nagg：场景变量；空模型n3步迭代完
13、成；n所有随机系数的检验部分低于检验水准；nICC=0.4296/（0.4296+0.5629）=43.28%n应进一步拟合多水平模型空模型加入场景变量ijjjijjjjijjijeuaggSnauaggeSna01010001010000空模型加入场景变量n3步迭代完成，随机截距有意义；n所有随机系数的检验部分低于检验水准；n该模型-2LL=345.8，空模型-2LL=352.2，则LR2=6.4，p=0.0114；nRB=1-0.3330/0.4296=0.2248;加入水平1变量（固定效应）ijjijjijjjjijijjijeuageaggSnauaggeageSna011010001
14、0100010加入水平1变量（固定效应）n3步迭代完成，随机截距有意义；n所有随机系数的检验部分低于检验水准；n该模型-2LL=199.1，前模型-2LL=345.8，则LR2=146.7，p=0.000；检验水平1的随机性ijijjjijjijjjjjjijijjjijeageuuageaggSnauuaggeageSna1010101001101010100010检验水平1的随机性n4步迭代完成，2个随机系数均有意义；n所有随机系数的检验部分低于检验水准；n该模型-2LL=185.6，前模型-2LL=199.1，则LR2=3.5，p=0.1738；跨层交互作用评估ijijjjijjijji
15、jjjjjjjijijjjijeageuuageaggageaggSnauagguaggeageSna1011110101001111101010100010跨层交互作用评估n5步迭代完成，随机截距有意义，但交互项没意义；n-2LL等都对前模型有所增加；n跨层交互作用不显著。建模一般步骤n运行空模型以获得ICC，判断是否进行多层模型拟合；n加入水平2解释变量；n加入水平1解释变量；n检验水平1随机斜率；n检验跨水平交互作用（全模型）。发展模型传统纵向数据分析方法的局限性n重复测量的方差分析；n假设残差方差在各时间点上相等；n或，假设任何时点之间的残差方差的差异相等（即所谓“球面（spheric
16、ity）”假设或称“环形（circularity）”假设）；n要求完整均衡数据，即等时距，无缺失。发展模型的优点n可处理缺失和不完整数据；n可处理不等时距问题；n不要求对象内独立即其它的限制性假设；n可以容易的加入时间依赖自变量。发展模型与一般多层模型的区别ijijjjijety10SAS程序nproc mixed covtest ic;nclass id timec;nmodel y=trt|time/s ddfm=KR notest;nrandom int time/subject=id G type=UN;nrepeated timec/subject=id R type=AR(1);n
17、run;离散型结局变量的多层统计模型广义线性模型n随机成分（random components）：指的是分布，一般为指数族分布；n系统成分（systematic component）：即传统回归模型形态；n链接函数（link function）广义线性混合效应模型n对广义线性模型和多层统计模型的结合和扩展。广义线性混合效应模型的估计方法 duupuYfYL|,n线性化法（linearization methods）n数值法积分近似法（integral approximation with numerical methods）线性化法n使用泰勒展开式等技术来近似估计该积分似然函数；n不使用原始数
18、据，而是按原始数据产生伪数据（pseudo-data）进行估计；nSAS中的GLMMIX过程。线性化法的优点和局限性n模型的联合分布难于确定，也可以胜任；n可拟合较多随机效应；n允许不同结构的R矩阵；n可以使用REML等；n由于使用伪数据进行拟合，不能使用LR进行模型比较；nSAS提供的随机效应的标准误有偏，不能用于假设检验。数值法积分近似法n使用原始数据估算边际积分似然函数的近似值；n默认的是适应性高斯求积法；n并可使用多种优化技术，默认的是二元准牛顿算法；nSAS中的NLMIXED过程。数值法积分近似法的优点和局限性n使用原始数据进行拟合，可以使用LR进行模型比较；nSAS提供显著性检验；n非常耗时，且不易收敛；n不能随意设定R的结构；n只能使用ML。各种离散型结局变量模型n多层logistic回归模型多层累积logistic回归模型；多层多项logistic回归模型；n多层poisson回归模型；n谢谢大家！

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：多层统计分析模型课件.ppt
链接地址：https://www.163wenku.com/p-5188184.html

晟晟文业

内容提供者

实名认证

联系作者