信度与效度分析(qiang)课件.ppt

上传人（卖家）：晟晟文业

文档编号：4344868

上传时间：2022-12-01

格式：PPT

页数：85

大小：255.08KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《信度与效度分析(qiang)课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 信度分析 qiang 课件

资源描述：: 1、第十七章信度与效度分析在科学研究中采用的主要方法有调查研究(survey)和实验研究(experimental study)，尤其是调查研究被广泛用于公共卫生、临床医学、社会学、教育学等领域。调查研究的重要内容之一就是制定调查表或问卷。问卷以及调查质量反映在调查结果的真实性和可靠性两个方面，应采用一定的统计指标和方法加以定量考评。本章主要介绍信度(reliability)和效度(validity)分析方法，特别适合于各项目均为线性方式或等级方式的问卷或量表，如心理测量、教育测量、态度测量、生命质量测量等的标准化测定量表。第一节信度及其评价方法一、信度的概念信度，指量表测量某种特质(属性
2、)或概念的结果的可靠性(dependability)、稳定性(stability)和一致性(consistency)。关于信度尚无公认的定义，一般认为信度是指测量结果反映出系统中偶然误差引起的变异程度，也就是多次重复测量中结果的重现性，换言之，随机误差的变异。信度的大小用信度系数(reliability coefficient)来衡量。二、信度的数学模型在经典测量理论中，Spearman 分数模型起着重要的作用。该模型指出任何测量所得的分数(X)都是由反映对象稳定特质的真分数(T)和由随机因素造成的误差分数(e)构成，即：(17.1)并假定：(1)e 满足标准正态分布；(2)T，e相互独立；
3、(3)T，e 以简单的线性可加性结合。eTX 这样，实测分数的方差可分解为真实分数的方差与误差分数的方差之和，即：(17.2)于是，信度可定义为真实方差与实测方差的比值，也就是总方差中真实方差所占的比例：(17.3)222eTX22/XTr 显然，r越大，说明随机误差的作用越小，测定结果越可靠。由于真实分数的方差无法得到，因此上式可转化为：(17.4)22/1Xer三、信度的评价方法 (一)重测信度重测信度(test-retest reliability)是在一定时间间隔(所测定的特质或概念尚未发生改变)中运用同一量表作重复测量所得的信度系数，也称为稳定系数，因为它说明了使用同一测量工具重复
4、测量时个体分数的稳定性。重测信度一般用两次测定间的相关系数来衡量。根据所测定的特质的数据表现方式可采用积矩相关系数、等级相关系数、列联系数等来表示(参见相关分析有关章节)。对于标准化的测定量表，所测定的特质均以量化分的方式给出，而且多半服从正态分布，因此可直接计算积矩相关系数。值得注意的是，重测信度考评中，不同种类的受试者重测间隔期限不尽相同，原则上应在其特质无变化的期间内进行。(二)复本信度复本信度(equivalent-form reliability)也称替代信度(alternative-form reliability)或平行信度(parallel-form reliability)
5、，是以两份等效量表分别做出测量来评价信度系数。即使用相同难度、内容和形式而具体条目不同的两份量表(互为复本)来评价信度。两量表测定结果的相关系数即为复本信度系数。该法弥补了重测信度采用完全相同的测量所带来的一些弊端。但对于量表的设计要求较高，实际中很难得到两份等价的量表，使其应用大受限制。(三)分半信度前述的重测信度或复本信度，要对每个个体进行两次测定，这较麻烦，而且要求受测者参加两次内容相似的测量也比较困难。为此，人们更愿意采用一次性测定的评价方法，分半信度(split-half reliability)正是如此。分半信度是在一次测量后将条目分为相等的两部分，分别计算两部分的得分并以其相关
6、系数作为信度指标。这实际上考察的是指标的一致性，但因测量同一特征的指标间应关系密切，故具有一致性则说明结果可信。显然，k个条目的量表分半方法可有k!/(k/2)!(k/2)!种，如10个条目的量表有252种分法。那么，采用哪种分法呢？实际上各种分法得到的结果应很接近，因此可随机地抽取一种分法。通常采用奇数条目为一组，偶数条目为一组的分法。此外，两部分直接算出的相关系数()只表明一半条目的信度，需用Spearman-Brown公式来确定整个量表的信度(r)：(17.5)rh)1/(2hhrrr 值得注意的是，评价分半信度时，需要奇偶项的条目在难度、内容、得分变异等方面相似。否则可用下面的公式来计
7、算：(17.6)1(222221SSSr 式中，分别为第一，二部分条目得分总和的方差，为全部条目得分之和的方差。实际上，该式是下面的系数公式在分半法中的应用(取K=2)。SS1222,S2 (四)内部一致性信度内部一致性信度(internal consistent reliability)是目前比较流行的信度评价方法，是分半信度的推广。它无需将条目分为两个部分，而是从量表的构思层次入手，以内部结构的一致性程度对信度作出估计。内部一致性信度主要有Kuder-Richardson公式和克朗巴赫系数(Cronbachs alpha)。其中，Kuder-Richardson公式是克朗巴赫系数的的特
8、殊情况，仅适用于两分类条目。克朗巴赫系数为：(17.7)式中，K为整个量表或子量表的条目数，为第i个条目的方差，为整个量表或子量表得分的方差。)1(122SSKKiSi2S2 系数根据一次测定即可计算，使用简便，利用的信息也充分，因此，在实际工作中广为采用。因此，系数最好用于量表的低层结构(如领域、方面等子量表)的信度考察，通过每个子量表的考察结果再来综合反映整个量表的情况，而不宜仅计算一个总量表的系数。原因是低层结构中的条目都是反映同一方面的特征，相关性较高，而总量表要考虑一定的“覆盖面”，因而具有一定的“异质性”。如在生命质量测定中可以分别计算心理功能、躯体功能等领域的系数，在心理测
9、量中可以分别计算焦虑、抑郁、孤独等方面的系数。(五)评价者信度如果量表是他评而不是自评，则还要计算评价者间的一致性，此即评价者信度(inter-rater reliability)，也称评分者信度(inter-scorer reliability)。一致性的考察有多种方法，如常用的kappa系数(参见有关章节)、Kendall和谐系数W等。其中，kappa系数用于定性资料，和谐系数W用于等级资料。12/)(/)(322112NNKNRRWNiiNii 在标准化测量中，不论条目形式如何，一般均转化为计量的得分值来处理，因此可用方差分析的办法来计算评价者信度，也即用组内相关系数ICC(intr
10、a-class correlation coefficient)来评价。WMSKBMSWMSBMSICC）（1此外，前述的系数也可用于考察评价者信度，不过式(17.7)中符号的意义应重新确定。其中的K不再是量表的条目数，而是评价者人数，为第i个评价者的评分方差，为被测者在所有评价者上所得总分的方差。Si2S2四、影响信度的因素前已述及，信度分析在理论基础上来源于经典测验理论，特定于测定样本和条目特征。因此，样本的特点(如同质性)和条目的特点(如难度等)都影响着测定的信度。此外，信度还受以下因素影响：(一)测定的具体方式和程序比如采用测试者与被测者面对面的一一测定方式还是采用发放以后一定时
11、间再收回的方式、指导语是否清楚易懂、测定的场地及环境等都影响着测量的信度。(二)测定条目数的多少凭经验，只有一个条目的测验不如有10个条目的测验可靠。研究表明，在一定限度内，测验的条目越多信度越高。前述的分半信度需要进行校正就是因为由一半条目构成的量表条目数减少，低估了信度。(三)测定者与被测者测定者的身份和态度不同，常能影响测定的信度，如在我们进行的生命质量评定中，测定者以研究人员的身份和以医生的身份出现是不一样的，后者给被测者的感觉是为了了解其健康情况，是为他们着想。受测者的特征(如文化程度、对测定的认识等)也都影响着测定的信度。(四)分数分布范围的影响信度是用相关系数来进行评价，而
12、相关系数受变量的取值范围(全距)影响。测验得分的分布范围越大，信度越高。因此，在测验中往往要选取不同层次的被试者，一方面增加样本的代表性，另一方面也增加测验的信度。第二节效度及其评价方法一、效度的概念效度即测量工具(如量表)的有效性和正确性，亦即准确度(accuracy)。意指量表测定了它打算(所要)测定的特质或功能(而不是其它特质或功能)以及测定的程度。它包含两层意思：(1)测量了什么；(2)测的程度。比如量表是否测量了生命质量，躯体功能分量表是否测量了躯体功能，其程度怎样。效度具有特殊性和相对性，即每个测量工具只对某特殊目的有效，仅能对其特定项目作正确的度量，或者说测验的效度总是针对着
13、要解决的问题来说的，亦即针对着打算作出的应用来建立的。收集大量资料和证据来检验测验效度的过程称为效度验证(validation)。严格地说，任何测验在正式实施以前都应做出效度验证。二、效度的数学模型式(17.2)中的真值方差可进一步分解为共同性质所造成的方差(共性方差，)和个别性质所造成的方差(个性方差，)。前者反映所测量的特质引起的变异，后者反映其它特质引起的变异。即：(17.11)2C2I2222eICX于是，效度(V)可定义为与测量特质有关的真分数方差与总方差的比值：(17.12)22/XCV 与测量特质有关的变异往往要通过与外部标准的比较才能判断，因此，效度是指某测量与外部标准之间关
14、系的程度。三、效度的评价方法效度的评价一般较信度复杂，按评价目的和用途不同可分为以下几种类型。(一)内容效度内容效度(content validity)也称内在效度(intrinsic validity)或循环效度(circular validity)，有时也称贴切性(relevance)或代表性(representativeness)，是指量表在多大程度上表示了所测特质的范畴。换言之，量表是否包含足够的条目来反映所测内容。内容效度的评价主要通过经验判断进行，通常要考虑三方面的问题：第一，项目所测量的是否真属于应测量的领域；第二，测验所包含的的项目是否覆盖了应测领域的各个方面；第三，测验项
15、目的构成比例是否恰当。如量表的条目包含了所测概念的各具体方面而且有一定的比例，则可认为有好的内容效度。也可请一些熟悉该测量内容的有关人员来评判，必要时用内容效度比(content validity ratio，CVR)这一指标来衡量：(17.13)2/2/NNnCVR其中，n为评判者中认为条目很好地反映了测定内容的人数，N为评判者总数。(二)结构效度结构效度(construct validity)，也称构思效度或特征效度(trait validity)，说明量表的构造是否符合有关的理论构想和框架，也就是检验量表是否真正测量了所提出的理论构思。因而结构效度是最重要的效度指标之一。结构效度的评价
16、较复杂，可用各条目与各领域(或小方面)的相关分析和因子分析方法来反映。其中，因子分析除可说明结构的相合性外，尚可用共性变异(共性方差)与总变异之比作为结构效度的衡量指标。此外，结构效度的分析最好用证实性因子分析，它较探索性因子分析更能说明问题。(三)准则关联效度准则关联效度(criterion-related validity)，也称效标效度(criterion validity)、经验效度(empirical validity)或统计效度(statistical validity)。是说明量表得分与某种外部准则(效标)间的关联程度，用测量得分与效度准则之间的相关系数表示。外部准则指不通过该
17、量表，而是通过一些客观指标或某些总体评价性项目来间接反映该测定特质。根据效标的不同，可分为两种：1.同时效度(concurrent validity)量表得分与当前效标间的相关。比如用脱毒的快慢来反映戒毒者生命质量高低，用运动速度反映躯体功能的高低等。2.预测效度(predictive validity)量表得分与将来的效标(某种结果)间的相关。比如量表得分与将来的疾病复发、恶化、死亡等结果的联系。在心理、教育和生命质量测量中大部分仅考察同时效度。此外，如果缺乏金标准，可用一种较流行的量表得分为效标。如生命质量测定中可用著名的测定量表SF-36或FLIC的测定结果为效标，也可让受测者自己对其总
18、的健康状况作一个评估(比如按百分制打分)，以此权且作为效标，这常称为自我报告的生命质量或总体健康状况。(四)判别效度和聚合效度判别效度(discriminant validity)，也称辨别效度，是指运用相同测量方法测定不同特质或构思时，辨别不同特质的程度，也就是说不同特质和内涵的测量结果之间不应有太大的相关性。聚合效度(convergent validity)，也称收敛效度，是指运用不同测量方法测定同一特质或构思时所得结果的相似程度，即不同的测量方式应在同一特质的测定中聚合在一起(收敛)。也就是说，对同一特质的两种或多种测定方法间应有较高的相关性。使用判别效度和聚合效度主要基于以下两个原因
19、：1.任何测量分数的变异中都有一部分应归因于特定的方法，而不仅是测量的特质本身。有时候，即便是不同的特质，也可能因用了相同的测定方法而出现高相关。2.只有通过相似性和差异性的综合分析，才能准确地描述和解释测定结果。换言之，必须说明测到了什么，没有测到什么。对判别效度和聚合效度的评定，通常采用Campbell和 Fiske所提出的多特征多方法(multitrait-multimethod，M-M)矩阵法分析。该法要求用多种(至少两种)方法分别测定了多个(至少两个)特质，从而可计算同一特质的任两种测定方法得分间的相关系数以及同一方法的任两种不同特质得分间的相关系数，还可计算同特质同方法间的相关以及
20、不同特质不同方法间的相关。将这些结果按矩阵式的表格排出即得到M-M分析。那么，如何判断判别效度与聚合效度的好坏呢，通常认为具有好的判别效度与聚合效度需达到下面四条标准：1.M-M矩阵中的效度系数均有统计学意义的显著性。2.M-M矩阵中的效度系数大于同行或列邻近的“异特质异方法”三角中的元素。3.M-M矩阵中的效度系数大于“异特质同方法”三角中的元素。4.所有异特质三角，包括“异特质异方法”和“异特质同方法”三角中的元素模式相同。此外，尚有表面效度(face validity)、因子效度(factorial validity)、增量效度(incremental validity)等。效度的评价是
21、较复杂的，实际应用时可结合各情况进行判断。Spitzer认为如果满足以下五个条件，即可认为量表是有效的：(1)说明有内容效度和结构效度；(2)在量表的制定阶段应让病人、医务人员、一般公民提出意见，供修正和提高内容效度；(3)量表经重复使用证明其可靠性；(4)如果有金标准存在，应以金标准为准，对观察对象在相似的条件下进行观察，确定结构效度；(5)如果无金标准，结构效度由判别效度和收敛效度代替。四、影响效度的因素一般说来，前述影响信度的因素也都能影响效度。对于结构效度还受测定的条目构成的影响，效标效度还受所选用的效标的特征所影响。第三节信度与效度分析的应用一、应用中的几个问题 (一)应用范围
22、信度与效度分析被广泛地用于调查表(尤其是标准化测定量表)、实验研究和考试(测验)等的评价。一般说来，凡是通过测量工具得到的结果，无论是通过测定仪器得到的硬数据(如物理测定)，还是通过测定量表、考卷等得到的软数据(如心理测定、考试等)，均需进行信度与效度分析。除了用于评价和比较测验的优劣外，还可以用于预测和决策方面，如凭高考成绩预测学生以后是否能顺利完成学业，在人才选拔上采用效度好的能力测验来进行筛选等。(二)考评对象信度与效度评价的对象可以是整个测定量表(对整个量表评价)，也可以是各个方面或领域(对领域评价)，也可以是具体的条目(对条目评价)。一般说来，如果是标准化测定量表，通常分别进行总量
23、表和各个领域的评价；对于包括各种条目的一般调查问卷，很难进行整个调查表的考评，一般就对某些条目或领域进行考评，并以此间接说明整个调查表的好坏。(三)信度与效度的关系从前面的内容可以看出效度更重要，一个无效或效度很低的测验即使信度高也没有意义。因此，从一开始编制测验就应该注重提高测验的效度，并尽可能地收集各种效度证据。效度的验证通常要从内容效度、准则关联效度和结构效度三个方面进行考评，因为他们分别说明不同的问题。内容效度测验的重点是确定测验内容与某个行为领域的一一对应关系，从理念上说明其内容是否涵盖了所研究的特质；准则关联效度着重于测验分数与某种效标的相关，既可用于说明效度的好坏，也可用于预测
24、；结构效度则是说明测验结果表现出的结构与理论上对该特质的结构认识吻合程度。一般说来，内容效度和结构效度是必须考察的，至于准则关联效度则视情况而定，如能找到恰当的效标则也可考评。信度是效度的必要条件，而不是充分条件。信度高效度未必高，但信度低很难有高的效度，因此要认真考虑前述影响信度的因素，采取措施尽量提高测验的信度。本章介绍的各种信度评价方法本质上都是对测验的一致性进行估计，但由于误差来源不同，它们研究的侧面各不相同，其中重测信度说明的是测验跨时间的一致性，复本信度说明的是跨形式的一致性、内在一致性信度和分半信度说明的是测验跨项目或两个分半测验之间的一致性，评分者信度说明的是测验在不同评分者间的一致性。这些信度在同一个测验中未必都需要或都能进行考评，比如采用了重测信度就不会再用复本信度，对自评量表根本就不需要进行评分者间信度的考评。一般说来，分半信度和内部一致性信度根据一次测验即可计算，原则上都要进行考评；重测信度或复本信度也应进行考评，根据测定的形式采用一个即可。(四)考评标准信度与效度的考评大多是计算各种相关系数，因此其取值越接近1越好，越接近0越差，但还没有公认的判断标准。一般说来，0.9以上可以认为很好，0.7以上为好，低于0.4算差。但有些测验变异较大，如生命质量测定中的症状与副作用功能领域，信度系数低一些也可以接受。

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：信度与效度分析(qiang)课件.ppt
链接地址：https://www.163wenku.com/p-4344868.html

晟晟文业

内容提供者

实名认证

联系作者