教育测量与评价(期末复习)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《教育测量与评价(期末复习)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教育 测量 评价 期末 复习 课件
- 资源描述:
-
1、第二章 教育测量的质量指标 衡量教育测量的质量,可采用四个指标: 信度 主要对整个测量而言。 效度 难度 主要对测量的项目而言。 区分度 第一节 信度 一、信度概念 信度是指测量结果结果的稳定性或可靠性程度。用同一种工具反复测同一种特质对象,结果的一致性程度就叫信度 一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。 或者说,测验的抗干扰能力强,误差因素控制得好,测值的一致性高,就叫信度高,人们感觉可靠。 可以从以下三个方面去理解测量的信度P29: 信度指实测值(X)和真值(T)相差的程
2、度 信度是指统计量与参数之间的接近程度 信度指两次重复测量或等值测量之间的关联程度。三、信度的估计方法(信度类型) 1、重复信度(再测信度) 指的是同一个量表对同一组被试施测两次所得结果的一致性程度。 其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用积差相关的公式来计算。(板书、推导该公式) 积差相关的使用条件: 两个变量的总体都呈正态分布,至少是单峰对称的分布。作此判断需要总体分布的卡方检验。 必须是成对数据,每对数据之间相互独立 两个变量之间呈线性关系,可由散布图的形状来决定。例一 用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,
3、得分记为Y,问测验结果是否可靠? 学生序号 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 232425262627 Y 20 21 21 20 23 23 252526262729在使用重测法计算稳定性系数时,应注意以下问题: 1、信度的取值范围为0,1,当信度值较大时,说明前后两次测量结果比较一致; 2、两次测验之间的时间间隔要适宜。太长,身心发展、遗忘、环境改变等使信度降低;太短,练习与记忆等提高了成绩,信度降低。 3、重测法适用于速度测验而不适用于难度测验;因被试很难记忆第一次,而难度测验相反。还适用于运动技能的测验。 4、适用于异质测验,
4、即一个测验包含几个不同的部分,分别测量不同的心理特质。因为这种测试不适于计算内部一致性信度。 4、应注意提高被试者的积极性。2、复本信度 指的是两个平等的测验测量同一批被试所得结果的一致性程度。 其大小等于同一批被试在两个复本测验上所得分数的相关系数。 所谓复本测验是指在格式、内容、题型、题数、难度、指导语说明、施测要求等方面都一致(或相等)的两份或多份测验。例二 以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型
5、测验结果记为Y,其测验的复本信度如何? 学生序号 1 2 3 4 5 6 7 8 9 10 X 19 19 18 17 16 15 15 14 13 12 Y 20 17 18 18 17 15 13 15 12 12复本信度的优缺点表现: 优点: 1、两个复本在同时使用同时使用时,可以避免再测信息的一些缺点如首测对再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。反映究竟是不是真正的平行测验;换言之,反映了测验内容造成的误差。 2、测验的两个复本,如果在不同的时间不同的时间使用,其信度既可以反映被试在不同时间
6、的稳定性,又可以反映测验内容的一致性。换言之,既反映了时间影响,又反映了测验内容的抽样误差。 这种同时兼顾试题抽样与时间影响的信度,称为等值稳定性系数,与其他信度系数相比,该系数最小,也就是说,此种复本信度是对信度最严格的检验。 3、在追踪研究或探讨某些影响测验成绩的因素时,大多使用复本测验,分析复本信度。缺点: 1、编制两个完全相等的测验是很困难的,如果两个复本过份相似,则变成再测形式,而过分不相似,又使等值的条件不存在; 2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;(因内容造成的误差)。 3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性; 4、虽然
7、两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。3.1、同质信度之分半信度 就是将测验分半,被试在每一半测验上所得分数的相关系数。反映了2半题目间的一致性。 分半的方法很多,如,按题号奇偶,按难度、按题目内容。无论如何分半,都要在分开后做微调,最终目的是分成对等的两半。如果做不到对等,就不适合求分半信度。 在实际运用中,由于题目一般是按难度大小排列,采用奇偶分半可以使两半测验的题目在难度上基本相等,因此常被采纳。 分半后,计算每个被试在两个分半测验分数的积差相关系数,由于只是半个测验之间的信度,故,再用斯皮尔曼布朗公式加以校正。 3.2 同质信度
8、之库德尔-理查森信度 适合于全部二分计分题测验的内部一致性信度分析。 常用的两个公式有:(板书,P33)例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的库德-理查森信度?学生序号 题 序 1 2 3 4 5 6 总分1 1 0 0 0 0 0 12 1 0 0 1 0 0 23 0 0 0 0 1 1 24 1 1 1 0 0 0 35 0 1 0 0 1 1 36 1 1 1 0 0 0 37 1 1 1 1 0 0 48 1 1 1 1 0 0 49 1 1 0 1 1 1 510 1 1 1 1 1 1 6pqpq 请比较两个公式所
9、算出来的值 当测验中所有的试题难度都一样,或平均难度接近0.50时,两个公式所估计出来的信度值将相等。但是,当测验中所有试题难度值极不相同时,差距将较大。一般KR21比KR20信度值小。 4、论文式测验信度 论文没有严格评分标准,同样题目,不同应试者回答与得分不一样,可用克龙巴赫阿尔法系数公式。P34 该公式适用于:测验题型多并非都是2分计分题时。 板书公式 请阅读,并解释公式含义。 例4用一个包含6个论文式试题的测验,测5个被试,结果如下,试求该测验的信度?题序 学生序号 1 2 3 4 5 某题得分方差1 3 6 1 6 5 2 4 3 3 2 3 3 3 4 1 2 1 4 2 5 2
10、1 2 5 1 4 4 5 4 6 4 6 5 3 2 总分 17 28 16 19 17 四、提高信度的方法 (一)信度系数多大为宜? 学科测验0.9以上; 智力测验0.8以上; 品德测验,达到0.6就不错了。作业 1、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y,问测验结果是否可靠? 学生序号 1 2 3 4 5 6 7 8 9 10 X 8 10 9 6 10 7 5 7 9 4 Y 9 10 10 6 10 8 4 8 9 4 2、对10名应试者先进行某种测验X,隔适当时间后(半年),再进行内容、范围、难度类似的第二次测
11、验Y,试求测验的复本信度? 应试者 1 2 3 4 5 6 7 8 9 10 X 9 10 10 6 10 8 4 8 9 4 Y 4 9 7 9 4 3 5 3 2 4 3、有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,学生即毕业离校,现怎样评价测验结果的信度? 学生序号 1 2 3 4 5 6 7 8 9 10 奇X 38 37 38 41 40 36 38 39 40 35 偶Y 37 37 36 39 39 34 38 39 39 36四、提高信度的方法 1、影响测量信度的主要因素自行阅读P34-35,请同学们讨论、解释。 (1)测量工具方面(对照教材重点解
12、释) (2)主试、施测情境方面(对照教材举例) (3)被试方面(同上) (4)两次施测的间隔时间方面2、提高测量信度的常用方法 阅读p36-37,请学生解释: (1)适当增加测验的长度 (2)测验的难度要适中 (3)测验的内容应尽量同质(不同质是如何影响信度的?) (4)测验的程序应统一 (5)测验的时间要充分 (6)测验的评分要尽量做到客观化,减少评分误差第二节 效度 一 、什么是效度 效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。 1、效度是一个相对的概念。 测量的效度是相对一定的测量目的而言的 2、一种测量的效度只是高或低的问题 测量结果总是有一定效度的,只
13、是效度高低不同罢了。 3、教育领域的效度问题比其他领域的测量更重要。 二、效度的理论公式 板书P39及参考书P58 重申变量和的方差运算公式 目标真分数、非目标真分数 根据理论公式,怎样才算测量效度高?请同学们回答。 三、效度的估计 效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。 (一)内容效度 就是指测验题目样本对于应测内容与行为领域的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应。 为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的
14、问题。2、内容效度的估计 逻辑分析法 其工作思路是请有关专家对测验题目与应测内容范围的吻合程度作出判断。 把所有题目按考试内容和考查目标分布进行双向分类,形成实际的“题目双向分类表”。与事先预定的“命题双向分类表”作比较,看是否偏离了原命题计划。 内容效度主要应用于成就测验、学科测验。 内容效度不适合用于能力倾向和人格测验。(二)结构效度 结构:心理学或社会学上的一种理论构想或特质。本身观察不到,也无法直接测量,但学术理论假设它是存在的。 举例: 结构效度:测量能测出这种结构的程度(1)结构效度的特点 结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设
15、,则会使得关于特质测验的结构效度的研究结果无法比较。比如智力(2)建立结构效度的步骤 A、提出理论假设; B、根据假定结构,导出各项关于心理功能或行为的基本假设。拟定测题,编制测验; C、以测验结果为根据来验证假设结构中的各种因素是否成立。 例如智力P42 测量甲与其他理论上认为应该与之有关的其他测量有显著相关。与其他理论上认为不应该与之有关的其他测量没有显著相关。 与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。(三)效标关联效度 是以测验分数和效标之间的相关系数来表示测验效度高低的方法。 什么是效标? 例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验
16、分数为效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。 效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。 教育测验的效标,可采用各学科成绩和教师评定的结果; 智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物; 能力倾向测验的效标,可采用特殊课程或特殊训练的成绩; 职业兴趣测验的效标,可采用从业人员实际服务成绩或记录; 人格测验的效标,可采用被试以后行为或临床资料。 效标关联效度的种类同时效度
17、 预测效度 效标关联的计算方法:计算相关系数 (多采用积差相关法,略) P41,其他方法参阅教育统计学教材2、提高测量效度的方法P44 对效度系数的要求:P42,阅读1分钟 控制系统误差 精心编制测验量表 扩充样本的容量(增加样本对总体的代表性) 合理处理效度和信度的关系(信度是效度的前提,效度不大于信度的平方根) 妥善组织测验 适当增加测验长度三、难度 难度是指试题的难易程度。 一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。 难度由被试群体整体水平所确定。是相对概念。难度的计算 (一)基本公式 1、客观题难度的计算 P=R/N R为答对该试题
18、人数,N为参加测验总人数 例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题的难度?比较这两道题谁比谁难?2、主观题难度的计算 例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难度? 例3:语文测验第五题最高得分为12分,这道题考生的平均得分是8.5分,求该题难度? 例4:60人参加考试,某题满分为12分,正确得分累积是480分,求该题难度?(2)极端分组法 客观题步骤: 将测验总分进行高低排序(由高到低) 进行高低分组(各取27%),并计算某题的得分率 求两组的平均值 公式: P=(PH+PL)/2 PH为高分组答对该题的百分比; PL
19、为低分组答对该题的百分比。例5 某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题难度? 如果该题满分为10分,高分组得分总数为2100分,低分组得分总数为830分,求该题难度? 论文题的步骤: 将测验总分进行高低排序(由高到低) 进行高低分组(各取25%) 分别为高分组、低分组编制每道试题的分析表 按下列公式计算难度: P=板书P48 例 某道论文题,高分组得分总和40分,低分组得分总和15分,40人参加考试,此题最高得分为5分,最低得分为2分,则此题的难度为P48:2、难度的分析与控制 (1)难度分析 进行难度分析的主要目的是为了筛选题目。 A、测验题目难度水
20、平的确定 测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。 当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当P值接近于0.50时,题目才能把被试作最大的程度的区分。(离散程度最大) 对于常模参照性测验,大多数难度在0.3-0.7之间,平均0.5。但对于奥林匹克竞赛或补习功课的学生,例外。B、测验难度对分数分布的影响 测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做出直观检查。 由于人的心理特性值多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有代表性,则其结果应呈正态分布。 测验分数
21、背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分端出现高峰,呈正偏态;其二是题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。(2)难度的控制 一般说来,影响题目难度的主要因素有: 考察知识点的多少; 考察能力的复杂程度或层次的高低; 考生对题目的熟悉态度; 命题的技巧。 难度控制: 正确估计考生水平与否; 弄清弄懂各知识点与否; 掌握命题技巧与否。四、区分度 (一)区分度的含义 指测验题目对考生实际水平的区分程度或鉴别能力。 如一道题,学业水平、实际能力都较高的考生都答对了;而学业水平、实际能力都较低的考生都答错了,则可认为该题目有好的区分度。 区
22、分度分析主要以效能为依据,考察考生在每个题目上反应与其在效标上的表现之间的相关程度。 区分度(D)的取值范围介于- 1.00+1.00之间,值越大,区分度的效果越佳。 区分度D0为正区分,D0为负区分,D=0为零区分 区分度与测验信度、难度的关系,请自行阅读P51。(二)区分度的计算 1、极端分组法 (1)客观性试题 D=PH-PL 例6:有道试题,高分组有70%学生通过,低分组有30%的学生通过;而另一道题,高分组有40%学生通过,低分组有70%学生通过,求两题的各自区分度?P51(2)主观题 D=(XH-XL)/N(H-L) XH为高分组得分总数 XL为低分组得分总数 H为该道题的最高分
23、L为该道题的最低分 N为应试总人数的25%。例7 高分组 低分组 得分X 人次f 得分X 人次f 5 4 5 0 4 3 4 1 3 2 3 1 2 1 2 3 1 0 1 1 0 0 0 4 此题最高得分5分,最低得分0分2、相关法 点二列相关法 例8:15个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度? 学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 测验 65 70 31 49 80 50 35 10 81 69 78 55 77 90 42 第一题 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0二列相关 例9:已知一测验中某选择题
24、的通过率为0.5,答对者的测验总分平均为76分,答错者的测验总分平均为63分,全体被试20人总分的标准差为16,求该题的区分度?(三)提高区分度的方法 1、使题目的难度适中,使整个考试难度适中 题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。 2、着重考察复杂的学习结果 使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。 3、掌握区分度的评价标准。P53,评价标准表 第三章 测验目标定义1、深入分析课程教学目标; 阅读5分钟后,请合上课本描绘教育目的、教学目标、课程目标、单元教学目标、课时教学目标、知识点教学目标、行为目标、学习目标及程序教学诸概念之
25、间的关系。 双向细目表的概念 内容类的概念 P76,认真阅读3分钟。 目标层次的概念 第四章 教育评价方案的编制与实施 第二节 教育评价方案的制定 一、教育评价指标体系的的构建 (一)教育评价指标体系的结构 1、框架 指标体系的构成:指标集、评价标准、量化符号。 板书解释“评价对象”与“指标”的相对性 2、模型 一般模型:评价普遍现象 分类模型:评价特殊现象 举例:“一间中学,教师的教学工作” 一般模型与分类模型的相对性,例如:“一间中学,教师的教学工作” “一间中学,中学的全面工作” 指标体系由指标、评价标准和量化符号组成 3、指标(与“评价对象”相对) 必达指标与期望指标对教师学历、设备等
展开阅读全文