试题编制原理及方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《试题编制原理及方法课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 试题 编制 原理 方法 课件
- 资源描述:
-
1、试题编制的原理与方法试题编制的原理与方法蔡铁权浙江师范大学课程与教学研究所一、试题类型二、小学数学核心素养三、试题背景材料的选择四、试题编制的质量要求五、客观性试题的编撰六、主观性试题的编撰七、开放性试题的编撰八、TIMSS和PISA评价项目简介常模参照考试 常模参照考试的主要目的是对学生进行排序。设计常模参照考试的基本出发点是考试结果能够有效的区分出学生的能力水平差异,并根据这个差异,从高分到低分对考生进行排序。常模参照考试结果确定的是考生在考生群体中的相对位置。常模参照考试试题的主要目的是要将不同的考生区分开。我国的高考就是通常意义的常模参照考试,大家熟知的美国SAT、TOEFL、GRE等
2、考试都是常模参照考试。标准参照考试 标准参照考试的目的是要确定学生知道什么,能够做什么,而不是对学生进行相互比较。标准参照考试根据考生在某个标准确定的目标上的表现水平来评价考生,通常对于教育考试而言,这个标准应该是课程标准。根据标准参照考试的考试结果,确定的是考生达到标准规定的水平。标准参照考试试题的主要目的是要确定考生的水平,因此试题必须以标准的目标和水平要求为依据。20世纪70年代到80年代,标准参照考试有两个涵义(Koretz D.M & Hamilton L.S,2006):(1)根据学生知道的知识报道考试结果;(2)采用划界分数(Cut Score)确定考生的等第。基于标准的教育考试
3、 基于标准的教育考试(Standards-based Assesment)的发展与美国兴起的基于标准的教育改革运动的发展密不可分。 基于标准的教育改革的一个核心思想是:制定严格的课程标准,建立与课程标准调整一致的考试(Koretz D.M & Hamilton L.S,2006)。这一考试评价具有以下重要的特征:(1)考试的内容规范的确定与课程的内容标准(content standards)调整(alignment)一致。(2)根据课程的表现标准(Performance Standards)报道学生在内容标准规定的知识、技能的学习方面达到的学业水平(因此,基于标准的考试又被称为水平参照考试)。
4、(3)在实际考试操作中,采用划界分数将学生的考试结果转换为与表现标准模式相一致的等第。(4)考试应该对学校教师的教学和学生的学习产生明显的影响,即利用基于标准的教育考试驱动课程教学和学生的学习。小学数学核心素养的构成(1)数学交流 数学素养是个体对个人的、社会的、职业性的、科学性等各种情境进行数学表述、运用和阐述的能力。经济合作与发展组织提出的学会与工具、与自己、与社会的互动指标也强调互动能力是核心素养的关键,是公民适应生活所需的共同素养。而且数学作为一种共同、共通的语言,不仅有助于人们与工具、与自己、与社会的交流互动,更能成为个体认识与理解世界的重要视角。(2)数学推理 推理作为理解抽象概念
5、的工具,是数学的基础及基本的 思维方式。小学阶段的数学推理主要主要包括含有归纳、类比等以经验和直觉为依据的合情推理,以及以确定法则为依据的演绎推理。通过观察、实验、分类活动逐步获得逐步获得对事物模式的识别形成猜想,以证据为基础对猜想进行判断或举出反例,并能对数学关系进行简单的推理。(3)运算能力 运算能力是学生数学学习的基础,也是日常生活必须的基本技能,包括笔算、心算、估算等这能培养学生有理有据、实事求是的科学精神,形成程序化的思考习惯,体会数学的简洁美。(4)空间观念 空间观念是对物理的形状、大小,物体与物体之间的方向、距离及其位置关系的一种直觉,有助于学生感知和把握对象的形态与变化,能对事
6、物的基本特征、位置关系、运动变化有初步的感知。(5)数据分析能力 面对大量复杂的数据,有能力从中发现规律,获取有意义的信息,对不实的信息进行批判,对信息加以解读和分析。养成学会用数据说话,同时形成求实的精神。(6)数学建模 现实世界中,很多问题和现象中存在着大量的关系和规律,可以从中抽象出恰当的 数学关系,将实际问题转化为数学问题,运用数学方法建立一个近似描述问题的数学结构,即模型。运用恰当的数学方法和工具,对数学问题求解。任何一道数学试题要求考试完成的思维任务或操作活动都是置于一定的背景材料之中的,因此,考生对背景材料的理解,对其完成试题要求的任务至关重要。从大量的考试试题分析中可以发现,试
7、题背景材料选择不当,往往是发生试题功能偏差试题在不同的考生群体间表现出与考试目的无关的功能性差异的重要来源之一。试题背景材料的选择(一)试题背景材料选择的基本考虑1背景材料应该与考试的测量目标以及试题欲测量的行为目标相关 考试结果解释和使用的效度完全取决于测量目标的实现程度,而考试测量目标的实现程度,又依赖于每道试题是否能够引导考生表现出试题要测量的行为。从这个意义上说,试题的背景材料给考生提供了一个统一平台上进行“表演”的机会。 许多不同种类的背景材料都可能引导考生表现出考试测量目标所要求的行为。然而,考试中试题所使用的材料应该是各类考生群体能够理解的材料,材料本身一般不会成为阻碍某一或某些
8、群体展示其能力的因素。如果选择的背景材料只有部分学校的考生很清楚或者居住在某个地区的考生很清楚,其他的考生不太容易获得详细的关于背景材料的信息,则这样的背景材料可能会导致试题功能偏差和考试的不公平。 在这种情况下,考试机构应该根据课程标准对学生的学习经历要求,对背景材料的选择做出决定。这样可以相对比较可靠地避免试题背景材料的选择给生活背景不同的考生群体造成应答障碍。2背景材料应该与考生的学习经历和生活经历相适应3背景材料提供的信息类型 从背景材料包含的信息与学生的学科知识关系看,材料中信息可分为有新知识的信息和无新知识的信息,有新知识的信息是指背景材料中包含考生未学过的知识,考生只有将材料中的
9、新知识整合到其现有的知识体系中才能应用的信息。 当背景材料中包含有新知识信息时,要考虑的一个重要问题就是考生的现有知识在深度和广度方面的局限性,他们能否理解这些新的知识,能否将新知识整合到现有的知识体系中;另一个问题是新知识的构建能力是否包含在试题要考查的行为中,如果不包括在其中,应考虑不要因为考生现有知识的局限而影响其考试成绩。 背景材料的信息量对考生完成指定的考试任务也非常重要。试题背景材料的信息量一般是正好。有时,命题教师为了考查学生选择信息的能力,提供的信息有较大的冗余,需要学生进行选择,并剔除多余的信息;有时信息不足,需要从其他方面获得信息,以完成指定的任务;有时提供的信息对考生完成
10、任务毫无帮助。 如果在试题中,要给考生过多的信息,让其进行选择和剔除,就需要考虑所要测量的行为目标的类型和完成考试任务的时间限制。如果给考生的信息不足,应该考虑考生能否从其信息储备中获得这些信息,以及推测的能力的类型。如果不考虑试题测量的行为目标的类型,很可能会导致考试的多维性,无法对考试结果做出确切的解释,降低考试的效度。因此,如果试题不是用来考查学生选择和处理信息的能力的话,一般背景材料中不要给考生冗余信息或信息不足。4背景材料的信息量 试题背景材料的信息与考生应答之间的关系主要包括两个方面,即关系的范围和关系的直接性。 关系的范围指的是完成试题的应答必须加工、处理的信息的数量,包括宽泛范
11、围和狭窄范围。宽泛范围任务要求考生加工处理的信息量大。狭窄范围只要求考生加工少量的信息就可完成任务。一般要求考生加工处理的信息量大的背景材料不要太多,太多了可能难以避免考生处理背景材料的能力对试题测量能力类型的影响。 关系的直接性是指期望的应答对所提供的信息的依赖程度,或者考生是否必须依赖其本身的背景知识来完成任务,包括直接关系和间接关系。直接关系指考生只需要依赖提供的信息就可完成应答。间接关系指背景材料只提供了考生完成任务所需的一部分信息。一般情况下,试题最好要求考生直接依赖试题材料提供的信息完成应答,某些间接的信息可以不提供给考生。5背景材料提供的信息与应答间的关系6背景材料的呈现方式应该
12、多样化 试题的背景材料有很多种类,最常见的是文字材料,此外图片和图表材料也是经常使用的背景材料,如各种数据示意图、几何图、统计图、结构图、数据表格等。试题的背景材料应该多样化,不要都是文字材料,也不要都是图示材料或图表材料。 要求试题背景材料呈现方式的多样化有两个方面的原因。 第一,这样可以使试卷卷面更加活泼、美观,增加考试的亲和力,提高考生应试的兴趣,使考生不至于因阅读大量文字材料感到疲劳、乏味,而影响水平的发挥。 第二,更重要的是以不同形式出现,可以使某个方面偏强的考生不会太讨巧。某些方面偏弱的考生有机会弥补其薄弱环节。例如,某些考生如果文字阅读能力比较强,则试题材料以文字形式呈现对其有利
13、;而文字阅读能力较弱的考生显然处于不利地位。 有时,同样的材料既可以用文字形式表示,又可以用图示形式表示,而且不同形式的材料都可以很好地服务于试题测量的行为目标,且材料都为考生所熟悉,如果对材料信息的处理能力不是试题要测量的行为目标,那么最好选择对材料加工要求较低的材料。7对背景材料的修改 对背景材料的修改应该以正确、简明、与测量目标相关性更大和模糊材料来源为原则,尽管有些材料(如图、表、数据)可以不经修改,拿过来就用,但大多数材料,尤其是文字材料,通常都需要进行修改才能够成为试题的背景材料。修改材料应该使其更加简明;在有错误的情况下,应该对其进行更正;修改材料的目的是为了达到试题的测量要求,
14、因此,修改材料应该使其与测量目标相关性更大。 此外,对材料的修改应该尽量让考生看不出材料的原始来源,以防止材料来源部门进行不必要的炒作。(二)如何对试题背景材料的选择作出规定 对试题背景材料的选择作出规定时,最为困难的是材料的类型。命题教师不希望选择的材料对任何一个群体产生不利。因此,选择材料的一个基本原则就是能够贴近学生的学习经历和生活经历。然而,学生的学习经历、生活经历与其就读的地区、学校和家庭密切相关,材料的选择很难同等程度地贴近每一考生的亚群体。在这种情况下,比较明智地是以课程标准提出的学习经历的要求为原则,选择背景材料,最大限度地保证所选材料的公平和公正。试题编制的质量要求试题的编制
15、不是随意的,试卷命题的质量直接关系到根据测验进行评估的有效性和正确性,对测验卷而言,其主要性能指标有信度和效度,对试题而言,其主要性能指标有难度和区分度。(一)信度的涵义及其计算方法信度(reliability)是指测验结果的可靠性程度,即测验所得的结果(实测分数)与学生实际水平(真分数)间的一致性程度。一次好的测验,如同一把好的尺子,对同一对象进行多次测量其结果仍保持不变。但在真实测验中,由于种种因素,如考生的紧张、焦虑,评分教师的主观因素等,实测分数和学生的真分数间总是存在测量误差,测量误差越小,则测验信度越高,信度实际上是对测验误差程度的一种描述。理论上,可以使用同一份试卷对同一组被试进
16、行两次测验,或者也可以编制两份平行测验卷让同一组被试进行测验,再来分析测验的信度,相应的,信度系数计算方法有:稳定性系数、等值性系数、等值稳定性系数、内部一致性系数、评分者一致性系数。1稳定性系数稳定性系数又称重测系数,是指用同一个测验在不同时间对同一组被试进行测试而得到的两次实测分数的相关系数。它的前提是两次测试的时间间隔不宜太长,因此假设学生在这小段时间内基本上未发生变化,所以测得的结果应该相对一致,也即测验结果应具有稳定性。学生在两次测验中的相对水平基本一致,即第一次高分的学生在第二次测验中也应有获得高分的趋势,这种稳定性表明测验是可信的。计算方法如下:其中,x和y分别是第一次和第二次测
17、试的分数,xy和 分别是两次测试的平均值,N是被试人数。NyyNxxNyxxyyyxxyyxxrxy/)(/)(/)()()(2222222等值性系数等值性系数,是运用两个互相等值(指难度、区分度、题型等因素尽可能相同),具体题目不同的两个测验,在最短时距内对同一组被试进行两次测试,以两次测试结果的相关系数计算的信度系数。此系数计算方法与稳定性系数计算法相同。3等值稳定性系数等值稳定性系数,类似于等值性系数,但相比于等值性系数,它是在适当长的时间内对同一组被试进行测试而得到的结果的相关系数,它能同时反映出试题内容的变化和被试知识积累等方面对其测试成绩的影响程度。计算法也与稳定性系数计算法相同。
18、 内部一致性系数是同一个测验的两个部分的得分之相关系数,它描述的是测验内部各题得分的一致性程度。这种方法在实际应用中比较多,因为人们都希望通过一次测验来估计测验的信度。其计算方法主要有两种:(1)分半法;(2)同质性法。(1)分半法 它是将测验平行地分成两份,如按编号分成成奇数题和偶数题,比较被试这两部分的实测分数间的相关性,进而来估计测验的信度。 根据分半法得到分测验 和 ,计算出相关系数 和 。计算公式同稳定性系数计算法,它代表的是半个测验的信度,因此需通过斯皮尔曼布朗公式进行矫正,矫正公式为:21xxr21xxr1x2x212112xxxxxxrrr 才为整个测验的信度。xxr4内部一致
19、性系数(2)同质性法 它是分半法的拓展,将一份试卷分成n个平行的部分,求这些平行部分的一致性程度,计算法如下:2121) 1(1xxxxxxrnnrr rxx为整个测验的信度,rx1+x2为n个平行部分的任意两个间的相关系数。当n=2时即为分半法的计算法。如把测验中的每个试题都看做是平行的,则计算法变为)1 (121xniiixxqpnnr其中,n为测验总题数,pi与qi分别为第i道试题上的答对率和答错率, 是测验总分的方差,这就是著名的库德查理森公式(KR-20)。该公式仅适用于估算由“对、错”分为两级评分的选择题组成测验卷的信度。2x)1 (1212xnixxxinnr一般测验都是由各种题
20、型的试题组成的,每个试题的满分也不一定相同,此时,计算法为:其中,n为测验的总试题数, 为第i题各被试得分方差, 为所有被试测验总分的方差,这就是著名的科隆巴赫 系数公式。ix22x5评分者一致性系数 在一般大规模考试中,为了保证评分的客观性,经常需要两个以上评分者对评价对象进行评分。如高考作文评分过程中,就由两名以上的教师对同一篇作文进行评分,以减少教师的主观判断的影响。因此,需对评分者的一致性程度进行考察。一般有三种计算方法:(1)斯皮尔曼等级相关法;(2)肯德尔和谐系数法;(3) 系数估计法。(1)斯皮尔曼等级相关法 两位评分者评N份试卷或同一名评分者先后两次评N份试卷时,可用斯皮尔曼等
21、级相关系数来计算评分者一致性系数,计算法为:) 1(6122NNDrxx其中,D为两位评分者对同一份试卷所评等级之差,N为试卷分数。(2)肯德尔和谐系数法 当两个以上评分者评N份试卷时,需要采用肯德尔和谐系数作为评分者信度的估计,计算法为:)(12132NNKSSWR 其中,W为肯德尔和谐系数,K为评分者人数,N为被评试卷总数,SSR表示R的离差平方,即NRRRRSSR222)(其中,R为每一个被试被评等级之总和。(3) 系数估计法 当两个以上的评分者对一组被试的测验结果评定时,此时评分者的可信度可用科隆巴赫 系数公式进行计算。(二)效度的涵义及其评估 效度(validity)即测验结果的有效
22、程度,就是测验实际所能测量出的所要测量的特性或能力的程度,即测验的正确性程度。例如,在某次数学测试中,我们想测量学生解决问题的能力,测出的竟是文字的理解能力,或者其他能力,那么此次测验的有效性就很低。 本质上说,效度描述的是测量结果与测量目的的关联程度。 内容效度是指测验的内容代表所要测量内容领域和学生预期反应的程度。对于数学学科而言,“所要测量内容领域”是指数学课程标准中设定的全部教学内容,“学生预期反应”是指学生学习这些内容后产生的效果或预期达到的程度,如对知识点的记忆、理解、掌握、应用等。 关于内容效度值的计算,目前还没有有效的公式。判定内容效度常用的方法是由数学专家教学专家根据所要测量
23、的能力的定义和内容范围的界定,以及各部分内容、目标所占的权重,对测验与所要测量的属性或教学目标进行比较,这种方法的缺点是专家教师的判断会带有一定的主观性。 也可以通过制作双向细目表来检验内容效度,如前面所制的“相互作用与运动规律”的双向细目表,分别由测验内容和测验知识的行为目标作为细目表的两维,如此就可以清楚地了解测验内容所代表预测内容的程度。1内容效度ix 校标关联效度是用测验分数和校标之间的相关系数表示测验效度的高低,校标就是检测效度的参照标准。测验与当前校标之间的关联程度称为同时效度,测验与将来校标之间的关联程度称为预测效度,这两者统称为校标关联效度。如用数学高考成绩作为校标来检验高中数
24、学会考成绩,两者之间的相关系数就是高中数学会考的同时效度,而用大学一年级的数学成绩作为校标来检验高考数学成绩,两者之间的相关系数就是高考的预测效度。 校标关联效度的计算方法主要是通过计算各种相关系数而求得。在一般测验中,常用学生近期若干次数学考试的平均成绩作为校标分数,计算某次测验的实测分数与校标分数之间的关系系数来估计校标关联度,计算公式如下:niniiiiniiyyxxyyxxr11221)()()( )(为n个学生的考试分数为n个学生的校标分数 iy 、 为相应的平均分xy2校标关联效度一般认为r 值大于或等于0.45即可(三)难度的涵义及其计算方法难度(item difficulty)
25、,也称容易度(facility),简单地说,即是指题目的难易程度,具体可描述为学习者对某道题目所做回答的正确答案的比例或百分比。比如在一测验中的一道题目,如果大多数的考生能答对,那表明该题的难度较小,相反,如果只有极少数的考生能作答,则说明该题的难度较大。根据测验题目的类型及分数特征,有两种计算难度的具体方法,分别为:(1)按平均得分计算难度系数(2)极端分组法计算难度系数。其中, 为被试在题目上的平均得分;W为该题的满分值。1按平均得分计算难度系数对于二分法(0与1,答错记0分,答对记1分)的试题计分方式,难度系数计算式如下:NRP 其中,R是指答对的人数;N则是指参与测验的总人数。对于连续
展开阅读全文