大规模教育考试理论和实践问题课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大规模教育考试理论和实践问题课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大规模 教育 考试 理论 实践 问题 课件
- 资源描述:
-
1、 大规模教育考试理论和实践问题理论和实践问题雷雷 新新 勇勇上海市教育考试院上海市教育考试院 考试考学生什么?考试考学生什么?考试分数准确、可靠吗?考试分数准确、可靠吗?考试对所有的考生公平、公正吗?考试对所有的考生公平、公正吗?考试的价值观与社会的公认价值观一致吗?考试的价值观与社会的公认价值观一致吗?考试对学校的教育、教学有正面的作用吗?考试对学校的教育、教学有正面的作用吗?大规模教育考试关注的基本问题大规模教育考试关注的基本问题抽象出的考试理论和实践问题抽象出的考试理论和实践问题 考试的信度考试的信度可靠性或分数的误差可靠性或分数的误差 考试的效度考试的效度考试的有效性或对考试结果的解考
2、试的有效性或对考试结果的解 释和适用是否适当、有效。释和适用是否适当、有效。考试的公平、公正性考试的公平、公正性考试平等对待所有考生考试平等对待所有考生 考试的后效影响考试的后效影响考试对社会价值观、对学校考试对社会价值观、对学校 教育教学有何影响教育教学有何影响教育考试的心理学基础教育考试的心理学基础基本假设基本假设 假设假设1 1:人的心理特质是存在的:人的心理特质是存在的 心理特质:一个个体与其他个体不同的、可以识别的、心理特质:一个个体与其他个体不同的、可以识别的、相对稳定的特征(相对稳定的特征(Any distinguished,relatively Any distinguishe
3、d,relatively enduring way in which one individual varies from enduring way in which one individual varies from anotheranother)。例如,人的智力、认知方式、适应性、兴。例如,人的智力、认知方式、适应性、兴趣、态度、价值观、一般个性、特殊个性等趣、态度、价值观、一般个性、特殊个性等根据对人的行为样本的观察可以确定心理特质及其强度。根据对人的行为样本的观察可以确定心理特质及其强度。观察方式:观察方式:direction observationdirection observa
4、tion analysis of self-report statements analysis of self-report statements testing testing教育考试的心理学基础教育考试的心理学基础基本假设基本假设 假设假设1 1:人的心理特质是存在的:人的心理特质是存在的 心理结构(心理结构(constructconstruct):):an informed,scientifican informed,scientific concept to explain behavior.concept to explain behavior.知识与技能、过程与方法、情感、态度和
5、价值观知识与技能、过程与方法、情感、态度和价值观 相对稳定相对稳定(relatively enduring):(relatively enduring):个体在某种程度上表现出个体在某种程度上表现出某一特质是具有环境依赖性的某一特质是具有环境依赖性的.一个个体与其他个体不同的特征(一个个体与其他个体不同的特征(one individual varies one individual varies from anotherfrom another):心理特质的这个属性说明心理特征是一个):心理特质的这个属性说明心理特征是一个相对现象,在教育和心理测试与评价中,评价者也要将对象相对现象,在教育和心
6、理测试与评价中,评价者也要将对象的评价情况与假设的一般人,做出比较,或者直接将同一评的评价情况与假设的一般人,做出比较,或者直接将同一评价群体中的不同个体作比较。价群体中的不同个体作比较。教育考试的心理学基础教育考试的心理学基础基本假设基本假设 假设假设2 2:心理特质或心理结构是可以量化并且测量的:心理特质或心理结构是可以量化并且测量的 定义心理结构定义心理结构 行为目标:根据什么样的行为来判断对象具备的心理结构的行为目标:根据什么样的行为来判断对象具备的心理结构的强度。强度。如何使考生表现出要观察的行为:用何内容的试题如何使考生表现出要观察的行为:用何内容的试题 如何对行为进行量化:赋分如
7、何对行为进行量化:赋分 如何用数学模型进行处理如何用数学模型进行处理教育考试的心理学基础教育考试的心理学基础基本假设基本假设 假设假设3 3:与考试相关的行为可以预测非考试相关的行为:与考试相关的行为可以预测非考试相关的行为 预测什么非考试环境下的行为预测什么非考试环境下的行为?高考:高等教育条件下的行为高考:高等教育条件下的行为 考试中,创造哪种测试环境考试中,创造哪种测试环境 英语:真实的交际语言环境英语:真实的交际语言环境 数学:抽象的、数学:抽象的、academic circumstancesacademic circumstances 物理:真实的、抽象的、物理:真实的、抽象的、ac
8、ademicacademic、experimentalexperimental 化学:真实的、抽象的、化学:真实的、抽象的、academicacademic、experimentalexperimental 地理:真实的、地理:真实的、earth-relatedearth-related教育考试的心理学基础教育考试的心理学基础基本假设基本假设 假设假设4 4:每种测试方法或技术都有其优势和弱势:每种测试方法或技术都有其优势和弱势 Paper and pencil TestingPaper and pencil Testing Oral TestOral Test InterviewInterv
9、iew Class ObservationClass Observation School ObservationSchool Observation 常模参照和标准参照考试常模参照和标准参照考试教育考试的心理学基础教育考试的心理学基础基本假设基本假设 假设假设5 5:测量过程中必然会产生误差。:测量过程中必然会产生误差。误差是指测量心理结构以外的因素所产生的效应。误差是指测量心理结构以外的因素所产生的效应。教育考试中考生的行为表现除受到测量的心理结构影响外,教育考试中考生的行为表现除受到测量的心理结构影响外,还会受到其他因素的影响,这些因素所产生的效应就是误差。还会受到其他因素的影响,这些因
10、素所产生的效应就是误差。误差是所有测量过程一定存在的。误差是所有测量过程一定存在的。误差是测量过程必须要考虑的一个变量,由该变量产生的分误差是测量过程必须要考虑的一个变量,由该变量产生的分数变化称为误差方差。数变化称为误差方差。经典的真分数理论、概化理论、项目反应理论经典的真分数理论、概化理论、项目反应理论教育考试的心理学基础教育考试的心理学基础基本假设基本假设 假设假设6 6:测试和评价可以是公平的、无偏的:测试和评价可以是公平的、无偏的 这是心理测量领域争议最大的一个假设这是心理测量领域争议最大的一个假设 公平、无偏就是要平等地对待每一个考生,无论其性别、公平、无偏就是要平等地对待每一个考
11、生,无论其性别、民族、居住地如何;考生的与测量的心理结构无关的个性民族、居住地如何;考生的与测量的心理结构无关的个性特征对考试结果以及结果的解释没有明显的影响。特征对考试结果以及结果的解释没有明显的影响。公平、无偏的关键是所有考生对测试、评价有足够的了解公平、无偏的关键是所有考生对测试、评价有足够的了解教育考试的心理学基础教育考试的心理学基础基本假设基本假设 假设假设7 7:测试和评价可以造福社会:测试和评价可以造福社会 没有测试和评价就没有甑别,就会出现社会混乱没有测试和评价就没有甑别,就会出现社会混乱。学校教师无法诊断、无法因材施教学校教师无法诊断、无法因材施教 社会无法选择适合各行各业的
12、人才社会无法选择适合各行各业的人才 测试和评价可以对社会的价值观产生影响测试和评价可以对社会的价值观产生影响 测试和评价可以对学校的教育、教学产生积极影响。测试和评价可以对学校的教育、教学产生积极影响。考试的效度考试的效度有效性有效性 效度是指各种证据和理论对考试结果的解释和使用的支效度是指各种证据和理论对考试结果的解释和使用的支持程度。持程度。有效性是一种价值判断有效性是一种价值判断 建立价值判断的标准建立价值判断的标准 收集支持价值判断的证据收集支持价值判断的证据 标准标准测量目标测量目标 证据来源证据来源考试大纲、试题、试卷、考试考试大纲、试题、试卷、考试 结果数据等。结果数据等。证据类
13、型证据类型内容、应答过程、内部结构、与其它变量的关系、内容、应答过程、内部结构、与其它变量的关系、考试的后果。考试的后果。课程标准课程标准 课程标准中学习目标的基本要求课程标准中学习目标的基本要求 可评估性可评估性 可理解性可理解性 可执行性可执行性 可完成性可完成性教育考试的测量目标教育考试的测量目标来源来源中外课程标准学习目标的对比中外课程标准学习目标的对比美国课标美国课标中国课标中国课标注重目标好注重目标好内容规定较笼统内容规定较笼统教学建议较笼统教学建议较笼统无教材编写建议无教材编写建议目标规定较笼统目标规定较笼统内容规定很细内容规定很细有教学建议有教学建议有教材编写建议有教材编写建议
14、教材编写目标明确教材编写目标明确教学目标明确教学目标明确需要选择教材或内容需要选择教材或内容课难上课难上好评价好评价教材与目标不完全一致教材与目标不完全一致不太关注总的教学目标不太关注总的教学目标不需要选择教材或内容不需要选择教材或内容课好上课好上不太好评价不太好评价三个层次的目标体系三个层次的目标体系目标层次混乱目标层次混乱考试的测量目标考试的测量目标构成构成测量目标测量目标Goals Goals are broad statements which specify what the students are supposed to be able to know and to do.具体目
15、标具体目标Objectives Objectives are specific statements which specify what behaviors the students are supposed to show to demonstrate their knowledge and abilities.表现水平标准表现水平标准Performance Standards Performance Standards specify how good of the students behaviors is good.考试的效度考试的效度证据类型证据类型 考试或试卷的内容考试或试卷的内
16、容 应答过程应答过程 内部结构内部结构 与其它变量的关系与其它变量的关系 考试的后果考试的后果考试的效度考试的效度内容方面的证据内容方面的证据 试卷覆盖的学科知识、学科的思维方法(过程)、试卷覆盖的学科知识、学科的思维方法(过程)、学科的(实验)技能的主要行为;这些行为是否学科的(实验)技能的主要行为;这些行为是否进行了适当的描述;进行了适当的描述;这些需要由学科专家和测量专家共同做出的判断。这些需要由学科专家和测量专家共同做出的判断。试题样本是否适当地代表一定的内容领域。试题样本是否适当地代表一定的内容领域。这一证据主要关注的是试题内容的代表性,即试这一证据主要关注的是试题内容的代表性,即试
17、题覆盖的学科知识、学科的思维方法(过程)、题覆盖的学科知识、学科的思维方法(过程)、学科的(实验)技能等,是否足以反映学科知识、学科的(实验)技能等,是否足以反映学科知识、思维方法和(实验)技能。思维方法和(实验)技能。考试的效度考试的效度应答过程方面的证据应答过程方面的证据 考生的应答或在考试中的表现与考试欲测量的心考生的应答或在考试中的表现与考试欲测量的心理结构的一致程度理结构的一致程度 这一证据主要通过观察、交流以及应答结果分析这一证据主要通过观察、交流以及应答结果分析获得。获得。考生应答过程的理论和经验分析考生应答过程的理论和经验分析 这个证据需要既有学科背景,又有测量学背景的这个证据
18、需要既有学科背景,又有测量学背景的专家来分析专家来分析 考生应答过程的观察记录考生应答过程的观察记录 考试的效度考试的效度应答过程方面的证据应答过程方面的证据 试题及试题包测量的行为与考试欲测量的心理结构的一试题及试题包测量的行为与考试欲测量的心理结构的一致程度致程度 试题要有明确的测量具体目标试题要有明确的测量具体目标 命题要按照确定的具体目标命题命题要按照确定的具体目标命题 要对命题教师命制的试题,尤其是设问进行检查要对命题教师命制的试题,尤其是设问进行检查 要对试题的具体目标与总的测量目标的一致性进行评价要对试题的具体目标与总的测量目标的一致性进行评价 内部结构内部结构统计结果统计结果
19、试题包之间的相关关系试题包之间的相关关系 因子分析结果。因子分析结果。考试的效度考试的效度与外部变量关系的证据与外部变量关系的证据 考试分数与外部变量之间的关系所揭示出的与考试欲测量考试分数与外部变量之间的关系所揭示出的与考试欲测量的心理结构之间的关系,对大规模教育考试而言,外部变的心理结构之间的关系,对大规模教育考试而言,外部变量主要是指与考试测量的心理结构相关或不同的变量。量主要是指与考试测量的心理结构相关或不同的变量。一致性关系(一致性关系(convergent evidence)不一致性(不一致性(discriminant evidence)心理结构心理结构A A成绩成绩心心理理结结构
20、构A A成成绩绩心理结构心理结构B成绩成绩心心理理结结构构A成成绩绩考试的效度考试的效度与外部变量关系的证据与外部变量关系的证据 考试与标准测试之间的关系,关注考试结果可以多大程考试与标准测试之间的关系,关注考试结果可以多大程度上准确地预测考生在标准测试中的行为度上准确地预测考生在标准测试中的行为。预测有效性预测有效性同期有效性同期有效性 现在的考试成绩现在的考试成绩未未来来考考试试成成绩绩现在的考试成绩现在的考试成绩同同期期考考试试成成绩绩考试的信度考试的信度传统的认识传统的认识 信度信度不同测量的一致性不同测量的一致性 Temporal stability 相关系数相关系数r Form e
21、quivalence 相关系数相关系数r Internal consistencyalpha信度系数信度系数 内部一致性信度内部一致性信度 内部一致性系数一般是指内部一致性系数一般是指Cronbach系数、系数、KR-20系数或系数或分半系数,最广泛使用的是分半系数,最广泛使用的是Cronbach系数系数 Cronbach系数系数 信度是效度的前提条件信度是效度的前提条件 没有高的信度就没有高的效度没有高的信度就没有高的效度j2Yjj/1)1m/(m考试分数的信度考试分数的信度 经典的真分数理论经典的真分数理论 基本方程基本方程观察分数方差真分数方差信度 误差分数方差真分数方差真分数方差信度E
22、Tx 观察分数观察分数 真分数真分数 误差分数误差分数xTE考试分数的信度考试分数的信度 经典的真分数理论经典的真分数理论 信度系数的解释(信度系数的解释(Nunaally 1967Nunaally 1967)信度系数信度系数解解 释释0.900.90或以上或以上信度很好,达到了最好的标准化测试的水平。信度很好,达到了最好的标准化测试的水平。0.800.80到到0.900.90对学校测试而言,已经是非常好了。对学校测试而言,已经是非常好了。0.700.70到到0.800.80对学校测试而言,大部分试题都很好;可能有对学校测试而言,大部分试题都很好;可能有少数试题需要改进。少数试题需要改进。0.
23、600.60到到0.700.70信度偏低,需要补充其他测试以确定分数或等信度偏低,需要补充其他测试以确定分数或等第。部分试题可能需要改进。第。部分试题可能需要改进。0.500.50到到0.600.60信度低。建议对试卷进行修改,除非试卷的试信度低。建议对试卷进行修改,除非试卷的试题量很少(题量很少(1010题或少于题或少于1010题)。需要补充其他题)。需要补充其他考试来可靠地确定分数或等第考试来可靠地确定分数或等第小于小于0.500.50信度有问题。考试基本无效,需要修改。信度有问题。考试基本无效,需要修改。考试的信度考试的信度新的认识新的认识 不能再将不能再将CronbachCronbac
24、h系数公式看作是检查大部分考试数据系数公式看作是检查大部分考试数据可靠性的最适宜方法可靠性的最适宜方法 。标准测量误差标准测量误差 是衡量考试结果可靠性的唯一指标。是衡量考试结果可靠性的唯一指标。根据考试结果使用的目的设置可以接受的最低测量误差根据考试结果使用的目的设置可以接受的最低测量误差最低测量误差决定了试卷的结构,如试题的数量、试题最低测量误差决定了试卷的结构,如试题的数量、试题的题型及其比例等等。的题型及其比例等等。试题样本采集的独立性试题样本采集的独立性局部独立局部独立 测试内容的不均匀性测试内容的不均匀性单维单维/多维多维评价结果可靠性的方法不一样评价结果可靠性的方法不一样 如何使
25、用测试结果如何使用测试结果 绝对决策绝对决策/相对决策相对决策考试的信度考试的信度新的实践新的实践 首先根据考试结果使用的目的确定可以接受的测量误差首先根据考试结果使用的目的确定可以接受的测量误差 正式考试推出前,要试测,抽出代表性样本,检查试测正式考试推出前,要试测,抽出代表性样本,检查试测卷的测量误差,以便对试卷结构进行修改。卷的测量误差,以便对试卷结构进行修改。命题之前要根据分数合成的要求,确定试卷的维度。命题之前要根据分数合成的要求,确定试卷的维度。单一合成分数单一合成分数单维试卷单维试卷 多维试卷多维试卷根据测量的能力目标、内容领域分别报道分数。根据测量的能力目标、内容领域分别报道分
展开阅读全文