第一讲-数学教育测量与评价概述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第一讲-数学教育测量与评价概述课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第一 数学 教育 测量 评价 概述 课件
- 资源描述:
-
1、数学教育测量与评价 课程概述 ,是一门重要的教育理论课。 教育测量与评价是当今世界教育科学研究的三大领域之一。它不仅在教育科学体系中占有显赫的地位,在教育教学过程中具有重要而广泛的应用价值,而且在实践中具有强烈的导向作用,常常成为教育改革的突破口,因此掌握和了解教育测量与评价的基本原理与方法是极为关键的。 课程概述 数学教育测量与评价课程目标为: 通过本课程的学习使数学教育类专业学生了解数学教学测量与评价前沿研究的成果; 掌握现代化数学教学测量与评价的理论与方法;能利用一些软件进行统计分析与作图;初步形成的数学教学科研能力,并具备在新一轮基础教育课程改革背景下所必须具备的教学评价观念,为培养具
2、有终身发展和创新意识的新型中学数学教师奠定基础。课程概述 数学教育测量与评价也是数学教育专业学生的一门十分重要的教育科研方法类课程。作为数学专业的学生,学习本课程我们更加强调数学的工具性和数学方法的应用。因此,我们将教育科研中的数学方法作为本课程的教材蓝本,将紧密联系数学教育教学科学研究实际,要求学生关注知识与方法的应用,特别是数学方法在教育科学研究中的应用。数学教育测量与评价数学教育测量与评价 1.学习目的:通过学习了解数学教育测量与评价的基本原理,运用数学教育测量与评价获得信息,对数学教学进行测量与评价,从而指导数学教学实践。 2内容介绍:了解和掌握数学教育测量与评价的基本概念,学会运用教
3、育统计学的基本理论进行教学测量与评价。 3考核或方案:运用教育测量与评价的基本原理,结合教学实践,选一个课题进行教学评价。 4.教学用书和主要参考书目: 教学用书:魏立平著教育科研中的数学方法中国科学技术出版社,2001年8月第1版 主要参考书目: 1田万海等著数学教学测量与评估上海教育出版社,1995年12月第1版 2王孝玲编著教育统计学,华东师范大学出版社,2001年7月第1版 3王孝玲编著教育测量华东师范大学出版社,2001年4月第1版 一、教育测量与评价在教育科研中有重教育测量与评价在教育科研中有重要的应用重要性要的应用重要性 如:如: 研究性别与数学学习成绩的关系;研究性别与数学学习
4、成绩的关系; 研究某教学方法的效果;研究某教学方法的效果; 研究某自编试题的质量(信度、效度、研究某自编试题的质量(信度、效度、难度和区分度等);难度和区分度等); 研究智力因素和非智力因素对学生学习研究智力因素和非智力因素对学生学习的相关性。的相关性。二、教育测量与评价概述 什么是教育测量 (一)测量的定义 测量是根据法则给事物分派数字。(史蒂文斯) 测量这一定义包含了三个要素: 1、法则给事物的属性分派数字的依据 2、事物属性-测量的对象或目标 3、数字描述事物属性的符号(二)四种测量量表量表一般称为测量工具。1、名称量表(类别量表)最低水平的一种量表它只是用数字表明事物的类别或性质不同而
5、已,没有任何数量大小的意义,不能作数量化分析,也不能将之进行加减乘除运算。2、等级量表(顺序量表)用来描述各个类别的数字,不仅具有区分性,而且还具有等级性(或顺序性),因此,量表上的数字之间能表示事物大小的位次关系,但不具有等距性和可加性,也不能进行加减乘除运算。3、等距量表量表上的数值不仅具有区分性、等级性,还有等距性,这类量表上的数值只能作加减运算,不能作乘除运算。4、比率量表最高水平的量表有相等单位和绝对零点,量表数值可以进行加减乘除的四则运算。(三)什么是教育测量 教育测量就是依据一定的法则,对教育活动中的某一现象给予数量化的描述。 思考: 心理属性是否也可以客观地进行测量呢?两个理论
6、基础 “凡物的存在必有其数量”(桑代克) “凡有数量的东西都可以测量”(麦柯尔)教育测量的特点 测量结果的间接性和推断性 测量对象的复杂性和模糊性 测量目的的针对性 度量单位的相对性什么是教育评价 思考: 当你看到这个问题时,或者说,当你听到教育评价这个词时,你最先想到的是什么?实验结果:依人数的多少排列: 学生: A、测验B、等级C、成绩D、不公平E、判断 任课教师: A、测验B、测量C、等级D、成绩责任制E、对个人秘密的侵犯(一)教育评价的界定 1、教育评价就是教育测验 2、教育评价是一种专业判断 3、教育评价是把实际表现与理想目标相比较的活动 4、教育评价是系统收集资料,为决策提供依据的
7、活动 教育评价:教育评价是根据一定的教育目标,运用可行的科学手段,通过系统地收集信息资料和分析整理,对教育活动、教育过程和教育结果进行价值判断,从而为教育决策提供依据的过程。(二)教育评价的特征 1、教育评价=事实判断+价值判断 2、教育评价是对教育过程及其结果的评价 3、教育评价必须以教育目标为基准 4、教育评价是评价者与被评价者的双边合作活动(三)教育评价中的关系1、教育评价与教育测量、教育评价与教育测量联系:联系:教育测量是教育评价的基础,教育测量是对教育进行量的测定,所或得的结果是教育评价所需信息的主要的、可靠的来源,是对教育的状态和价值进行客观判断的前提;教育测量的结果只有通过教育评
8、价这个环节才能获得实际意义,否则便成了一堆抽象而枯燥的数字。区别:区别:两者着眼点不同:教育测量是为了取得数据;教育评价是要分析解释,对教育价值作出判断。两者特点不同:教育测量是一种纯客观的过程,具有客观性特点;教育评价具有客观性与主体性相结合特点。两者复杂程度不同:教育测量是对教育数量化的描述,关心量的获得,活动较为单一;教育评价着眼于事物质的判定,含定性与定量分析,活动是多重的。2、教育评价与教学评价 联系:联系: 教学评价是以教学为对象的教育评价,只是教育评价的一个方面,用逻辑学术语讲,教育评价是一个上位概念,而教学评价仅是一个下位概念。 区别:区别: 教育评价的范围比教学评价要广得多,
9、它不仅关注教学评价,还有学校管理评价、教师评价、学生评价、课程评价、总务评价等等。3、教育评价与教育督导 联系:联系: 两者皆以党和国家的教育方针、政策、法规为依据; 目的都是为了加强对教育工作的科学管理,全面提高教育质量; 督导工作过程主要有监督、检查、评价、指导、反馈若干环节,评价是诸环节的核心,无论是监督和检查,还是指导和反馈,都离不开评价这个手段。 区别:区别: 评价只是督导工作内容的一部分,只构成督导工作的前提和基础,而不是其全部; 督导工作中所使用的评价即督导评价是一种自上而下的他人评价,只是教育评价的一种形式,而不是教育评价的全部。(四)教育评价的类别 1、从评价主体上分 他人评
10、价 自我评价 2、从评价标准上分 相对评价 绝对评价 内差异评价 3、从评价功能上分 诊断性评价 形成性评价 总结性评价 4、从评价方法上分 定性评价 定量评价三、教育测评的发展阶段 (一)教育测量的发展阶段 1、教育测量的萌芽阶段(1864年以前) (1)中国古代教育测量 A、中国是考试制度的发源地 根据学记记载,早在我国的西周时期,就实行了教育考评。所以,教育测量发生的最早源头在中国。 B、中国科举制度的世界地位 科举考试始于隋,兴盛完备于唐,废于清末,是我国实行时间最长的一种选士制度,对我国乃至于对世界的考试制度有重要的影响。 科举制是通过分科考试来选取人才,采用口试、贴经、墨义、策问、
11、诗赋等方法测试考生。(2)西方教育测量的发展 A、教育测量的诞生 18世纪以前的西方各国,由于学校尚未普及,学校考试主要是口试。 1720年,英国剑桥大学首先以笔试替代口试,开西方学校考试笔试之先河。 1845年,美国初等学校普及,学生人数激增,对毕业生一一口试已不可能,于是,美贺拉斯曼于1847年引进笔试,取代口试。B、教育测量的蓬勃兴起 1864年,英国格林威治医院附属学校的教师费舍,收集了许多学生成绩样本,汇集了一本量表集,作为度量学生各科成绩的标准,这可以说是客观标准化测量的萌芽。 引起人们对测验问题极大关注的是美莱斯博士的拼字测验。 20世纪初,比纳智力量表推出,比纳被称为智力测量鼻
12、祖。 1904年,美国心理学家桑代克出版心理与社会测量学导论,桑代克被称为教育测量鼻祖。C、教育测量的深入发展 教育测量量表的编制突破了过去单一答案的求同思维题,发展到有了求异思维题和论文题; 教育测量范围由过去偏重于学生学习成绩的测量,发展到涉及课程设计、教材、教育改革方案等的测量; 教育测量由过去单一的常模参照性测验模式,发展到常模参照性测验与目标参照性测验相结合的模式; 教育测量本身的理论研究与技术开发更加深入与完善。(二)教育评价的发展 1、现代教育评价的产生 教育评价产生于本世纪30年代对美国测量运动的反思与批判。 教育评价产生的标志是“八年研究”。 泰勒提出了教育评价的概念,且提出
13、了以教育目标为核心的教育评价理论,泰勒被称为“教育评价鼻祖”。2、现代教育评价的发展阶段 初步发展时期(19301958年) 这一阶段教育评价仍然受泰勒模式的影响,注重教育目标的研究; 迅速发展时期(19581972年) 这一阶段泰勒模式受到挑战,出现了不少新的教育评价理论与模式; 专业化发展阶段(1973年以后) 这时期教育评价发展具有一个显著特点:就是走向专业化。第二章教育测量的质量指标 衡量教育测量的质量,可采用四个指标: 信度主要对整个测量而言。 效度 难度主要对测量的项目而言。 区分度一、信度概述 (一)什么是信度 信度是指测量结果的稳定性或可靠性程度。 一般地说,一个好的测量必须具
14、有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。 必须从以下两个方面去理解测量的信度: 信度指实测值(X)和真值(T)相差的程度; 信度指两次重复测量或等值测量之间的关联程度。(二)信度的估计方法 1、重复信度(再测信度) 指的是同一个量表对同一组被试施测两次所得结果的一致性程度。 其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。例一 用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠? 学生序号123
15、456789101112 X202021222323232425262627 Y202121202323252526262729在使用重测法计算稳定性系数时,应注意以下问题: 1、信度的取值范围为0,1,当信度值较大时,说明前后两次测量结果比较一致; 2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定; 3、重测法适用于速度测验而不适用于难度测验; 4、应注意提高被试者的积极性。2、复本信度 指的是两个平等的测验测量同一批被试所得结果的一致性程度。 其大小等于同一批被试在两个复本测验上所得分数的相关系数。 所谓复本测验是指在性质、内容、题型、题数、难度等方面都
16、一致(或相等)的两份或多份测验。例二 以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何? 学生序号12345678910 X19191817161515141312 Y20171818171513151212复本信度的优缺点表现: 优点: 1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性; 2、两个复本在同时使用时,可
17、以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。缺点: 1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在; 2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度; 3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性; 4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。3、折半信度(分半信度) 就是将测验分半,再求被试在每一半测验上所
18、得分数的相关系数。 首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半; 然后计算每个被试在两个分半测验分数的积差相关系数,再用斯皮尔曼布朗公式加以校正。 斯皮尔曼布朗公式为例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的折半信度?学生序号题序12345611000002000100310100041100105100100611101171111018110110901100110111111作业 1、用某量表
19、测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y,问测验结果是否可靠? 学生序号12345678910 X810961075794 Y9101061084894 2、对10名应试者先进行某种测验X,隔适当时间后(半年),再进行内容、范围、难度类似的第二次测验Y,试求测验的复本信度? 应试者12345678910 X9101061084894 Y4979435324 3、有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,学生即毕业离校,现怎样评价测验结果的信度? 学生序号12345678910 奇X3837384140
20、3638394035 偶Y37373639393438393936(三)提高信度的方法 1、影响测量信度的主要因素 (1)被试方面 (2)主试方面 (3)施测情境方面 (4)测量工具方面 (5)两次施测的间隔时间方面2、提高测量信度的常用方法 (1)适当增加测验的长度 (2)测验的难度要适中 (3)测验的内容应尽量同质 (4)测验的程序应统一 (5)测验的时间要充分 (6)测验的评分要尽量做到客观化,减少评分误差二、效度的概念 (一)什么是效度 效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。 1、效度是一个相对的概念。 (1)测量的效度是相对一定的测量目的而言的
21、(2)测量的效度是相对测量的结果而言的 2、一种测量的效度只是高或低的问题 测量结果总是有一定效度的,只是效度高低不同罢了。(二)效度的估计 效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。 1、内容效度 就是指测验内容对所要测量的内容的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。 为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。2、内容效度的估计 (1)逻辑分析法 其工作思路是请有关专
22、家对测验题目与原定内容范围的吻合程度作出判断。 (2)统计分析法 从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。 采用求统计量的公式进行计算,其公式有以下三种形式:例一 在社会发展史某一单元教学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的内容效度? 学生序号12345678910 教学前X34403230313544334236 教学后Y52645054586372626250结论 然后根据自由度df=N-1=9,查t值表,寻得0.01显
23、著性水平t的双侧临界值为t(9)0.01=4.781,而实际计算出的t=13.974.781=t(9)0.01,于是可以说,教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出判断,社会发展史中该单元测验的内容具有有效性,或内容效度较高。 内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。 内容效度不适合用于能力倾向和人格测验。2、结构效度 是指测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。 例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认
24、为该测验是个结构效度较高的创造力测验。(1)结构效度的特点 结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。 当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检查等情况,这就使得结构效度的获取更为困难。(2)建立结构效度的步骤 A、提出理论假设; B、根据假定结构拟定测题,编制测验; C、以测验结果为根据来验证假设结构中的各种因素是否成立。(3)结构效度的估计 A、因素分析法 其目的是把一些具有错综复杂关系的
25、因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。 B、多元特质多重方法矩阵法 是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法。 这种方法的设想:若采用两种方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。 从理论上说,以不同方法测量同一特质的相关应当为最高;以相同方法测量不同特质的相关次之;以不同方法测量特质的相关为最低。 与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。3、效标关联效度 是以测验分数和效标之间的相关系数来表示测验效度高低的方法。 例如:某年全国高考物理学科的
展开阅读全文