高考命题创新如何更好测出学生素质能力又防止让老师学生感到措手不及?英语一年多考如何实现多次考试的公平、同质、等值?未来高考成绩将由三部分组成,不同类型的考试分数如何科学地转化和合成?在当前整个社会诚信体系尚没有完全建立的情况下,综合素质评价如何公平评出优、良、中、差并有效用于高考?
针对高考改革最受关注的多个热点及难点问题,本文从考试和测量的专业角度进行了回应,并从理论和实际操作的不同层面梳理出关于未来高考改革7个值得关注的动向。“京城教育圈(bjeduvision)”推荐此文,供圈友们参考。
国家陆续出台了深化考试招生制度改革的系列文件,提出了多项高考改革的任务和措施,抓住了教育改革的关键,使之成为牵引教育发展的“火车头”。高考新政呼唤在操作层面上抓紧落实,更新观念,呼唤提高命题水平,从技术上完善措施,让政策尽快落地。
加快高考测试指导理论和方法创新
科学的高考命题应该以先进的教育测量理论和方法为指导。目前,影响我国高考的测验理论和方法主要是经典测验理论和题目反应理论。经典测验理论在上世纪20年代传入我国,其数值体系具有计算上简单、意义上明了和直观的优点,但其参数值(难度、区分度)的变化会使考试分数起伏较大,也无法建立考生得分与题目参数之间的函数关系。题目反应理论引入我国时间不长,从理论上说,它有效地解决了经典测验理论中存在的测验稳定性问题。不过,由于其理论假设是一维性强假设,可操作性弱,存在着考生自我评价的参与和社会接受与理解的问题。
高考命题改革必须遵循测量学的一般规律和基本原则。依据的测验理论不同,则形成的结果和提供的信息也会不同。近来,国家出台了深化考试招生制度一系列改革措施,特别是高考科目调整和权重设置、优势学科选择性考试、学业水平考试、综合素质评价等,涉及大量测验理论和实践工作。当前需要加快高考测试理论和方法的创新,充分利用现代信息技术,把提高理论水平和技术方法贯穿于高考改革工作的始终。
完善高考命题质量保证体系
高考命题质量由试卷固有的品质特性和试卷满足服务对象要求的程度两部分构成。提高高考命题质量须同时做好提高命题技术和完善命题质量评价体系两方面工作。我国现行的高考命题质量评价主要由考试部门提供的考后数据统计分析,其所提供的主要是试题的内部效度证据,而不是试题的外部效度证据。一般来说,试题的外部效度可以表现为测试结果与考生中学日常学习的一致性证据,测试结果与大学入学后成绩的一致性证据,考生群体和教师群体对试题测试的满意度证据等。在当前的高考命题质量评价体系中,应该及时增加服务对象评价,这也是提高命题质量的重要途径。
为进一步提高命题质量,要完善我国高考命题质量标准,明确规定高考命题各个关键环节的技术要求、行为规范和关系。同时从命题组织、命题者资格认定、专家评估、考前控制措施、考后评价方法、应急机制等方面加强质量监控。
明确高考命题中的教学导向
自从我国高考实施标准化考试改革以来,高考学科考试说明(考试大纲)便成为考试命题、教学辅导以及考生复习应试等的标准。许多师生甚至就按考试大纲要求进行日常教学和复习,导致只重考试大纲而忽视课程标准。
高考命题的导向影响深刻而广泛。深化高考考试改革,要依据高校人才选拔要求和国家课程标准,科学设计命题内容,增强考试内容的基础性、综合性,着重考查学生独立思考和运用所学知识分析问题、解决问题的能力。高考命题应当观照基础教育特性,适当注重回归教材、降低难度、强化基本能力和基本知识。
按照“不重复”原则,每年高考命题总要设计新题目、变化内容。高考题目、题型创新的目的是更好地测评那些用传统题型无法测评的素质能力,但要防止让教师和考生感到措手不及。高考命题改革还要努力实现使考生不容易受到强化辅导的影响,降低对死记硬背的要求,更多地着眼于考生的潜力,使高考与教育的关系正常化。
加强高考试题的等值性研究
按照新方案,>外语>(课程)实行一年两考,考生可选择其中较好的一次成绩计入高考总分。应该说,改革以后的外语科目是具有介于常模参照性测验与标准参照性测验之间的社会属性考试科目,因此,在试卷要求和设计上存在多次考试的等值性问题。如何实现同一批考生进行两次考试或多次考试保证公平、同质、等值?一般来说,同一考生进行不同次考试,倘若这些考试具有同质性,即为平行测试,那么考生多次考试取其优则是合理的。但是,众所周知,即使是在严格意义上的心理测验上,平行测试几乎是不存在的。多次测试即便所考的内容相同,实现其等值的难度也不小。
解决这个难题,要研究教育与心理测量学中的等值技术。基于项目反应理论的等值实践,通过设置共同锚题进行试题参数和考生能力参数等值转换。目前常见的等值设计可分为随机组设计、等组设计、单组设计、平衡单组设计和非等组锚测验设计。在非等组锚测验设计中,不仅要求锚题具有内容、形式上的代表性,也要求锚题在两份试卷中所发挥的功能稳定一致,要防止由于锚题使用曝光、强化训练等原因可能引起的等值锚题参数飘移发生。
改进评估高考试题难度的技术
高考试卷难度波动会影响到考生的志愿填报、高效录取工作和社会对中学教育的评价。因此,必须进一步提高高考试卷难度设计与控制技术。
我国多年高考中使用的是经典测试理论中的相对难度概念,它受试题内容难度、考生状况、评卷宽严等多方面因素的影响。其中,试题本身的内容难度是其关键要素,包括试题包含的知识广度、知识深度、考核的认知层次、题型、试题复杂程度、试题内容新颖性等。近年来研究形成的估计模型预测技术受到关注,它是在分析影响试题难度的显著性因素基础上,分别运用学科教师主观评估、线性回归分析和非线性的神经网络等建模方法对试题难度进行预测,并对此进行比较,从中选择有效的试题预测难度。
科学处理不同类型考试分数转换与合成
按照新方案,未来考生高考成绩由三部分组成。由于这三部分无论从考试目标、考试性质,还是在计分和评分要求上,都有很大不同,将不同类型、次别考试的原始分数直接相加一直存在很大的局限性。语文和数学科目是具有选拔性功能的常模参照性测验,而学业水平考试是分别采用合格和等级方式来呈现考试成绩的标准参照性测验。由于其本质上与常模参照性测验要求不是一个体系的,它的得分与常模参照性考试的语文、数学、英语得分直接相加,就存在科学性问题。
要研究确立对学科原始得分进行科学转换办法,可以尝试采用线性转换方法对每一科目的原始考分进行转换,保证每一科目考试所测得的考生信息在分数转换前后始终守恒。尝试将原始分数以平均差为单位转换为标准分数,在取齐各科平均差之后,再以预设的各科权重合成考生个人高考实际总分。
国家已经统一了必考科目和选考科目的权重范围,这样会有利于高考分数合成。按照新方案,高校要在国家统一的权重范围内,以招生专业为单位抓紧研究设置每一专业的高考科目在分数合成中的具体权重。
规范高中学生综合素质评价及其运用
综合素质评价主要反映学生德智体美全面发展情况。面对如此庞大数量的学生群体,时间横跨三年,开展综合素质评价,在当前整个社会诚信体系尚没有完全建立的情况下,如何公平评出优、良、中、差并有效用于高考?学校、学生、家长和社会都有顾虑。
首先是学校要客观、全面、真实的记录学生高中三年的日常重要行为、事情,建立行为和素质档案;其次是学校要把学生这些行为、事情进行聚类分析,根据行为的大体性质分成类,每一类再进行粗略的分级并区别程度;然后是建立一个百分比形式的积分系统,用数据说明学生在年级中的排位;最后是将学生三年学习结果以报告的形式通过公示后呈现。
要改变过去那种把学业水平考试和综合素质评价等同的思维,让综合素质评价作为一个过程,关注学生在校三年中的发展增量,综合高中三年的发展历程和积累,全面认识一名学生,甚至进而全面认识和评价一所学校。
综合素质评价的实践主体是学生本人,管理主体是学校,使用主体是高校,但评价方案的设计主体应该是省级教育行政部门。必须由省级教育行政部门领导,抓紧研究构建科学的评价体系,研制高中学生综合素质评价信息化平台。高校要根据考生高中综合素质评价等材料,研究办法,进行初次遴选,按照综合成绩,进行再次遴选,择优录取。
文| 李永生(门头沟区教育委员会主任)
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。