书城社科当前我国基础教育课程
31277800000038

第38章 当前我国基础教育课程改革的教学评价观研究(4)

总的来说,应该以实事求是的态度来看定量评价与定性评价,重视评价方法的多元,注重开放式地收集评价信息,全面了解教学效果。在我国基础教育考试评价改革中,应从实际出发,既不能片面强调单一的定量评价,也不能脱离实际,用定性评价完全取代定量评价。事实上,人们对单纯量化弊端的认识由来已久,如阿莫纳什维利的无分数尝试。但是需要明确的是,尽管阿莫纳什维利主张取消分数制,但在教学评价中并非没有量化的因素。他测验学生在学习活动中的正误程度及其速度,如学生每分钟可阅读多少个印刷符号,每堂课能做出几道算术题,对错各为多少,作文课上每小时能写多少字,等等。这种旨在了解学生学习的进展情况和掌握知识的牢固程度与熟练程度的评价,其中的量化因素更加细致而具体。另一方面,也要意识到实施定性评价是有条件的。特别是当班级越来越大,教师无法深入了解学生时,教师对学生的分析会越来越肤浅,评语会越写越简短,甚至缺乏实际内容与针对性,千篇一律、千人一面,使定性评价流于形式而不能发挥应有的作用。

接下来,再分析过程评价与终结评价。“形成性评价和总结性评价这些术语是20世纪60年代晚期才出现的” [17],对于学生的课业发展评价来讲,终结性评价主要是判断学生在某一时间点所取得的成就或表现,关心教学目标的达成情况,了解学生会什么和不会什么。它通常借助阶段测验或水平考试的形式。应该讲,任何有计划、有目的的教育活动,其终结性评价都是有意义的。那些“只顾耕耘,不问收获”的做法,不是终结性评价所倡导的。当然,终结性评价对不同学生个体如何取得现有的学习结果以及在学习历程中存在什么问题,不是特别关心。相比而言,过程评价是针对课程实施过程或学生学习过程所进行的评价,经常采用形成性测验和诊断性测验的评价方法。在过程评价中,更加强调评价者对师生行为的理解,师生在活动中出现某一种特定的行为,不是简单地把它与既定的标准相对照,看其有无差异或差异程度如何,更重要的是去发现外在行为背后的原因,特别是注重分析典型或异常行为背后的原因。与之类似的还有目标游离评价,即评价者寻求教育方案及教育活动等可能产生的一切扩散的、潜在的、在评价时不一定可以感觉到的效果,而不把评价局限在指标体系规定的那些内容中。支持者认为,这样一种评价方法可以确保评价更加科学合理,尽可能反映不同课型、不同学科的特点,而且可以确保课堂教学追求特色和创新,实现“以评促教”的目的。

与之前的讨论类似,二者的优劣其实早已一目了然:过程评价有很强的灵活性,不足之处是总体效益低,主体主观性强,易受干扰。终结评价准确高效、适应性强,并且具有说服力强的优势,不足之处是重结果,忽视评价者与被评价者之间的交流,缺乏灵活性。因此笼统地看,两个评价方式间是一种优势互补的关系,仅有任何一个都是不完善的。恰当处理好两者间的关系,可以充分发挥各自的长处,弥补缺陷。“教育价值有两种含义:教育中的价值和教育的价值。前者指教育中应该在学生身上培养哪一些价值;后者是指怎样的活动才具有教育上的价值,才能有效地获得那些教育中的价值。” [18]一般来说,结果评价是以往教学评价的主要形式,在进行教学结果评价时,所收集的信息比较单一,且在大多数情况下是量化信息,依据这些信息得出的评价结论以分数为主要表现形式。新一轮课程改革强调关注学习过程,把评价贯穿在日常教育教学过程中。应该说,这种主张对实践是有建设意义的。我们都知道,简单一次期末考试确实很难反映学生在一个学期里的学习情况和多项能力的发展,同时会给学生带来较大的心理压力,产生紧张情绪和恐惧心理。将一次性的终结考试改为结合教学过程进行的多项考查,既有利于促进学生积极参与教学过程,掌握一定的知识、技能和方法,又能减轻学生的心理负担,积极参与各项考查活动。每次考查只是对学生学习过程的检查与反馈,学生能通过考查调整学习方法和学习进度,寻求成功的途径,激发内在动机,促进其主动发展。

最后,讨论一下评价方法的科学化和繁琐化倾向问题。教学评价追求的方法是尽量科学化,这一点是毋庸置疑的。由于科技的进步,新的科学评价方法和工具不断引进到评价领域,如系统科学的方法、模糊数学的方法以及计算机的运用等,使得教学评价的方法更加多样化,领域也更加宽泛。由此,在过去一般性的统计分析的基础上,如平均分、答对率等之外,我们有了更多的工具。这一点是可喜的。如对学生学习效果进行评价时,不仅可以通过班级内的课堂测试、单元结束时的阶段测验、学期末的年级考试、跨学校的统考等笔试形式,获得相对划一的信息,也可以通过对学生作文、读书报告、日记、小制作、绘画等日常作品的收集,反映学生学习个性化和多样化的信息,还可以通过教师的课堂观察和日常观察了解学生的学习方式和结果。通过多渠道、用多种方法获得的学生学习的情况,就可以形成学生学习发展的全景,依据这些评价信息也可以互相验证,防止出现漏评或错评,对学生学习评价的结论也能够更具个性化,可以有效地避免学生评价中长期出现的单一化和僵化的弊病。

但是,随着名目繁多的评价方法而来的便是另一个值得重视的问题———评价的繁琐化倾向。教学评价本来就有多种方式,新课程改革更加强调评价方式的多元化,出现了自评、互评、小组评、全班评、学生评、老师评、家长评,以及“自我评价表”“小组合作表”“创新表现表”等名目繁多的评价手段。这固然有利于活跃教学氛围、促进学生的学习积极性,发现教学的成败得失。但名目繁多的评价必然需要花费较多时间,同时这些评价的可信度、效度和区分度也是个问题。比如纸笔测试,长期以来一直是学业评定的主要方式。它有着诸多优点,如比较全面地检测书面知识、技能的掌握程度,且能大规模组织,并有很高的效益,它便于记录学生的答案以及分析研究,便于制定统一的标准,提高测验效度等。从总体上来看,以纸笔为工具的书面考试,主要适合于检测与文字符号使用相关联的认知方面素质的发展状况,比如知识掌握、语言智能和数理逻辑智能的发展等。因为这些素质主要是在符号活动中存在和表现的,或者说是以符号为对象和工具的。当然,纸笔测验也有缺点,更确切地说,它的长处也正是其短处,如多局限于认知领域的教学目标。那些主要不以文字符号作为对象或工具的素质,如动手操作技能、品德、情感、意志、价值观等,无法通过书面考试的方式得到很好的检测。也正因如此,有人便提出要转向表现性测验、推荐和面试等方法。当然,倡导在纸笔测试之外展开多种评价方法,是有益的,但切勿矫枉过正,一味地排斥纸笔测验。比如推荐与面试的长处是可以比较真实地了解被试者的综合信息和实践能力,但是必须有“时间”的成本和“社会诚信”的保障。中国历史上曾采用过这样的形式,但因跨不过这两道“成本”之坎,而只能“小本经营”,未能成为评价的主流。不仅如此,在遥远的大洋彼岸,亦有同样的例子:自20世纪50年代开始,由美国心理学会(简称APA )等制定的枟教育与心理测验标准枠就成为学业考试的核心质量标准,并为大规模标准化考试提供了良好的专业规范。经过四次修订,枟教育与心理测验标准枠已经比较成熟。但在教育评价发生范式转换之时,这一质量标准在教育中的应用受到广泛的质疑:基于心理测量学、为大规模考试设定的质量标准,能否适应作为教育过程一个不可分割的组成部分的、指向学生学习改善的教育考试?事实上,自从枟教育与心理测验标准枠出台以来,美国出现了众多标准,如教育测验服务机构(简称ETS)在20世纪80年代中期开发的枟ETS质量和公平标准枠,美国心理学会在1986年针对20世纪80年代以来计算机化考试的急速增长而开发的枟基于计算机的考试和解释指南枠,1988年考试实践联合委员会组织开发的枟教育中的公平考试实践规范枠等,都试图规范教育考试。这些标准或规范基本上都源于1985年版的枟教育与心理测验标准枠,其中有些达到了相当成熟的程度。但遗憾的是,这些标准甚至在大规模考试实践中都未能得到良好的运用,许多教师甚至根本不了解什么标准和规范。导致这一结果的原因很多,但最关键的一点,显然在于测验手段过于繁琐,甚至神秘化。

评价繁琐化的倾向在国内研究中同样有所表现。在1985 年第6期枟教育评论枠上,两位研究者引荐了一种新的教学评价方法:FSP表。根据这篇文章的介绍,日本的藤田广一教授于1969年发明了S唱P表作为教学评价的手段,他们则利用模糊集理论对S唱P表进行改造,构造成F唱S唱P表。

如表1所示,Pj表示问题,j=1,2,囗,m,它是按问题答对人数多少而依次排列的,即题目从易到难的排列并非原试卷的题号。

Si 表示学生,i=1,2,囗,n,它是按得分从高到低依次排列,并非原来学生的序号。

2007年,有学者提出一种现代教学评价的新方法:“量规”。它是一种评分工具,通常给一个作品或其他成果形式(如一篇文章的观点、组织、细节、表达、布局等)列出准则,并按从优到差的级别明确描述每个准则的水平( Heidi Goodrich An唱drade ,1997 )。一个量规是一套等级标准,每个被认为重要的评价方面/元素都有一个等级指标,每一元素的等级指标由几个等级组成,用于描述不同的绩效水平。

按照研究者的说法,不同的教学目标或学习单元需要不同的评价量规。因此,教师需要根据一些基本步骤,自行设计和开发量规见表2 [19]。

不仅如此,研究者还提供了一个研究型学习评价量规的范例:

在研究型学习中,根据评价内容的目标,可以确定量规的评价元素,即研究问题、信息收集、信息分类、信息分析和最终学习产品。各个评价元素等级可以划定为4、3、2、1(4代表“优”,3为“良”,2为“中”,1为“差”),对学生不同等级行为(认知或技能表现)在绩效上从好到差进行描述。如在评价“研究问题”这个元素时,绩效最高的是等级4,充分体现了学生学习的主动性、积极性和创造性。

2009年,有学者提出在教学评价中应用“逻辑特征映射人工神经网络”,这是针对非线性分类问题提出的一种全新的人工神经网络模型。将逻辑特征映射人工神经网络应用于教学评价,具有一定的科学性、合理性、智能性,可以说是教学评价的一个巨大进步。通过逻辑特征映射人工神经网络模型对学生成绩进行分类,对同一门课程成绩进行多角度分析,对教学质量给出一个客观的、科学的、全面的评价,为决策者提供了直接有效的决策依据。研究者进一步解释说:生物系统的共同特征是其对生存环境的适应能力,即在生存中寻求规律、规范行为。同样,生物系统这一特征也是自组织特征映射( Self唱Organizing Feature Map, SOFM)人工神经网络所追求的目标:在无监督的情况下,从输入数据中寻找并输出有意义的规律。逻辑特征映射( Logistic Feature Map , LFM)人工神经网络,是基于SOFM的基本原理,并针对SOFM存在的问题提出的一种新型人工神经网络。LFM网络训练算法是一种后序遍历逻辑二叉树算法,具体如下: [20]

LFM网络与SOFM网络的工作过程基本相同,其基本步骤如下:

第1 步 对训练模式进行归一化处理,

x′彼= xu¨-minj/maxj -minj

第2 步 逐一输入训练模式,通过竞争算法,确定竞争层获胜人工神经元。

第3 步 输出竞争层获胜人工神经元的逻辑特征。

通过实证研究,他们得出结论:逻辑特征映射人工神经网络是一个新的人工神经网络模型,将该网络应用于教学评价系统中,得到了理想的应用效果。与SOFM相比,LFM更适用于海量的非线性数据的分类,收敛速度比SOFM快很多。实验表明采用SOFM对学生考试成绩( 3 459位学生)的分类需要26小时才能完成,而采用LFM瞬间就可以得到结果。另外,由于学生的考试成绩的分布非常密集,采用SOFM进行分类,只能分得一类。因此, LFM更适用于学生考试成绩的分类,能更有效地应用于教学评价中。

上述种种,无需多言,相信大多数教师看上一眼,便会知难而退。很显然,教师的主要工作是教学,评价虽然包含于教学环节之中,但毕竟只是其中的一环。我们不能要求教师像专门的研究者那样,具备各种统计学知识,并且还能够腾出大量的时间专注于教学评价。