评分员与评分量表间的交互作用对EFL作文评分结果与过程的影响

被引量 : 0次 | 上传用户：jianhua230747

【摘要】

：

要求考生写出一个(或几个)样本的写作任务,即直接写作测试,是目前写作测试中最为常用的方法(Weigle2002)。由于此类测试的评分涉及包含评分员、评分量表、考生、作文、写作任

【作者】

：

李航

【发表日期】

：

2012年期

【关键词】

：

整体量表分项量表评分员评分过程评分结果

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

要求考生写出一个(或几个)样本的写作任务,即直接写作测试,是目前写作测试中最为常用的方法(Weigle2002)。由于此类测试的评分涉及包含评分员、评分量表、考生、作文、写作任务以及评分员培训等在内的多个因素及其交互作用(Milanovic&Saville1996:7； Weigle2002:60； Barkaoui2008:8),评分的过程和结果都常呈现出差异性。而在上述诸因素中,又以评分员与评分量表之间的交互作用对评分的影响最为直接。作为评分过程的核心(Lumley2002:267),评分员通过与作为测试构念的操作化定义的评分量表的交互,直接决定了某项写作测试的实际构念效度,并对测试的信度产生重要的影响。由此可见,量表与评分员之间的交互作用正是写作测试信、效度问题的核心。然而,已有的国内外研究尚未能够就这一交互作用对作文评分过程和结果的影响取得共识。而现有的少数研究在研究方法以及研究设计上也都还存在改进的空间。因此,本研究希望通过综合使用定性、定量的研究方法,对评分员与整体以及分项评分量表之间的交互作用对评分过程和结果的影响作出进一步的说明。结合中国测试实践,本研究针对大学英语六级考试(CET6)的写作部分展开,所采用的实验材料也来自某次CET6考试的实考作文。9名具有一定CET6作文评分经验的评分员,对共60份CET6实考作文使用CET6整体评分量表以及一个专为本研究所设计的分项评分量表,进行了先后两次评分。同时为了获得有关评分过程的实证证据,所有评分员都在对其中10份作文进行评分时作了有声思维报告。此外,为了进一步了解评分员对评分量表的理解、使用以及评价,所有评分员还在完成有声思维报告之余,参与了针对两种量表的问卷调查和半结构式访谈。由于本研究发现有声思维报告的使用会对作文评分的结果产生一定的影响,因此对作文得分的定量分析是以两次独立评分(50份)的结果为依据的。为能分别从群体和个体两个层面说明评分员与量表的交互作用对评分结果的影响,本研究同时使用了概化理论和多层面Rasch模型来对作文得分进行分析。另一方面,为了能对有声思维报告进行全面、细致的描写,本研究根据所使用的评分量表以及具体的研究问题,建构了专门的有声思维报告编码系统。该编码系统对评分策略以及评分员的文本关注点进行了分类描写。在此基础之上,本研究对两次有声思维报告的主要编码类别作了定量比较。同时,为了能在使用不同量表时评分员的评分策略、文本关注点,以及评分难点等方面获得更加深入的理解,本研究还对包括有声思维报告以及评分员对问卷调查和半结构式访谈中相关陈述和问题等的回复进行了定性的和解释性的分析。对作文得分的定量分析显示,评分员与两类量表的交互的确对评分结果产生了不同的影响：第一,概化理论的决策研究分析显示：在只用一名评分员的情况下,使用两种评分量表所得分数的概化系数都未能达到0.7。但各分项分合成分数的概化系数(0.695)却高于使用整体评分量表所得分数的概化系数(0.606)。第二,对比考生层面的分隔指数和信度可知,与使用整体量表相比,分项量表的使用能使评分员对考生的英语写作能力作出更加细致的区分；同时,在使用分项量表时,非拟合的考生数量也较少。这些发现说明,分项量表可能更适合对二语写作能力的测量。第三,不同量表的使用使得评分员在严厉度方面发生了一定的变化。同时,尽管两次评分时,评分员之间在严厉度上都存在显著差异,但由于使用分项量表时,评分员对考生的写作能力能作出更多层次的区分,因此与使用整体量表相比,使用分项量表时,评分员严厉度上的差异对考生得分的影响更小。此外,概化理论对分项量表各分项分数的分析还表明,在对比较局部的语言特点,如语法和词汇进行评分时,评分员在严厉度上的差异较小；而在对句子或语篇层面的文章特点,如句子结构、连贯性和内容进行评分时,这种差异则较大。这说明,对能被较为客观描述的分项量表维度,如语法和词汇,评分员能对其在理解和使用上都达到较高的一致性。第四,尽管在整体上,评分员在两次评分中都实现了较好的自身一致性,但在使用整体量表时,有4名评分员显示出了过度拟合的倾向,这说明他们的评分存在着一定的趋中性。另一方面,偏差分析发现,在使用分项量表时,评分员与考生之间以及评分员与量表维度之间都存在着更多的显著交互作用。可能的原因是：第一,分项量表的使用导致评分员需对作文给出多个分数,从而增加了出现这两类交互的机会；第二,尽管参与本研究的评分员都有较为丰富的CET6作文评分经验,但他们都没有使用过分项量表。而这种对量表使用的不熟练可能给他们的自身一致性带来了负面的影响。此外,评分员与考生之间的偏差分析显示,两类量表的使用导致了不同的偏差交互模式。首先,使用整体量表时,评分员与能力度量值高的考生之间出现偏差交互的概率更高,但在使用分项量表时,他们则更容易与能力度量值低的考生出现偏差交互。其次,尽管在使用整体量表时,评分员呈现出对较高能力的考生偏严而对较低能力的考生偏松的趋势,但这一趋势在他们使用分项量表时则相对不明显。最后,评分员在使用分项量表时,与处于能力度量值两极的考生之间出现的偏差交互频率较高,但这一趋势在他们使用整体量表时却不明显。第五,多层面Rasch模型对评分量表使用情况的分析表明：评分员对整体量表的个别分数(11,12,13)的使用未能达到模型的预期;此外,几乎所有相邻分数起始值间的间隔都未能达到1.4个对数单位,即这些分数间的区别都不明显。相比之下,分项量表全部5个维度的所有分数的使用情况都未现异常；此外,所有相邻分数起始值间的间隔也都处在1.4个对数单位到5个对数单位的合理区间内,即所有相邻分数间都存在明显的差别。以上定量分析的结果表明：在使用分项量表时,评分员更容易对量表各分数作出明确的区分,而他们在严厉度上的差异对考生能力估计的影响也更小。更为重要的是,分项量表的使用能够使评分员对考生的二语写作能力作出更加细致和准确的区分。尽管在使用一名评分员的情况下,各分项维度上的信度表现不尽如人意,但其合成分数的信度表现却接近0.7。而由于五个分项维度的全域分数间的相关系数很高,这就为将各分项得分进行合成提供了依据。虽然本研究也发现使用分项量表时会产生较多的评分员与考生以及分项维度间的交互作用,但已有的研究(Engelhard1992； Weigle1998； Cho1999)表明：培训能有效地提高评分员的自身一致性,减少评分员与考生以及分项维度间的显著交互。因此,总的来说,本研究定量分析的结果表明,分项量表的使用对二语写作测试的评分结果能产生更为有益的影响。另一方面,对有声思维报告以及对评分员所进行的问卷调查以及半结构式访谈结果的定量、定性分析则显示：评分员与两类量表的交互也对评分过程产生了不同的影响。第一,不同量表的使用导致了评分员在评分策略使用上的差别。使用整体量表时,评分员更频繁地使用了理解性策略,尤其是用于自我监控的理解性策略,如对文本的阅读,以及考虑局部语言特点的判断性策略。同时,整体量表的使用还导致了评分员更多地使用那些能帮助他们建构文章整体印象的评分策略,如对文章的总体印象进行明确的表达,以及对考生的语言能力以及考试策略等方面进行推测等。此外,由于评分员在区分相邻分数上存在困难,因此他们也更频繁地使用了考虑相邻分数的判断性策略。而在使用分项量表时,评分员则更多地使用了判断性策略,尤其是自我监控的以及评判文章质量的判断性策略。同时,由于在使用分项量表时,评分员需要对语言使用的不同方面进行评分,这也导致了他们更频繁地使用对错误分类的理解性策略。以上发现说明：评分量表所包含的评分方法以及关注点对于评分策略的选用有着不容忽视的影响。第二,不同量表的使用也导致了评分员在文本关注点方面的差别。相比使用分项量表,在使用整体量表时,评分员更多地关注了语言使用的整体质量以及非量表相关的语言特点,尤其是中式英语。同时,他们对文章的可理解性,拼写错误以及词汇量方面的关注也更频繁。而相比使用整体量表,在使用分项量表时,评分员则更多地关注了连贯性和语法,尤其是这两方面的整体质量。同时他们对内容的完整性、句子结构及词汇的整体质量以及错误频率的关注也更频繁。此外,在使用分项量表时,评分员在文本关注点上的个体差异也较小。以上发现说明：评分员的文本关注点受评分量表所包含的描述项以及关注点的影响。同时,由于分项量表所含的描述项更为具体细致,而评分员又无需对评分标准所含各部分进行权衡以作出一项整体的评分决定(Goulden1994),因此他们在文本关注点上的个体差异也更小。此外,本研究的发现也说明分项量表的使用有助于将评分员的关注点更多地集中到量表所含的标准上,这主要体现在他们较少使用文章间比较的判断策略以及较少关注非量表相关的语言特点这两个方面。第三,尽管使用两种量表时,评分员都在对连贯性的评分上遇到了困难,同时他们认为两个量表的描述项在精细度上也都存在缺陷,但不同评分量表的使用也导致了其他一些不同类型的评分难点。在使用整体量表时,评分员的主要难点集中在对相邻分数以及5分和8分两个相邻分数段的区分,同时,在内容、连贯性和语言等三方面有不一致表现的文章也给整体评分带来了困难。而在使用分项量表时,评分员所面临的主要评分难点则是：一,应对五个不同量表维度的评分所带来的认知负荷；二,对各分项维度进行区分,尤其是对句子结构和语法,语法和词汇以及连贯性和语言质量等维度所作的区分。第四,根据上述评分过程的种种异同可推知评分员在与两类量表交互时的主要特征。就评分员与整体量表的交互而言,评分员对量表的理解和使用与量表本身所规定的并不一致,同时评分员还在对量表各分数的界定上存在困难。而就评分员与分项量表的交互而言,尽管评分员对量表的使用与量表本身所规定的较为一致,但他们对量表的理解仍与量表编制者的理解存在差异。以上对评分过程所作的定量、定性分析表明：评分员对量表的理解和使用与量表本身所规定的并不一致,且不一致的程度也因量表的不同而相异。同时,评分员与量表的交互作用不仅导致了评分策略使用上的差异,也导致了文本关注点上的区别。总的来说,尽管分项量表在使用上更为耗时,但这种量表的使用却能减少评分员对非量表相关的语言特征的关注。同时,评分员对这类量表的理解与使用也更符合量表编制者的意图。由此可见,分项量表的使用能对二语写作测试的评分过程产生更为有益的影响。综上所述,在理论层面,本研究的主要发现有以下启示：首先,评分员和评分量表之间存在着复杂的交互作用。一方面,评分量表所含的关注点和描述项会影响评分员对所测构念的理解以及他们在实际评分中所依据的标准,同时,量表所含的分数数量也会对评分任务的难度以及评分结果的精确性产生重大的影响。另一方面,评分员在与量表的交互中也发挥着重要的作用。这是因为：第一,量表无法穷尽对文本特征的描写,而这种描述项与文本之间的“缺口”只能由评分员来加以填补。第二,整体量表各部分的权重以及分项量表各维度间的重叠意味着两种量表自身都会给评分带来一定程度的不确定性。而这种不确定性也只能由评分员来加以解决。第三,评分员对所测构念的理解则又会极大地影响他们对量表的接受程度,他们对整体量表各部分所给予的权重以及他们对分项量表各维度间所存重叠的区分。其次,评分员与整体量表的交互作用会对写作评分的过程与结果产生以下影响：第一,为了对作文作出整体评价,评分员常常使用有助于建构对文章整体印象的策略,并会对文章的总体语言质量进行更多的关注。第二,由于整体量表的描述项往往较为模糊,而整体量表又常常缺乏对各组成部分权重的清晰规定,因此这类量表对评分员的约束力较小,这就导致了评分员会更多地使用非量表相关的评分标准,同时在对量表的使用和理解上,评分员之间也容易出现个体差异。这种差异性不仅反映在他们的文本关注点上,同时也反映在他们的严厉度上。第三,由于评分员倾向于通过关注诸如书法、拼写错误以及词汇量等明显但较为表面的文本特征来得出对文章的整体印象,因此他们仍可能实现较好的自身一致性。但这种做法不仅会对测试的效度产生负面影响,同时也可能限制评分员对量表所含各分数的使用,导致评分出现趋中现象。最后,评分员与分项量表的交互作用会对写作评分的过程与结果产生以下影响：第一,由于分项量表要求评分员对文章质量的某些方面进行评分,因此评分员容易加强对这些方面整体质量的关注,并增加对判断文章质量以及错误分类策略的使用。第二,由于分项量表的描述项往往较为细致,且这类量表无须评分员对其组成部分进行权重分配,因此评分员对此类量表的理解和使用受量表本身的约束更大。一方面,这会增加评分员对较为困难的分项维度(如连贯性)的关注,同时它也会减少评分员对非量表相关标准的使用。此外,这种约束还有助于保证评分员的自身一致性。第三,由于评分员自身对所测构念的理解不同,同时他们对各分项维度间所存重叠的看法也不相同,评分员对量表的理解仍然有着明显的个体差异。这种差异不仅影响了他们的文本关注点,同时也会加大他们在评分严厉度上的差别。最后,尽管分项量表的使用使得评分员出现了更多的与考生及分项维度间的交互作用,但这类量表的使用也有助于评分员对考生的写作能力作出吏为细致的描述和更加准确的区分。除上述理论层面的启示以外,本研究的发现也对CET6写作测试的评分实践,以及对做事测试的效度研究有一定的研究方法上的启示。简言之,CET6作文评分需从量表制定,以及评分员培训两方面进行改进。而在做事测试的研究方法上,本研究的发现表明：首先,概化理论和多层面Rasch模型具有很好的互补性,宜同时应用于对做事测试评分结果的分析。其次,尽管有声思维报告的确会对评分的过程和结果产生影响,并且这一研究方法也无法揭示评分过程的全貌,但它仍然是能直接提供有关评分过程实证证据的最佳研究方法。第三,本研究的结果还证明了采用根据具体研究背景以及研究问题所建构的有声思维编码系统的必要性。最后,本研究也说明了使用多种数据搜集和分析方法对做事测试的研究的必要性和重要性。

其他文献

毛针织品胀破强度与试验面积关系分析

介绍了毛针织品胀破强度试验的原理及方法,并依实际经验和大量试验数据分析了毛针织品胀破强度试验值与试验面积的关系。认为被测试样品的试验面积不同,测得的胀破强度值有很

期刊

针织品毛织物胀破强度面积标准测试

痰湿体质人群胰岛素抵抗相关因子表达研究

目的：痰湿体质作为一种的常见的偏颇体质状态,被认为是易发代谢综合征的一种体质。本课题组前期研究从文献学、流行病学以及实验研究已探讨了其与代谢综合征的相关性。本研究

学位

痰湿体质胰岛素抵抗分子机制细胞因子基因表达

社会学视域下中国房地产市场治理研究

政府与市场的关系是制度经济学中一个重要的问题,现代西方经济理论认为,政府与市场具有一定的替代性,并在合理的体制中可以弥补各自的缺陷。政府的作用是弥补市场机制的缺陷,

学位

房地产市场治理结构强政府博弈

现代城市公交车体广告的设计研究

随着现代城市公交流动媒体的快速发展，公交车已成为是中国城市里最重要的交通工具，与人们日常生活密不可分。公交车在都市里来往穿梭，成为人们出行最主要的交通工具，这也为公交车

学位

公交车体广告设计城市文化设计原则

平衡针改善腰椎间盘突出症疼痛症状的数据分析及疗效评价

目的：通过对大样本随机对照试验的病例及相关数据进行整理、分析和归纳,进一步对平衡针治疗腰椎间盘突出症的疗效进行分析,综合评价平衡针对腰椎间盘突出症疼痛症状的改善作用

学位

疗效评价平衡针腰椎间盘突出症镇痛作用

毒驾入刑问题探析

随着“毒驾”所导致的交通事故日益增多，道路交通安全和人民生命安全被严重威胁，日益凸显的毒驾问题，逐渐引起了有关部门的重视，然而我国对毒驾行为的规制目前还处于法律空白。“

学位

毒驾行为入罪立法

不锈钢渣资源化研究现状

不锈钢渣是不锈钢生产过程中产生的有毒废渣,包括初炼渣和精炼渣,其特殊性在于含有水溶性致癌物质Cr6+,并且在渣的堆放过程中一直持续着Cr3+向Cr6+的转化,严重污染环境.介绍

期刊

不锈钢渣资源化利用脱毒处理微晶玻璃

行政管理体制改革的思路和措施

在世界格局多极化、经济全球化和科技迅速发展的新形势下,深化行政管理体制改革是落实科学发展观的根本要求,是构建社会主义和谐社会的关键所在。近几年来,我国的行政管理体

期刊

行政管理体制改革措施

对2004年法国网球公开赛我国女子双打技、战术水平的分析

本研究对2004年法国网球公开赛我国两对(李婷/孙甜甜、郑洁/晏紫)运动员参加的双打比赛,以及本次比赛前8名世界优秀女双运动员的主要比赛,进行了全程观摩、技术统计与分析。

期刊

法国网球公开赛女子双打世界优秀运动员技、战术

辽宁省新型农村养老保险制度实施效果研究

新型农村养老保险（以下简称“新农保”）制度目前尚处在试点阶段，有关“新农保”制度的财政支持模式、资金供给、制度实施的有效需求等尚处于探索阶段，本文通过“新农保”制度基本

学位

辽宁“新农保”缴费与给付效果评价

评分员与评分量表间的交互作用对EFL作文评分结果与过程的影响

其他学术论文