何莲珍、张娟︱语言测试的公平性：内涵、公平观及研究启示

全部

全部
主题
作者
期刊名

2022/02/28

浙江大学何莲珍张娟

提要

考试是迄今为止所实施的相对公平的人才选拔制度，对守护教育及社会公平起到了至关重要的作用。本文在回顾语言测试公平性内涵的基础上，梳理了学界主流的公平观，即“标准”观、论证观和伦理道德观，以及相应的研究进展。本文指出，为保证语言测试的公平性和科学性，学界需继续探究如何处理测试公平性与效度的关系，如何对本土语言考试项目的公平性进行研究，以及如何在测试公平性研究中引入涉考者视角并对其予以关切。

关键词：语言测试、公平性、内涵、公平观、研究进展

引言

测试的公平、公正、公开一直以来就承载了民众的深刻关切和强烈诉求，大规模和高风险测试尤甚。然而，测试反映了测试开发者、使用者及政策制定者的价值观，其间充斥的隐性权力极易滋生教育和社会不公（Madaus 1990）。 20 世纪60 年代末，教育测量学界开始关注题项及测试的公平性（Cole & Zieky 2001）。 20 世纪80 年代末，测试公平性进入语言测试研究者的视野（Alderson 1988），并于 1996 年第十八届国际语言测试研讨会（Language Testing Research Colloquium，LTRC）被正式提上研究议程（Kunnan 2010）。

教育评价与教育公平密切相关，我国政府对此给予了极大关注。2020 年，中共中央、国务院印发了《深化新时代教育评价改革总体方案》，从国家层面明确提出要“扭转不科学的教育评价导向”（中共中央、国务院2020：1）。2021年3月11日，国务院总理李克强在人民大会堂出席记者会时明确指出：“机会公平中，教育公平是最大的公平”。同年发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出要“深化新时代教育评价改革，建立健全教育评价制度和机制”（国家发展和改革委员会2021：131132）。在当下中国，保证测试公平无疑是提高教育评价科学性的关键，对守护教育公平乃至社会公平大有裨益。本文聚焦语言测试公平性这一研究议题，梳理语言测试公平性的内涵、学界主流的公平观及研究进展，以期为开展本土语言考试项目的公平性研究提供更多思路。

2.语言测试公平性的内涵

总体而言，测试公平性的内涵经历了从狭义到广义的嬗变。20世纪80年代，心理和教育测量学领域对公平性的定义局限于考试的技术维度，把测试公平性视作统计学问题（如 Shepard et al. 1981；Angoff 1982）。狭义视角下，测试公平性指在不同考生群体中不存在考试偏颇（test bias）（ AERA et al. 1985）。若考试存在偏颇，则意味着测量过程中的系统性误差会对某一考生群体的表现造成不利影响。这一时期的实证研究尝试运用统计手段对考试偏颇进行检测，其中的项目功能差异（differential item functioning，DIF）检验是最常见的技术手段之一（参见Zumbo 2007）。然而，将“测试公平性”技术化存在一定局限，因为这一界定方式与涉考者对测试公平性的理解严重脱节（Crocker 2003）。此外，考试结果所涉及的决策过程还包含价值判断，测试公平性的内涵也会随之延伸至社会维度。广义视角下，除技术维度外，考生的学习机会（Kunnan 2004）、涉考者对考试内容和评分标准的看法（Crocker 2003）、考试结果的使用（Zwick 2019）、考试对社会的影响（Shohamy 1998；杨惠中、桂诗春 2007）和针对特殊考生群体的考试环境调适（test accommodation）（ Li & Suen 2012）等问题均需予以关切。

迄今为止，“测试公平性”在语言测试界还没有统一的定义，部分学者参考效度这一概念对其进行定义。在这一视角下，定义测试公平性的关键在于厘清公平性与效度的关系（Xi 2010），主要有以下几种观点。第一种观点将测试公平性视作效度的一部分。如Messick（1988）和 Weir（2005）认为考试偏颇造成的不良后果归根结底是考试的效度问题，公平性与考试结果的使用息息相关。Willingham & Cole（1997）将测试公平性定义为考生个体间和群体间的可比效度（ comparable validity）。具体而言，效度可比不仅要求考试分数解读及使用具有可比性，还要求考生展现自己语言水平的机会、评估的程序及评分结果也具有可比性。第二种观点将效度视作公平性的一个方面。如Kunnan（2000b）认为效度是实现测试公平性的必要但非充分条件，除效度外，公平性还应关注不同背景的考生群体在考试过程中是否受到平等对待和应有尊重。这一视角下的公平性强调考生个体的权利和义务。第三种观点认为公平性与效度相互联系，研究范畴或有交叉，但二者研究范围孰大孰小不在讨论之列。Davies et al.（1999）指出，测试公平性关乎考试结果对考生个人、考生群体乃至整个社会产生的影响，它不仅关涉考试效度，也贯穿整个考试过程，在一定程度上反映或影响社会公平。Kane（2010）认为测试公平性和效度涉及测试的方方面面，研究议题或有重叠，但各有侧重，两者无法互相替代。另外，《教育测试实践公平性准则》（JCTP 2004）和《 ETS质量和公平标准》（ETS 2014）均主张减少与考试构念无关的因素以保证测试公平，这一主张与维护考试构念效度的观点不谋而合。

另有一些学者尝试借鉴其他学科视角对测试公平性进行定义。在法律视角下，Kane（2010）将测试公平性分为程序性公平（procedural fairness）和实质性公平（ substantive fairness）两类。前者强调从考试开发到评分各环节，考生应被同等对待；后者强调考试分数解释和用于决策的依据在不同考生群体间的合理性和适切性。在哲学视角下，Davies（2010）认为对公平性的追求徒劳且无必要，解决一个不公平事件会引发另一不公平事件，因此对公平性的追求纯属空想。在社会学视角下，Spaan（2000）将测试公平性视作考试开发者、使用者和考生之间的社会契约，三方有义务共同维护考试公平。考试开发者在确保考试本身科学有效的同时，需指导考试使用者正确解读及使用考试分数；考试使用者需了解考试目的和考试分数的含义，确保考试结果不被滥用；考生则有义务主动了解考试内容及题型，防止题型对自己的考试表现产生不利影响。从政治学视角出发，Cronbach（1988）认为政治因素在保证考试公平方面有着无可替代的作用，其影响力远超法律、哲学等层面的考量。结合社会学和政治学视角，McNamara & Roever（2006）认为测试研究者在提高测量精度的同时，需充分考量语言测试所处的社会及政治环境，关注测试实践中蕴含的价值判断。Kunnan（2000b）认为审视测试公平性时需考量测试语境所涉及的各个维度，因此他主张将社会、伦理、法律、哲学等视角纳入测试公平性研究。多学科视角的引入极大丰富了测试公平性的内涵，为后续的理论和实证研究持续赋能。

3.语言测试的公平观

3.1 标准观

20 世纪50 年代以来，教育测量界的相关机构和学者开始通过制订标准性文件来保证测试质量并规范测试从业人员的行为，测试公平性的“标准”观应运而生。测试公平性是诸多标准性文件的重要组成部分，常作为独立的章节而存在。“标准”是“测试从业人员在开发考试、管理并实施考试项目、解读考试内容及其结果时需遵循的特定程序”（Stansfield 1993：190）。 20世纪 90年代，测量标准的制定、颁布和实施成为热点议题。因篇幅有限，本节仅简要介绍最具影响力的标准性文件，即《教育与心理测试标准》（Standards for Educational and Psychological Testing，简称《标准》）。《标准》由美国教育研究协会（AERA）、美国心理学会（APA）和美国国家教育测量委员会（NCME）联合发布，旨在指导考试开发，评价考试质量，为评价考试分数解读及考试结果使用的效度提供参考。1985版的《标准》对公平性的讨论较为零散，主张一个公平的考试不应系统性地高估或低估某一考生群体的能力（ AERA et al. 1985）。后于1999和 2014年进行了两次修订。1999版《标准》包括三个部分，第二部分聚焦测试公平性，其中“测试与测试使用公平”这一章提出了12条具体标准，涵盖四个方面：考试无偏颇、考试过程中平等对待所有考生、考试结果不受群体特征影响、考生学习机会均等。在2014版《标准》中， “测试公平性”与“效度”“信度/测量精度与测量误差”是并列的章节，强调测试公平性需贯穿从测试开发到使用的全过程。“测试公平性”这一章共包含20条标准，与1999版相比，除保留“考试无偏颇”“考试过程中平等对待所有考生”这两个特征以外，还要求“与考试构念无关的因素不影响考试结果”“考试结果的解释需有效”。该版标准进一步指出，与考试构念无关的因素极易威胁测试公平，考试内容、考试环境、考生作答及其学习机会的差异都可能引入与考试构念无关的因素，需要予以特别关注。作为指导测试开发和使用的重要参考性文件，《标准》为提升测试质量、促进测试公平做出了重要贡献，影响深远。

3.2 论证观

随着语言测试效度论证观的出现和效度验证体系的日臻完善，有学者尝试吸纳效度验证的理论研究成果，主张通过收集证据的方式论证语言测试的公平性。Bachman & Palmer（2010/2016）提出的评估使用论据（Assessment Use Argument，AUA）为测试公平性研究提供了思路。他们认为公平性并非测试的独立特征，而是与测试过程和测试使用密切相关。测试过程的公平性主张：1）考生受到平等对待；2）测试过程、测试记录和基于测试记录所做的解读无偏颇（同上：132）。测试使用的公平性主张：1）决策对不同群体的考生同样适切，即决策者在不同考生群体中需参考相同标准做出决策；2）不同考生群体应通过相同渠道充分了解决策依据，且有权知晓决策过程中相关主体是否严格贯彻该依据（同上：134-135）。 AUA 围绕测试过程和测试使用的四条主张收集证据，并根据以下依据对测试使用进行了论证：1）测试的使用及决策对所有涉考者有益；2）基于测试结果所做的决策需考虑教育现状、社会价值观及法律要求，且对所有涉考者公平；3）对考生能力的解读有意义、无偏颇、可概推、与决策相关，且能为决策过程提供充足信息；4）不同考生群体的测试记录在考查相同能力构念的不同考试中需具有一致性。由此观之，测试公平性在AUA 的四条主张中均有体现。需要注意的是，该框架并非专为论证测试公平性而生，在学界多用于指导测试研发及效度证据的收集。

为提升测试公平性研究的系统性和可操作性，Xi（2010）将公平性视作效度的一个方面，巧妙地将测试公平性纳入语言测试效度验证框架进行研究。她认为测试公平性指各评估环节（设计、开发、施测、使用）在不同群体间的可比效度，任何影响测试公平性的因素（如与构念无关的因素、构念代表性不足、不一致的施测行为、不恰当的决策程序等）均会削弱考试效度。具体而言，Xi 的测试公平性论证框架借鉴了Toulmin（1958/2003）的论证模型和Chapelle et al.（2008）的效度验证推理链。前者由主张（claim）、依据（data/grounds）、理据（ warrant）、支撑（backing）、反驳（ rebuttal）、限定（ qualifiers）等六个部分构成；后者包含目标域定义（domain definition）、评估推理（evaluation）、概化推理（generalization）、解释推理（explanation）、类推推理（extrapolation）、使用推理（utilization）等六个环环相扣的推理过程。Xi（2010）的公平性论证框架是一个逻辑严密的有机整体，前一个推理环节的“主张”经论证成立后，可以作为下一环节的“依据”，公平性论证伴随着效度论证贯穿测试始终。Xi 认为这一处理方式有利于研究人员精准定位公平性推理链中的薄弱环节，从而确定公平性研究的优先级，有针对性地解决威胁测试公平性的诸多问题。

3.3 伦理道德观

测试公平性作为社会、政治等因素驱动下的研究议题（McNamara & Roever 2006），若仅从“标准”和“论证”视角着手探讨，可能无法兼顾其背后的伦理及道德哲思。因此，有学者提出用基于伦理道德的理论框架来检验测试公平性。Kunnan（2000b，2004）将测试公平性视作多维的复杂概念，认为测试公平性包含效度、机会、正义三个维度，并提出了测试公平性框架（Test Fairness Framework，TFF）。该框架由正义原则（the Principle of Justice）和惠益原则（the Principle of Beneficence）构成，即考试需对考生公平且于社会有益。该框架充分体现了测试实践对考生的人文关怀，能够触及效度验证框架的疏漏之处（如考生学习机会、考试注册费用等）。基于道德原则的测试评价模式是伦理道德视角下的另一理论成果。从公平、正义的哲学思想出发，Kunnan（2018）再次提出测试评价应包含两大原则：公平原则（the Principle of Fairness）和正义原则。前者以考生为中心，主张考试应对所有考生公平，考试过程中考生应受到同等对待；后者指评估机构应主持公正，弘扬积极的价值观（同上：80-81）。这两大原则分别由若干个次原则构成。考虑到两大原则的可操作性，Kunnan（同上）将 2014 版《标准》中提及的测试公平性各要素纳入原则和次原则的考量范围，并采用Toulmin（1958/2003）的论证模型构建了公平与正义论证框架。参照两大原则和若干个次原则，提出相应的主张和次主张。收集公平性和正义方面的证据后，对次主张的成立逐一进行论证。若次主张均成立，主张的有效性也将得到支撑。

4.语言测试公平性的研究进展

标准观、论证观和伦理道德观推进了测试公平性的研究进程，在指导语言测试公平性的理论研究和实践过程中发挥了积极作用。一些学者参照2014版《标准》，对语言测试实践的公平性进行了较为全面的审视。如Fan（2018）参考《标准》调查中国高校师生对国内现行语言测试实践的看法，所用问卷涵盖测试信息透明度、测试开发、施测、测试的公平性及社会影响等五个维度。研究发现师生普遍认为现行的语言测试实践较为公平。Fan & Jin（2020）对照《标准》，从考试说明与目的、考试内容与题型、题项开发与试测、施考与考试管理、评分与分数报告等六个方面全面审视了国内英语分级测试实践。该研究指出，考试的质量控制环节缺失和涉考者评估素养缺乏等因素对英语分级测试实践的规范化十分不利，致使测试公平性缺乏保障。除实证研究以外，Jonson et al.（2019）结合《标准》的若干要求，拟定了测试公平性评价量表，并附上测试实践案例指导该量表的使用。这一量表将《标准》与测试实践紧密结合，有助于进一步落实《标准》对测试公平性的要求。另有学者在研究语言测试公平性的诸多议题时持论证观。如Deygers（2017）就两个荷兰语入学考试及基于考试所做的决策开展了历时研究，围绕六个涉及语言测试公平性和决策正义性的高风险主张收集证据，揭示了该地区入学考试语言政策的不合理之处，为该地区高校入学政策的修订提供了重要参考。此外，Xi（2010）的公平性论证框架也被用于Williamson et al.（2012）的评分研究和 Yan et al.（2019）的语言测试题型研究之中。还有部分学者沿袭伦理道德观的理念审视语言测试的公平性。如Ypsilandis & Mouti（2019）将测试实践按照测试开发、施测和测试影响三个大类进行了细分，并将具体的测试实践纳入道义论（deontologism）或结果论（consequentialism）的伦理道德范畴加以评判。此外，Kunnan（2004）提出的测试公平性框架能够有效指导语言考试项目的质量评估（Loh & Shih 2016；Moghadam & Nasirzadeh 2020）。受 Kunnan（2004，2018）影响，除考试本身的质量以外，考生是否享有同等的学习机会和考试机会也常被用作评估考试项目公平性的重要依据（Isbell & Kremmel 2020）。

5.启示

基于以上对测试公平性定义、公平观及研究进展的梳理，笔者认为测试的公平性研究需进一步思考以下三个问题：1）如何看待测试公平性与效度之间的关系？ 2）如何对本土语言考试项目开展公平性研究？3）如何引入涉考者视角以促进考试公平？

5.1 测试公平性与效度的关系

测试公平性和效度这两个概念本身的定义及其各自的研究范畴不完全固定，因此两者之间的关系值得商榷。笔者认为，在现阶段，测试公平性和效度均无法完全替代对方而独立存在。首先，测试公平性一直以来都是社会的共同追求。效度虽兼具技术性和社会性，但较为抽象，不易理解。仅从效度这一层面对测试公平性加以审视无法很好地回应社会对测试公平性的关切。其次，测试公平性和效度是提升测试科学性的不同路径。测试公平性的侧重点在于考试结果在不同考生群体中“无偏颇”，效度则更加关注考试结果的“准确性”和“一致性”。前者运用反证法，聚焦威胁测试公平性的主张，通过收集证据将其证伪，从而论证考试的科学性；后者运用枚举法，旨在提出测试效度的正面主张，收集证据并加以论证，从而为考试结果的使用提供理据。最后，测试公平性和效度的关注点不尽相同，具体采用何种定义、运用何种理论框架，不可一概而论，需视研究目的而定。

5.2 本土语言考试项目的公平性研究

本土考试项目旨在满足当地的测评需求，反映该语境下教育体系的价值观（ Dimova et al. 2020）。然而，相较于大规模、标准化的国际语言测试项目，学界较少关注本土语言考试项目的公平性。就我国而言，一方面，保证测试质量、规范测试从业人员行为的标准性文件较少，在很大程度上阻碍了测试行业的专业化和规范化；另一方面，多数本土语言考试项目缺乏公平性审查机制，对考试项目研发、实施及考试结果的使用等诸多关键环节缺乏有效监督。测试公平性总是不可避免地受其所处的社会环境影响（Bachman 1990），语境不同，考试结果的解释和使用也会随着考试用户新需求的出现而不断变化（Kane 2013）。因此，有必要为本土语言考试项目建立常态化的公平性审查机制，持续关注考试结果的使用情况。为此，本文提出以下两点建议：

第一，学界及相关部门应尽快制订基于我国国情的语言测试标准性文件，保障我国测试行业的健康发展，维护教育公平。早在世纪之交，Bachman（2000）就强调了语言测试领域专业化建设的重要性。其中，值得努力的方向之一就是建立测试实践标准，并健全相关机制保障其实施。在中国，杨惠中、桂诗春（2007）曾提出过类似的倡议，呼吁政府职能部门为语言测试这一重要的社会实践活动提供质量标准。标准的缺失将直接导致考试质量的评价无据可依，考试结果的使用缺乏监督。尽管语言测试标准的制订道阻且长，但作为一项基础性工程，于千千万万的考生而言、于教育公平而言，意义重大。

第二，学界应逐步建立我国语言考试项目的公平性审查机制。Kunnan（2005）的测试语境框架（Test Context Framework）为这一目标的实现提供了思路。该框架主张从宏观层面对测试公平性展开分析，关注施考地区的政治、经济语境，教育、社会、文化语境，技术、设施语境以及法律、伦理语境。语境类别可结合具体情况进行调整。本土语言考试项目的公平性审查需立足当地语境，综合考量施测当地的政策、法律法规、教育与社会背景以及涉考者的价值观。

5.3 涉考者视角的引入

涉考者在测试实践中扮演着重要角色，在测试公平性研究中是否引入涉考者视角这一问题值得深思。Weiss（1983）认为引入涉考者视角有助于提升语言测试的公平性，使测试评价的过程更加民主，但不能保证涉考者提供的信息相关且合理。因此，在审视测试公平性的过程中，如有必要引入涉考者视角，测试专家不仅要为涉考群体提供一个阐明疑虑、表达想法的平台，更要顾及其评估素养，主动为他们提供必要、易解读的信息，帮助其做出合理评价和判断。笔者认为，在测试公平性研究中引入涉考者视角有其必要性。一方面，涉考者作为制定决策或受决策影响的主体，有权利对测试不公平现象提出质疑，且有义务监督测试从业者的言行。另一方面，涉考者对测试公平性的看法能帮助测试研究者和从业者明确不同涉考群体的需求及其对测试公平性的期待，并对涉考者评估素养的发展模式予以关注（参见Yan & Fan 2021）。基于涉考者视角，测试研究人员可以面向不同涉考群体有针对性地组织语言测试工作坊并设计相应的培训材料，逐步加深涉考群体对语言测试专业知识和技能的了解，帮助他们明确自己在测试实践中所扮演的角色，并强化其责任意识。随着涉考群体评估素养的提升，考试将在整个教育体系及社会中持续发挥积极的导向作用

6.结语

本文聚焦20世纪80年代以来语言测试公平性的内涵、公平观及研究进展，在回顾和反思的基础上，提出了三个有待深入探讨的议题，呼吁学界在厘清测试公平性与效度关系的同时，关注本土语言考试项目的公平性，并尝试在公平性研究中引入涉考者视角，为科学命题和公平决策提供依据，促进教育及社会公平。测试公平于考生个人命运、教育公平和社会公平而言意义重大，需要测试从业者与涉考者携手并进，共同维护测试实践的科学性与专业性。

★

何莲珍、张娟︱语言测试的公平性：内涵、公平观及研究启示

友情链接

联系方式