新利平台 > 即時新聞 > 時政

教育也需要“診斷報告”——大規模教育測試結果報告的若幹趨勢

發布時間:2022-12-22 11:01:00來源: 光明網-《光明日報》

   【世界教育之窗】

  作者:劉軒(南京工業(ye) 大學副教授,教育學博士)

   近年來,隨著教育評價(jia) 理念的不斷更新和測試技術的快速發展,國際上諸多大規模教育測試把關(guan) 注的重心放到了測試結果上。就像到醫院體(ti) 檢後會(hui) 得到一份詳細的“診斷報告”一樣,參加大規模教育測試的學生也會(hui) 得到相應的結果報告——用來分析自己水平高低或能力強弱及其背後的成因,從(cong) 而實現精確診斷和快速改進的目的。

   結果報告成為(wei) 大規模教育測試的關(guan) 鍵環節

  從(cong) 心理學的角度來看,大規模測試就是通過一係列外部刺激來收集被試的行為(wei) 反應,並進一步推斷其潛在特質水平的過程。之所以稱這種特質是“潛在的”,是因為(wei) 它無法和物理測量中的身高、體(ti) 重那樣被直接觀測和度量。不同的測試,其測量的潛在特質是不一樣的,它可以是能力、成就、個(ge) 性傾(qing) 向、人格態度、價(jia) 值觀等,也可以是教育領域中的學業(ye) 水平、學術成就。當我們(men) 用一定數量的試題來收集學生的作答反應,並把不同考生的水平用數量化的方式描繪出來時,這就是考試。由於(yu) 測量目標、功能等方麵的差異,不同測試在處理考生作答時采用的統計分析方法很不一樣,這導致測試最後提供的結果報告也各不相同。有些結果報告非常簡單,就給出一個(ge) 分數或等級,有些則經過極其複雜的分數轉換來給出詳細的描述。

  對廣大被試或考生來講,參加考試最重要的就是得到一個(ge) 體(ti) 現自己真實水平的結果。在實踐領域,測試結果常常被用於(yu) 各種重要決(jue) 策,如高校選拔、升學鑒定、優(you) 劣評判等。這不得不讓研究者和從(cong) 業(ye) 者高度重視結果報告的科學性、公平性。“如果忽視了測試的結果報告,那之前的所有努力都將白費”,這已經成為(wei) 國際測試行業(ye) 的共識。目前,國際上最權威的行業(ye) 標準——《教育與(yu) 心理測試標準》就多次提到了結果報告的重要性,甚至對一些具體(ti) 的技術指標做出了明確規定:如測試機構應該負責提供關(guan) 於(yu) 測試結果的正確解釋;結果報告的信息應該包括內(nei) 容範圍、測試結果的含義(yi) 、精確性、結果使用等;結果報告要給出每個(ge) 分數或等級的測量誤差,並且提供與(yu) 結果解釋有關(guan) 的信息。教育是大規模測試應用最為(wei) 廣泛的領域。每年全世界都有數以億(yi) 計的考生參加各種考試。受《教育與(yu) 心理測試標準》等國際行業(ye) 標準的影響,當前大規模教育測試在結果報告上呈現出了以下幾個(ge) 新趨勢。

   趨勢一:結果報告經過相應的分數轉換

  無論什麽(me) 樣大規模測試,最後都要呈現一個(ge) 數字化或等級化的結果來對測試群體(ti) 的水平進行區分。在教育考試中,這個(ge) 結果一般體(ti) 現為(wei) 分數或等級。出於(yu) 科學性和公平性的考慮,目前國際上知名的考試如SAT、ACT、TOEFL、IELTS以及大規模測試項目如PISA、TIMSS,其結果都是經過複雜的統計處理而得出的,這個(ge) 過程通常都涉及必要的分數轉換。以TOEFL為(wei) 例,作為(wei) 一個(ge) 麵向全球的考試,它需要滿足來自不同國家和地區的考生,在不同時間參加不同版本試卷測試的需求。而在申請大學時,TOEFL的分數又必須是準確一致和高度穩定(成績兩(liang) 年內(nei) 有效)。這必然要求考試設計者采用相應的考試技術,以確保各次考試分數盡可能不受試題難度的影響。如果某次TOEFL考試的試題過難或過易,那對參加該次考試的考生就非常不公,高校在選拔學生時也會(hui) 無法評估考生的真實水平。備受關(guan) 注的PISA,其測試使用的試卷並不是全球都完全一樣,而是有多種試題組合並形成不同版本的試卷。PISA在全球幾十個(ge) 國家和地區測試時就麵臨(lin) 與(yu) TOEFL一樣的問題。分數轉換是對考試結果進行技術處理後的一個(ge) 必要環節,它使得測試結果更加科學公平和更容易解釋。因而,轉換後的分數,因其操作過程的模式化和結果的穩定性,常被認為(wei) 是一種具有相應標準的分數。

   趨勢二:結果報告具有診斷和改進功能

  對於(yu) 一個(ge) 大規模測試來說,分數或等級是結果報告的主要呈現形式。但如果僅(jin) 僅(jin) 局限於(yu) 這樣一些數字,那顯然是不夠的。隨著測評技術的發展,診斷性的結果報告在實踐中產(chan) 生了深遠影響。與(yu) 傳(chuan) 統單一的“分數條”相比,診斷性結果報告的內(nei) 容更加豐(feng) 富、細致,對測試者的能力、水平的剖析也更加精準。例如,在PISA公布的測試結果中,我們(men) 不僅(jin) 可以看到各國或地區在各個(ge) 素養(yang) 上的總分,還可以進一步了解在某個(ge) 素養(yang) 的次級維度上的表現以及在某個(ge) 維度上的不同水平,這使得測試結果具有相應的診斷功能,也更有利於(yu) 參測的國家或地區深入分析成績的歸因並采取有針對性的改進措施。在教育考試領域,SAT、ACT的結果報告在內(nei) 容上不僅(jin) 更加豐(feng) 富,而且還按需提供給多個(ge) 利益相關(guan) 者,其中包括大學、中學、政府甚至媒體(ti) 和公眾(zhong) 。其中,SAT提供給學生的結果報告包括總分、分項成績、分測驗分數、跨學科分數、子維度分數以及相對應的百分位數。在麵向其他對象的結果報告中,SAT提供了更為(wei) 詳細的結果,包括在國家或者州參照群體(ti) 中的位置、在各類問題上表現、作答情況、原始分數等等。ACT的結果報告同樣豐(feng) 富而且涉及範圍更廣,除了各種分數、百分位數、水平等級等基本的統計結果之外,還包括學生的高中、大學、職業(ye) 、專(zhuan) 業(ye) 選擇和生涯規劃的信息。這些結果綜合了考生的背景、學習(xi) 狀況、學科能力、個(ge) 性傾(qing) 向、興(xing) 趣愛好等等,基於(yu) 此對學生做出的評價(jia) 顯然更加全麵和深入,也有利於(yu) 學生提升自我認知水平,有利於(yu) 高校提高人才選拔成效,有利於(yu) 中學改進日常教學和管理工作。

   趨勢三:在真實情景中對結果報告進行描述和解讀

  從(cong) 統計測量的角度來進行分數解釋豐(feng) 富了結果報告的內(nei) 容,完善了測試的功能,但僅(jin) 僅(jin) 圍繞這些統計數字來分析仍舊是有局限的。舉(ju) 個(ge) 簡單的例子,隻要有一把尺子,我們(men) 就很容易測量出一個(ge) 成年男性的身高,比如170cm,這是一個(ge) 客觀測量值,但這樣的身高究竟意味著什麽(me) ,則在很大程度上取決(jue) 於(yu) 測量目的。如果說為(wei) 了選拔國家籃球隊的運動員,這個(ge) 身高恐怕遠遠不夠。但在日常生活中,對這樣的身高也不能輕易得出個(ge) 頭矮的結論。測評領域的專(zhuan) 家早就認識到:一係列統計分析後的結果可以用來判定優(you) 劣和區分測試者,可無論這些結果多麽(me) 豐(feng) 富,還是無法解釋其背後深層次的含義(yi) 。近年來,國際測試行業(ye) 開始結合測量目標本身來嚐試新的結果解釋方式。通俗地講,就是在原來描述測試結果“是什麽(me) ”和“怎麽(me) 樣”的基礎上,進一步描述得到這些結果的測試者“能做什麽(me) ”。例如,上麵提到的ACT,它給考生的結果報告除了多個(ge) 分數的統計值外,還有與(yu) 這些分數相對應的行為(wei) 描述,並且進一步預測學生在大學不同專(zhuan) 業(ye) 上獲得成功的概率。同樣,TOEFL考試的結果報告也有對取得該分數考生所對應能力的描述,包括水平分析、分數說明和學習(xi) 建議。TOEFL閱讀部分的測試結果甚至納入藍思分級閱讀框架體(ti) 係中。這個(ge) 框架體(ti) 係是用來評估英語閱讀能力和閱讀材料難度的一套標準,在國際上擁有較高的權威性和廣泛影響力。TOEFL的閱讀分數和它對接之後,有利於(yu) 考生看到分數所代表的真實閱讀能力,並據此來選擇與(yu) 自身水平相適應的閱讀材料,從(cong) 而達到精準匹配的目的。

  最後需要強調的是,國際上這些具有廣泛影響的大規模教育測試,之所以需要引入複雜的統計技術來對測試結果進行分數轉換,除了考試實施的客觀需求和在科學與(yu) 公平上的不懈追求外,一個(ge) 很重要的原因是由其特殊的結果使用方式決(jue) 定的。大規模教育測試一般都伴隨著重要決(jue) 策,但在很多國家,這些測試結果僅(jin) 僅(jin) 是影響決(jue) 策的一個(ge) 重要因素,而不是唯一因素。如SAT、ACT和TOEFL等用於(yu) 升學錄取的考試,其考試結果僅(jin) 僅(jin) 是高校人才選拔中的眾(zhong) 多指標之一。考生在申請這些高校時,除了考試成績之外,一般還需要準備多方麵的材料,甚至還會(hui) 參加麵試。大規模測試是一個(ge) 並不複雜的技術活,但測試結果的使用方式背後則有著深刻的文化、製度、社會(hui) 、心理等方麵的成因。不管怎樣,讓測試結果更加科學、公平和精準,讓測試結果更好地發揮診斷和改進功能,是國際測試領域一個(ge) 長期努力的方向。

    (本文為(wei) 全國教育科學規劃2022年度教育部重點課題《新高考結果評價(jia) 改進的創新應用研究》〔編號:DFA220435〕的階段性成果)

(責編:李雨潼)

版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。