教育也需要“診斷報告”——大規模教育測試結果報告的若幹趨勢_時政

教育也需要“診斷報告”——大規模教育測試結果報告的若幹趨勢

發布時間：2022-12-22 11:01:00來源：光明網-《光明日報》

　　　【世界教育之窗】

　　作者：劉軒（南京工業(ye) 大學副教授，教育學博士）

　　　近年來，隨著教育評價(jia) 理念的不斷更新和測試技術的快速發展，國際上諸多大規模教育測試把關(guan) 注的重心放到了測試結果上。就像到醫院體(ti) 檢後會(hui) 得到一份詳細的“診斷報告”一樣，參加大規模教育測試的學生也會(hui) 得到相應的結果報告——用來分析自己水平高低或能力強弱及其背後的成因，從(cong) 而實現精確診斷和快速改進的目的。

　　　結果報告成為(wei) 大規模教育測試的關(guan) 鍵環節

　　從(cong) 心理學的角度來看，大規模測試就是通過一係列外部刺激來收集被試的行為(wei) 反應，並進一步推斷其潛在特質水平的過程。之所以稱這種特質是“潛在的”，是因為(wei) 它無法和物理測量中的身高、體(ti) 重那樣被直接觀測和度量。不同的測試，其測量的潛在特質是不一樣的，它可以是能力、成就、個(ge) 性傾(qing) 向、人格態度、價(jia) 值觀等，也可以是教育領域中的學業(ye) 水平、學術成就。當我們(men) 用一定數量的試題來收集學生的作答反應，並把不同考生的水平用數量化的方式描繪出來時，這就是考試。由於(yu) 測量目標、功能等方麵的差異，不同測試在處理考生作答時采用的統計分析方法很不一樣，這導致測試最後提供的結果報告也各不相同。有些結果報告非常簡單，就給出一個(ge) 分數或等級，有些則經過極其複雜的分數轉換來給出詳細的描述。

　　對廣大被試或考生來講，參加考試最重要的就是得到一個(ge) 體(ti) 現自己真實水平的結果。在實踐領域，測試結果常常被用於(yu) 各種重要決(jue) 策，如高校選拔、升學鑒定、優(you) 劣評判等。這不得不讓研究者和從(cong) 業(ye) 者高度重視結果報告的科學性、公平性。“如果忽視了測試的結果報告，那之前的所有努力都將白費”，這已經成為(wei) 國際測試行業(ye) 的共識。目前，國際上最權威的行業(ye) 標準——《教育與(yu) 心理測試標準》就多次提到了結果報告的重要性，甚至對一些具體(ti) 的技術指標做出了明確規定：如測試機構應該負責提供關(guan) 於(yu) 測試結果的正確解釋；結果報告的信息應該包括內(nei) 容範圍、測試結果的含義(yi) 、精確性、結果使用等；結果報告要給出每個(ge) 分數或等級的測量誤差，並且提供與(yu) 結果解釋有關(guan) 的信息。教育是大規模測試應用最為(wei) 廣泛的領域。每年全世界都有數以億(yi) 計的考生參加各種考試。受《教育與(yu) 心理測試標準》等國際行業(ye) 標準的影響，當前大規模教育測試在結果報告上呈現出了以下幾個(ge) 新趨勢。

　　　趨勢一：結果報告經過相應的分數轉換

　　無論什麽(me) 樣大規模測試，最後都要呈現一個(ge) 數字化或等級化的結果來對測試群體(ti) 的水平進行區分。在教育考試中，這個(ge) 結果一般體(ti) 現為(wei) 分數或等級。出於(yu) 科學性和公平性的考慮，目前國際上知名的考試如SAT、ACT、TOEFL、IELTS以及大規模測試項目如PISA、TIMSS，其結果都是經過複雜的統計處理而得出的，這個(ge) 過程通常都涉及必要的分數轉換。以TOEFL為(wei) 例，作為(wei) 一個(ge) 麵向全球的考試，它需要滿足來自不同國家和地區的考生，在不同時間參加不同版本試卷測試的需求。而在申請大學時，TOEFL的分數又必須是準確一致和高度穩定（成績兩(liang) 年內(nei) 有效）。這必然要求考試設計者采用相應的考試技術，以確保各次考試分數盡可能不受試題難度的影響。如果某次TOEFL考試的試題過難或過易，那對參加該次考試的考生就非常不公，高校在選拔學生時也會(hui) 無法評估考生的真實水平。備受關(guan) 注的PISA，其測試使用的試卷並不是全球都完全一樣，而是有多種試題組合並形成不同版本的試卷。PISA在全球幾十個(ge) 國家和地區測試時就麵臨(lin) 與(yu) TOEFL一樣的問題。分數轉換是對考試結果進行技術處理後的一個(ge) 必要環節，它使得測試結果更加科學公平和更容易解釋。因而，轉換後的分數，因其操作過程的模式化和結果的穩定性，常被認為(wei) 是一種具有相應標準的分數。

　　　趨勢二：結果報告具有診斷和改進功能

　　對於(yu) 一個(ge) 大規模測試來說，分數或等級是結果報告的主要呈現形式。但如果僅(jin) 僅(jin) 局限於(yu) 這樣一些數字，那顯然是不夠的。隨著測評技術的發展，診斷性的結果報告在實踐中產(chan) 生了深遠影響。與(yu) 傳(chuan) 統單一的“分數條”相比，診斷性結果報告的內(nei) 容更加豐(feng) 富、細致，對測試者的能力、水平的剖析也更加精準。例如，在PISA公布的測試結果中，我們(men) 不僅(jin) 可以看到各國或地區在各個(ge) 素養(yang) 上的總分，還可以進一步了解在某個(ge) 素養(yang) 的次級維度上的表現以及在某個(ge) 維度上的不同水平，這使得測試結果具有相應的診斷功能，也更有利於(yu) 參測的國家或地區深入分析成績的歸因並采取有針對性的改進措施。在教育考試領域，SAT、ACT的結果報告在內(nei) 容上不僅(jin) 更加豐(feng) 富，而且還按需提供給多個(ge) 利益相關(guan) 者，其中包括大學、中學、政府甚至媒體(ti) 和公眾(zhong) 。其中，SAT提供給學生的結果報告包括總分、分項成績、分測驗分數、跨學科分數、子維度分數以及相對應的百分位數。在麵向其他對象的結果報告中，SAT提供了更為(wei) 詳細的結果，包括在國家或者州參照群體(ti) 中的位置、在各類問題上表現、作答情況、原始分數等等。ACT的結果報告同樣豐(feng) 富而且涉及範圍更廣，除了各種分數、百分位數、水平等級等基本的統計結果之外，還包括學生的高中、大學、職業(ye) 、專(zhuan) 業(ye) 選擇和生涯規劃的信息。這些結果綜合了考生的背景、學習(xi) 狀況、學科能力、個(ge) 性傾(qing) 向、興(xing) 趣愛好等等，基於(yu) 此對學生做出的評價(jia) 顯然更加全麵和深入，也有利於(yu) 學生提升自我認知水平，有利於(yu) 高校提高人才選拔成效，有利於(yu) 中學改進日常教學和管理工作。

　　　趨勢三：在真實情景中對結果報告進行描述和解讀

　　從(cong) 統計測量的角度來進行分數解釋豐(feng) 富了結果報告的內(nei) 容，完善了測試的功能，但僅(jin) 僅(jin) 圍繞這些統計數字來分析仍舊是有局限的。舉(ju) 個(ge) 簡單的例子，隻要有一把尺子，我們(men) 就很容易測量出一個(ge) 成年男性的身高，比如170cm，這是一個(ge) 客觀測量值，但這樣的身高究竟意味著什麽(me) ，則在很大程度上取決(jue) 於(yu) 測量目的。如果說為(wei) 了選拔國家籃球隊的運動員，這個(ge) 身高恐怕遠遠不夠。但在日常生活中，對這樣的身高也不能輕易得出個(ge) 頭矮的結論。測評領域的專(zhuan) 家早就認識到：一係列統計分析後的結果可以用來判定優(you) 劣和區分測試者，可無論這些結果多麽(me) 豐(feng) 富，還是無法解釋其背後深層次的含義(yi) 。近年來，國際測試行業(ye) 開始結合測量目標本身來嚐試新的結果解釋方式。通俗地講，就是在原來描述測試結果“是什麽(me) ”和“怎麽(me) 樣”的基礎上，進一步描述得到這些結果的測試者“能做什麽(me) ”。例如，上麵提到的ACT，它給考生的結果報告除了多個(ge) 分數的統計值外，還有與(yu) 這些分數相對應的行為(wei) 描述，並且進一步預測學生在大學不同專(zhuan) 業(ye) 上獲得成功的概率。同樣，TOEFL考試的結果報告也有對取得該分數考生所對應能力的描述，包括水平分析、分數說明和學習(xi) 建議。TOEFL閱讀部分的測試結果甚至納入藍思分級閱讀框架體(ti) 係中。這個(ge) 框架體(ti) 係是用來評估英語閱讀能力和閱讀材料難度的一套標準，在國際上擁有較高的權威性和廣泛影響力。TOEFL的閱讀分數和它對接之後，有利於(yu) 考生看到分數所代表的真實閱讀能力，並據此來選擇與(yu) 自身水平相適應的閱讀材料，從(cong) 而達到精準匹配的目的。

　　最後需要強調的是，國際上這些具有廣泛影響的大規模教育測試，之所以需要引入複雜的統計技術來對測試結果進行分數轉換，除了考試實施的客觀需求和在科學與(yu) 公平上的不懈追求外，一個(ge) 很重要的原因是由其特殊的結果使用方式決(jue) 定的。大規模教育測試一般都伴隨著重要決(jue) 策，但在很多國家，這些測試結果僅(jin) 僅(jin) 是影響決(jue) 策的一個(ge) 重要因素，而不是唯一因素。如SAT、ACT和TOEFL等用於(yu) 升學錄取的考試，其考試結果僅(jin) 僅(jin) 是高校人才選拔中的眾(zhong) 多指標之一。考生在申請這些高校時，除了考試成績之外，一般還需要準備多方麵的材料，甚至還會(hui) 參加麵試。大規模測試是一個(ge) 並不複雜的技術活，但測試結果的使用方式背後則有著深刻的文化、製度、社會(hui) 、心理等方麵的成因。不管怎樣，讓測試結果更加科學、公平和精準，讓測試結果更好地發揮診斷和改進功能，是國際測試領域一個(ge) 長期努力的方向。

　　　　（本文為(wei) 全國教育科學規劃2022年度教育部重點課題《新高考結果評價(jia) 改進的創新應用研究》〔編號：DFA220435〕的階段性成果）

（責編：李雨潼）

教育也需要“診斷報告”——大規模教育測試結果報告的若幹趨勢

相關閱讀

專題推薦

微觀

賞閱

資料雲

即時新聞