解決AI“高分低能”需要升級的是考核機製_國內

解決AI“高分低能”需要升級的是考核機製

發布時間：2022-06-14 11:23:00來源：科技日報

　　解決(jue) AI“高分低能”需要升級的是考核機製

　　目前部分人工智能沉迷刷榜，在基準測試時高分通過，表現優(you) 異，但實際應用中卻還會(hui) 犯一些非常基礎的錯誤。

　　◎本報記者華淩

　　近日，有媒體(ti) 報道，目前部分人工智能沉迷刷榜，在基準測試時高分通過，表現優(you) 異，但實際應用中卻還會(hui) 犯一些非常基礎的錯誤。這種沉迷刷榜，忽略實用性質的行為(wei) 造成了部分AI模型“高分低能”的現象。那麽(me) ，對於(yu) AI發展而言，基準測試是否必要？在實際應用中，基準測試哪些問題有待改進完善呢？

　　AI模型哪家好，基準測試來說話

　　AI模型應該如何衡量其性能？

　　“目前AI模型能力的高低取決(jue) 於(yu) 數據，因為(wei) AI的本質是學習(xi) 數據，輸出算法模型。為(wei) 了公平衡量AI能力，很多機構、企業(ye) 甚至科學家會(hui) 收集、設計不同的數據集，其中一部分喂給AI訓練，得到AI模型，另外一部分數據用於(yu) 考核AI模型的能力，這就是基準測試。”近日，西安電子科技大學電子工程學院教授吳家驥接受科技日報記者采訪時表示。

　　吳家驥介紹說，機器學習(xi) 越來越多地用於(yu) 各種實際應用場景，例如圖像和語音識別、自動駕駛汽車、醫學診斷等。因此，了解其在實踐中的行為(wei) 和性能變得非常重要。其魯棒性和不確定性的高質量估計對於(yu) 許多功能至關(guan) 重要，尤其是在深度學習(xi) 領域。為(wei) 掌握模型的行為(wei) ，研究人員要根據目標任務的基線來衡量其性能。

　　2010年，基於(yu) ImageNet數據集的計算機視覺競賽的推出，激發了深度學習(xi) 領域一場算法與(yu) 數據的革命。從(cong) 此，基準測試成為(wei) 衡量AI模型性能的一個(ge) 重要手段。微軟公司的計算機科學家馬塞洛·裏貝羅表示，基準測試應該是從(cong) 業(ye) 者工具箱中的一個(ge) 工具，人們(men) 用基準來代替對於(yu) 模型的理解，通過基準數據集來測試“模型的行為(wei) ”。

　　例如，在自然語言處理領域，GLUE科研人員讓AI模型在包含上千個(ge) 句子的數據集上訓練，並在9個(ge) 任務上進行測試，來判斷一個(ge) 句子是否符合語法，並分析情感，或者判斷兩(liang) 個(ge) 句子之間是否是邏輯蘊涵等，一度難倒了AI模型。隨後，科研人員提高了基準測試難度，一些任務要求AI模型不僅(jin) 能夠處理句子，還要處理來自維基百科或新聞網站的段落後回答閱讀理解問題。僅(jin) 經過1年的發展，AI模型的性能從(cong) 不到70分輕鬆達到90分，超越了人類。

　　吳家驥表示：“科學研究要有科學問題、方法、計算、試驗對比等要素。因此在進行科學研究，包括人工智能的科研中，也必須有計算與(yu) 試驗對比，也就是說AI算法的能力應該是可測量的，目的是驗證研究方法的可行性、有效性。因此，基準測試很有必要，這樣才可以公平驗證AI算法能力的高低好壞，避免各說各話，‘王婆賣瓜自賣自誇’。”

　　算法最終服務實踐，而非刷榜

　　有人說，高分是AI模型的興(xing) 奮劑。於(yu) 是，有的人工智能為(wei) 了取得好成績而頻頻刷榜。

　　微軟公司2020年發布報告指出，包括微軟、穀歌和亞(ya) 馬遜在內(nei) 的各種sota模型包含諸多隱含錯誤，比如把句子裏的“what's”改成“what is”，模型的輸出結果就會(hui) 截然不同，而在此前，從(cong) 沒有人意識到這些曾被評價(jia) 還不錯的商業(ye) 模型竟會(hui) 在應用中如此糟糕。顯然，這樣訓練出的AI模型就像一個(ge) 隻會(hui) 考試、成績優(you) 異的學生，可以成功通過科學家設置的各種基準測試，卻不懂為(wei) 什麽(me) 。

　　“為(wei) 了獲得好成績，研究人員可能會(hui) 使用特殊的軟硬件設置對模型進行調整和處理，讓AI在測試中表現出色，但這些性能在現實世界中卻無法施展。”西安電子科技大學研究員尚坤指出。

　　在智能手機領域，我們(men) 談及手機的使用體(ti) 驗時一般都不免會(hui) 涉及手機的性能表現，這些性能通常會(hui) 用跑分成績來表現。然而，我們(men) 常常會(hui) 遇到一款手機的跑分成績處於(yu) 排行榜領先水平，但是在實際使用過程中卻出現動畫掉幀、頁麵滑動卡頓、應用假死等的現象。全球頂級評測網站AnandTech的一篇報道曾對這種現象提出質疑，指出某品牌手機跑分時啟動了“性能模式”，而在平時的使用中“性能模式”很少被調用開啟。這種處理方式雖然能夠獲得高跑分，但是不能模擬用戶真實的使用情景，這讓基準測試不具有參考意義(yi) 。

　　尚坤認為(wei) ，針對上述問題，改進基準的方法主要有：一種是增加更多的數據集，讓基準變得更難。用沒有見過的數據測試，這樣才能判斷AI模型是否能夠避免過擬合。研究人員可創建一個(ge) 動態數據收集和基準測試平台，針對每個(ge) 任務，通過眾(zhong) 包的方式，提交他們(men) 認為(wei) 人工智能模型會(hui) 錯誤分類的數據，成功欺騙到模型的樣例被加入基準測試中。如果動態地收集數據增加標注，同時迭代式的訓練模型，而不是使用傳(chuan) 統的靜態方式，AI模型應該可以實現更實質性的進化。

　　尚坤說，另一種是縮小實驗室內(nei) 數據和現實場景之間的差距。基線測試無論分數多高，還是要用實際場景下的數據來檢驗，所以通過對數據集進行更貼近真實場景的增強和擴容使得基準測試更加接近真實場景。如ImageNet-C數據集，可根據16種不同的實際破壞程度對原有的數據集進行擴充，可以更好模擬實際數據處理場景。

　　應用廣泛，需盡快建立國家標準

　　美國麻省理工學院Cleanlab實驗室的研究指出，常用的10個(ge) 作為(wei) 基準的數據集中，有超過3%的標注是錯誤的，基於(yu) 這些基準跑分的結果則無參考意義(yi) 。

　　“如果說，基準測試堪稱人工智能領域的‘科舉(ju) 製’，那麽(me) ，‘唯分數論’輸贏，是不可能訓練出真正的好模型。要打破此種現象，一方麵需要采用更全麵的評估方法，另一方麵可以考慮把問題分而治之，比如用多個(ge) AI模型解決(jue) 複雜問題，把複雜問題轉化為(wei) 簡單確定的問題。簡單且經過優(you) 化的基線模型往往優(you) 於(yu) 更複雜的方法。穀歌的研究人員為(wei) 常見的AI任務引入了不確定性基線庫，來更好評估AI應用的穩健性和處理複雜不確定性的能力。”遠望智庫人工智能事業(ye) 部部長、圖靈機器人首席戰略官譚茗洲指出。

　　雖然行業(ye) 正在改變對於(yu) 基準的態度，但目前基準測試研究仍然是一個(ge) 小眾(zhong) 研究。穀歌在一份研究中采訪了工業(ye) 界和學術界的53位AI從(cong) 業(ye) 者，其中許多人指出，改進數據集不如設計模型更有成就感。

　　譚茗洲表示，AI應用基準研究是構建國內(nei) 統一大市場的內(nei) 在需要，當前AI已經在國計民生的各類領域中得到廣泛應用，更需要設立標準對AI模型進行全麵有效的評估，片麵追求和采用高分AI模型，可能會(hui) 讓模型在複雜極端場景下出現“智障”行為(wei) ，並且可能由於(yu) 訓練和推理性能的低效，造成不良社會(hui) 影響、經濟損失和環境破壞。

　　譚茗洲強調，AI應用基準研究關(guan) 乎國家戰略。針對重要領域，建立我國自己的AI基準測試標準、AI數據集、AI模型評估標準等迫在眉睫。

　　據了解，西安電子科技大學的DvcLab也在AI基準測試這個(ge) 領域進行了前瞻性研究，特別是針對AI應用基準測試中數據集的整體(ti) 質量與(yu) 動態擴展兩(liang) 個(ge) 關(guan) 鍵問題，正在開發可在線協作的數據標注與(yu) AI模型研發托管項目，並計劃今年陸續開源，正在為(wei) 構建國家AI基準評估標準體(ti) 係進行積極探索。

（責編：陳濛濛）

解決AI“高分低能”需要升級的是考核機製

相關閱讀

專題推薦

微觀

賞閱

資料雲

即時新聞