新利平台 > 即時新聞 > 國內

國產大模型“諸神之戰”出路何方

發布時間:2023-06-12 15:14:00來源: 中國青年報

  1956年,達特茅斯學院的一場會(hui) 議上,參會(hui) 者熱烈地討論:如何開發出像人類一樣能從(cong) 經驗中自主學習(xi) 的計算機係統。這場會(hui) 議被後人視為(wei) 打響了人工智能研發的第一槍。

  60餘(yu) 年後,美國OpenAI公司八年磨一劍的人工智能大模型ChatGPT3橫空出世,人們(men) 爭(zheng) 相在社交媒體(ti) 展示它那令人吃驚的能力,ChatGPT4更是“所向披靡”:作詩、寫(xie) 文案已不在話下,它甚至有了邏輯推理能力,還能自我糾錯。那場著名會(hui) 議的答案似乎已不言自明。

  前不久,在2023中國國際大數據產(chan) 業(ye) 博覽會(hui) 上,AI(人工智能)、大模型、ChatGPT、元宇宙等關(guan) 鍵詞頻頻出現。在以“人工智能”為(wei) 主題的會(hui) 場,人頭攢動,聽會(hui) 的人從(cong) 會(hui) 場內(nei) 排到了會(hui) 議室門口,還不斷有新來的人擠進來。

  在不同的會(hui) 場和論壇上,來自不同領域的人們(men) 似乎都聚焦一個(ge) 興(xing) 趣點,他們(men) 試圖搞明白人工智能會(hui) 對未來行業(ye) 帶來哪些顛覆性的變革,國產(chan) 大模型之路應該如何走,還有什麽(me) 基礎工作要做。

  想解決(jue) 實際問題,大模型還要“念個(ge) 博士”

  孫茂鬆讓ChatGPT找出《阿房宮賦》中描寫(xie) 阿房宮的句子,令他驚訝的是,它竟然一字不漏地找出來了。

  孫茂鬆是清華大學計算機科學與(yu) 技術係教授,也是該校人工智能研究院常務副院長,他研究自然語言處理,跟ChatGPT“專(zhuan) 業(ye) 對口”。在演講中,他多次感歎:“它確實厲害!”

  考完文字功夫,孫茂鬆又問ChatGPT,如何根據《阿房宮賦》繪製阿房宮的圖景。ChatGPT像寫(xie) 劇本一樣分了5個(ge) 場景:阿房宮的宏偉(wei) 壯觀、阿房宮建築風格、水景與(yu) 橋梁、春光與(yu) 武殿、迷宮般的宮殿布局。

  今年以來,ChatGPT的博學已經廣為(wei) 人知,但美國國家工程院院士、東(dong) 方理工高等研究院常務副院長張東(dong) 曉認為(wei) :“大模型有很強的能力,很博學,相當於(yu) 中小學生。要解決(jue) 實際問題,還要上大學,還要念一個(ge) 專(zhuan) 業(ye) 、念一個(ge) 博士,或是成為(wei) 那個(ge) 領域的工程師。”

  過去這段時間,ChatGPT所屬公司OpenAI已與(yu) 科技、教育、金融等行業(ye) 的數百家公司或組織開展合作。

  孫茂鬆認為(wei) :“(大模型)可以重塑一個(ge) 產(chan) 業(ye) ,也能夠重塑產(chan) 業(ye) 的生態。”

  他舉(ju) 了個(ge) 例子:有人想訂家酒店,要求價(jia) 格別太貴,最好離王府井近一點,而且要安靜一些。麵對用戶的種種要求,以前要做到這一點很費勁,秘書(shu) 可能要花兩(liang) 個(ge) 小時才能找到這麽(me) 一家酒店。而人工智能大模型會(hui) 跟用戶學習(xi) 訂酒店的習(xi) 慣,效率大幅提高。

  中國產(chan) 學研合作促進會(hui) 會(hui) 長王建華說:“在人工智能影像醫學這個(ge) 領域,我們(men) 把全國醫院的放射科和一些影像醫學相關(guan) 的企業(ye) 進行融合,解決(jue) 看片子完全靠人去看(的問題)。通過人工智能的話,精準度比較高,而且它不疲勞。”

  王建華注意到,現在有很多智能產(chan) 品,比如可以通過大數據的對比,測定人體(ti) 糖代謝水平。他認為(wei) ,人工智能會(hui) 影響到整個(ge) 醫學領域的創新和發展。

  醫渡科技有限公司創始人徐濟銘更期待的是,人工智能能夠加速新藥研發。

  新藥研發是個(ge) 漫長的試錯過程,從(cong) 細胞實驗,到動物實驗,再到一、二、三期臨(lin) 床試驗,從(cong) 實驗室研究到上市可能需要10年、花費10億(yi) 美元——這被稱為(wei) 新藥研發領域的“雙十定律”。近年,輝瑞、阿斯利康等知名藥企開始在新藥研發領域引入人工智能,希望提高成功率、降低成本。徐濟銘設想,通過人體(ti) 多模態的數據構建一個(ge) 模型,模擬人體(ti) 器官的運作,在臨(lin) 床實驗之前先通過這些係統模型做實驗,AI可以由此造福人類。

  在京東(dong) 探索研究院資深算法科學家薛超看來,大模型就是未來的操作係統,它向上提供應用程序接口(API),向下可以兼容各種各樣的硬件。比如,一個(ge) 餐館想要建立一個(ge) 送餐機器人或者對話機器人,店主把餐館的菜單輸進大模型,這樣就可以快速建立起功能機器人。

  “AI未來會(hui) 越來越平民化,越來越低門檻化,可以通過自然語言來控製它的整個(ge) 交互。”薛超說。

  研發大模型,提高數據“喂養(yang) ”質量很關(guan) 鍵

  本屆數博會(hui) 上,知乎聯合麵壁智能發布了對話類模型產(chan) 品“麵壁露卡”。發布會(hui) 上,主持人請它規劃在貴州四天三夜的旅遊路線。在“露卡”規劃的旅遊方案中,遊客每天晚上都要從(cong) 景點所在地返回出發點貴陽,第二天再出發前往下一個(ge) 市州。路線略顯冗長,好在覆蓋了較為(wei) 知名的景點和特色小吃。

  上海交通大學人工智能研究院常務副院長楊小康稱,國內(nei) 的大模型研發可謂是“真正的諸神之戰”,“據說有70幾個(ge) 大模型,甚至上百個(ge) 大模型在研發”。他認為(wei) ,研究大模型非常耗能,需要有序引導,形成合力。

  貴安新區科創產(chan) 業(ye) 發展公司常務副總經理鄧周灰提到“鐵三角”理論:大模型是“大數據+大算力+強算法”結合的產(chan) 物。他認為(wei) :“當前數據質量是一個(ge) 比較堪憂的問題,國外進行大模型訓練的時候,有很多不錯的文獻,還有一些科技文獻,所以模型訓練出來的智能化水平很高。但是我們(men) 現在在大模型訓練的時候,大部分(語料)來自互聯網,所以質量就不是特別理想。”

  古人常說,兵馬未動,糧草先行。在人工智能時代,數據正是“喂養(yang) ”大模型的糧草。而在目前,“糧草”供應還存在大量現實困難。

  晶泰智藥技術(上海)有限公司副總裁王明泰說,數據需要標注和清洗,但醫藥研發領域有大量數據無法標注。王明泰表示,蛋白質序列可達到十億(yi) 級以上,但目前能夠找到的蛋白質功能數據少之又少,“中間有巨大的差距”。

  他還表示:“現在的數據主要是靠人做實驗,然後提取錄入係統,再‘喂’給機器學習(xi) 。目前我們(men) 保守估計,中國可能有超過20萬(wan) 人在為(wei) 全世界醫藥研發企業(ye) 做實驗,這些人可能都是本科以上學曆,以後可能(招不來)這麽(me) 多人來做實驗了。”這意味著數據產(chan) 生的成本極高,而要“喂養(yang) ”大模型,“必須是廉價(jia) 產(chan) 生的數據”。

  在數據的源頭,還存在標準不統一的問題。

  達而觀信息科技(上海)有限公司首席戰略官劉江賢認為(wei) ,要注意梳理我們(men) 究竟需要什麽(me) 樣的數據、怎樣才能產(chan) 生高標準的數據。他認為(wei) ,首先要製訂數據產(chan) 生的標準和流程,選準產(chan) 生大量有質量、有價(jia) 值數據的區域,“要製定標準化生產(chan) 的流程,才能夠產(chan) 生出我們(men) 想要的數據。”

  在本屆數博會(hui) 的多場論壇上,嘉賓們(men) 提到了數據流通、交易的問題。

  2020年4月,《中共中央國務院關(guan) 於(yu) 構建更加完善的要素市場化配置體(ti) 製機製的意見》對外公布,將數據定義(yi) 為(wei) 繼土地、勞動力、資本、技術之後的第五大生產(chan) 要素。2022年6月,中央全麵深化改革委員會(hui) 第二十六次會(hui) 議上審議通過了《關(guan) 於(yu) 構建數據基礎製度更好發揮數據要素作用的意見》,明確要建立數據產(chan) 權製度、要建立合規高效的數據要素流通和交易製度、完善數據要素市場化配置機製。

  北京雁棲湖應用數學研究院研究員、清雁科技董事長韓立岩接受中青報·中青網記者專(zhuan) 訪時解釋說,數據成為(wei) 生產(chan) 要素、可以進入資產(chan) 負債(zhai) 表,意味著它是企業(ye) 資產(chan) 的一部分,可以成為(wei) 質押標的、幫企業(ye) 融資,更可以為(wei) 企業(ye) 增信。這對於(yu) 輕資產(chan) 的科創企業(ye) 尤為(wei) 重要。

  廣州數據交易所總經理魏東(dong) 說,湛江一家水產(chan) 公司在廣州數據交易所做了合規登記後,銀行給予它的授信額度不僅(jin) 增加了數倍規模,花費的時間也大為(wei) 減少。

  中國人工智能開源軟件發展聯盟副理事長王健宗說,以前數據不是生產(chan) 要素,在企業(ye) 產(chan) 生後也不受重視,“可能都作為(wei) 廢品處理,有人要就拿走”。“現在(數據)定義(yi) 為(wei) 生產(chan) 要素,毫無疑問大家都重視起來,一旦重視就是香餑餑了,共享和流通就存在了困難。”他說。

  作為(wei) 清華大學和北京雁棲湖應用數學研究院聯合孵化的高科技公司,清雁科技正在建設“可信數據空間”,在這個(ge) 虛擬空間裏,他們(men) 努力讓數據“可用但不可見”,由此既能促進數據資產(chan) 的交易與(yu) 共享,又能確保數據安全。

  大模型產(chan) 業(ye) 之路,繞不開科技倫(lun) 理和就業(ye) 焦慮

  上海山丘聯康健康管理有限公司創始人、董事長顏豔春用充滿詩意的語言表達了他的期待:“在工業(ye) 文明時代,我們(men) 發現人類變成了機器,我們(men) 每個(ge) 工人變成了流水線上的螺絲(si) 釘。ChatGPT會(hui) 帶來人類巨大的解放。”

  他設想,人類也許不必“996”,“我們(men) 也許(每周工作)一天、兩(liang) 天就夠了,因為(wei) 有一個(ge) 更龐大的‘新人類軍(jun) 團’正在麵世。”

  其實,新人類軍(jun) 團的“先遣部隊”已經麵世數年。早在2018年,戴姆勒金融服務就展示了它的第一個(ge) 數字銷售代表Sarah,她可以為(wei) 人們(men) 計算買(mai) 新款奔馳汽車的性價(jia) 比,還可以為(wei) 客戶選擇選裝套件。同年2月,英國蘇格蘭(lan) 皇家銀行聘用了一位虛擬的客服機器人Cora,她了解客戶喜好,能一眼識別出客戶並叫出名字,一天能處理上千個(ge) 問題,她還能從(cong) 錯誤中不斷學習(xi) 。也是在2018年,瑞銀集團宣布數字化“複製”了其首席經濟學家,推出數字人……

  顏豔春對於(yu) 未來非常樂(le) 觀:“我們(men) 認為(wei) ,下一個(ge) 50年,當碳基和矽基生命共生共榮時,每一個(ge) 人都可能成為(wei) 一個(ge) 詩人,成為(wei) 一個(ge) 作家,成為(wei) 一個(ge) 導演,成為(wei) 一個(ge) 畫家。甚至人人都有可能成為(wei) 老師、醫生和碼農(nong) 。”

  他引用了泰戈爾在《飛鳥集》中的一句詩:信念是鳥,它在黎明仍然黑暗之際感覺到光明,唱出了歌。他說:“在當今人類文明高度‘內(nei) 卷’的當下,我認為(wei) 人工智能給我們(men) 帶來了這樣一場新的光明。”

  一邊是高歌猛進的人工智能技術,一邊是技術擔憂論:人工智能首先帶來的,可能不是勞動力的解放,而是失業(ye) 的浪潮。

  孫茂鬆提到,過去20多年,人工智能給一些企業(ye) 創造了巨大的價(jia) 值;它還能使知識工作者的工作效率大大提高,預期到2030年,它會(hui) 使財會(hui) 人員的效率提高一倍、讓程序員的編程效率提高兩(liang) 倍。

  “這對公司是好事,對個(ge) 人不一定是好事。意味著財會(hui) 人員要砍掉一半,意味著75%的程序員可能不需要了。”他說。而剩下的人,需要擁有更高的水平。

  中青報·中青網記者 李雅娟 實習(xi) 生 盧世龍 來源:中國青年報

(責編:陳濛濛)

版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。