·美國聖克拉拉大學法學院教授埃裏克·戈德曼認為(wei) ,訴訟浪潮才剛剛開始,“第二波和第三波”即將到來,而這將定義(yi) 人工智能的未來。
·人工智能公司辯解稱,使用受版權保護的作品來培訓人工智能是合理的——這參考了美國版權法中“轉換性使用”的概念,如果材料以一種“變革性”的方式改變,就會(hui) 創造一個(ge) 例外。
美國正在爆發一場“數據起義(yi) ”,好萊塢、藝術家、作家、社交媒體(ti) 公司和新聞機構都是反抗者。
一切的矛頭都指向ChatGPT和Stable Diffusion等生成式人工智能工具,它們(men) 被指在未經許可或提供補償(chang) 的前提下,非法利用內(nei) 容創作者的作品訓練大型語言模型。
這場“數據起義(yi) ”的核心是一種新的認識,即在線信息——故事、藝術品、新聞文章、網絡帖子和照片可能具有重要的未開發價(jia) 值。在互聯網上抓取公開內(nei) 容的做法由來已久,大多數采取這種做法的公司和非營利組織都會(hui) 公開披露。但在ChatGPT發布之前,數據所有者對此並不太了解,也不認為(wei) 這是一個(ge) 特別嚴(yan) 重的問題。現在,當公眾(zhong) 了解了更多關(guan) 於(yu) AI訓練的基礎知識後,這種情況發生了變化。
“這是數據價(jia) 值的根本性重塑。”Nomic公司的創始人兼首席執行官布蘭(lan) 登·杜德斯塔特(Brandon Duderstadt)在接受媒體(ti) 采訪時說,“以前,人們(men) 通過讓所有人都能訪問數據並投放廣告來獲得數據價(jia) 值。而現在,人們(men) 認為(wei) 要保護好自己的數據。”
浪潮迭起
最近幾個(ge) 月,Reddit和推特等社交媒體(ti) 公司、《紐約時報》和美國全國廣播公司(NBC)等新聞機構、科幻作家保羅·特倫(lun) 布雷(Paul Tremblay)和女演員莎拉·西爾弗曼(Sarah Silverman)等紛紛發采取行動,反對他們(men) 的作品和數據被人工智能擅自收集。這一係列舉(ju) 動被美國媒體(ti) 稱為(wei) “數據起義(yi) (Data Revolt)”。
上周,西爾弗曼向OpenAI和Meta公司提起訴訟,指控他們(men) 在訓練數據時使用其著作的盜版內(nei) 容,因為(wei) 這兩(liang) 家公司的聊天機器人可以準確地總結其書(shu) 中的內(nei) 容。此外,包括喬(qiao) 迪·皮科特(Jodi Picoult)、瑪格麗(li) 特·阿特伍德(Margaret Atwood)和阮越清(Viet Thanh Nguyen)在內(nei) 的5000多名作家簽署了一份請願書(shu) ,要求科技公司在使用他們(men) 的書(shu) 作為(wei) 訓練數據時,要征得他們(men) 的許可,並給予他們(men) 署名和補償(chang) 。
為(wei) 了保護自己的作品,作家和藝術家們(men) 采取了不同的抗議方式。有的選擇鎖定作品,不讓人工智能獲取;有的選擇抵製發布人工智能生成內(nei) 容的網站;有的則選擇編寫(xie) 一些顛覆性的內(nei) 容,來幹擾人工智能的學習(xi) 。
7月13日,擁有16萬(wan) 會(hui) 員的好萊塢三大工會(hui) 之一SAG-AFTRA宣布罷工,在此之前,美國編劇工會(hui) 已經罷工70多天。《紐約時報》稱,這次大罷工使價(jia) 值1340億(yi) 美元的美國影視業(ye) 陷入停頓,SAG-AFTRA工會(hui) 要求流媒體(ti) 巨頭為(wei) 他們(men) 提供更公平的利潤分配和更好的工作條件,並要求製片公司保證不會(hui) 以AI和電腦生成麵孔和聲音來替代演員。
與(yu) 此同時,一些新聞機構也在抵製人工智能。6月,在關(guan) 於(yu) 使用生成型人工智能的內(nei) 部備忘錄中,《紐約時報》表示,“人工智能公司應該尊重我們(men) 的知識產(chan) 權。”同月,在代表在線出版商利益的貿易組織Digital Content Next發布的一份聲明中,《紐約時報》和《華盛頓郵報》等在線出版商認為(wei) ,使用受版權保護的新聞文章作為(wei) 人工智能的訓練數據具有潛在風險和法律問題,它們(men) 呼籲人工智能公司尊重出版商的知識產(chan) 權和創作勞動。
社交媒體(ti) 公司也紛紛表明立場。今年4月,社交新聞網站Reddit表示,它希望對訪問其應用程序編程接口(API)的第三方收費。Reddit首席執行官史蒂夫·霍夫曼(Steve Hoffman)表示,他的公司“不需要把所有價(jia) 值都免費提供給世界上最大的一些公司。”7月,推特所有者埃隆·馬斯克(Elon Musk)也表示,一些公司和組織“非法”大量抓取推特的數據,為(wei) 了應對“極端的數據抓取和係統操縱”,推特決(jue) 定限製個(ge) 人賬戶可以查看的推文數量。
這場“數據起義(yi) ”也包括“訴訟浪潮”,一些人工智能公司由於(yu) 數據隱私問題受到多次起訴。去年11月,一群程序員對微軟和OpenAI發起集體(ti) 訴訟,稱這兩(liang) 家公司使用其代碼訓練人工智能編程助手,侵犯了他們(men) 的版權。今年6月,總部位於(yu) 洛杉磯的克拉克森律師事務所向OpenAI和微軟發起起訴書(shu) 長達151頁的集體(ti) 訴訟,指出OpenAI如何從(cong) 未成年人那裏收集數據,並稱網絡抓取侵犯了版權法,構成了“盜竊”。此後,該事務所又對穀歌提起了類似的訴訟。
美國聖克拉拉大學法學院教授埃裏克·戈德曼(Eric Goldman)在接受媒體(ti) 采訪時說,這起訴訟的論點過於(yu) 寬泛,不太可能被法院接受。但他認為(wei) ,訴訟浪潮才剛剛開始,“第二波和第三波”即將到來,而這將定義(yi) 人工智能的未來。
法律爭(zheng) 議
OpenAI的ChatGPT和Dall-E、穀歌的Bard、Stability AI的Stable Diffusion等生成式AI都是基於(yu) 從(cong) 互聯網上抓取的海量新聞文章、書(shu) 籍、圖片、視頻和博客文章進行訓練的,其中很多公開內(nei) 容都受版權保護。
今年3月,OpenAI發布了一份對該機構主要語言模型的分析報告,顯示訓練數據的文本部分使用了來自新聞網站、維基百科和一個(ge) 盜版書(shu) 籍數據庫(LibGen)的數據,目前,該盜版書(shu) 籍數據庫已被美國司法部查封。
7月13日,美國聯邦貿易委員會(hui) (FTC)向OpenAI發送了一份20頁的文件,要求OpenAI提供有關(guan) 其人工智能模型的風險管理、數據安全和信息審核的記錄,以調查其是否侵犯了消費者權利。
但在公開露麵和對訴訟的回應中,人工智能公司辯解稱,使用受版權保護的作品來培訓人工智能是合理的——這參考了美國版權法中“轉換性使用”的概念,如果材料以一種“變革性”的方式改變,就會(hui) 創造一個(ge) 例外。
“人工智能模型基本上是在從(cong) 所有的信息中學習(xi) 。這就像一個(ge) 學生在圖書(shu) 館讀書(shu) ,然後學習(xi) 如何寫(xie) 作和閱讀。”穀歌全球事務總裁肯特·沃克(Kent Walker)在一次采訪中說,“與(yu) 此同時,你必須確保沒有複製別人的作品,也沒有做一些侵犯版權的事情。”
穀歌的總法律顧問哈利瑪·德萊恩·普拉多(Halimah DeLaine Prado)向媒體(ti) 表示:“多年來,所有人都很清楚,我們(men) 會(hui) 使用來自公共來源的數據——比如發布到開放網絡和公共數據集的信息,來訓練穀歌翻譯等服務背後的人工智能模型。”她指出,“美國法律支持利用公共信息來創造新的有益用途,我們(men) 期待著駁斥這些毫無根據的說法。”
邁阿密大學研究知識產(chan) 權法的教授安德烈斯·索維基(Andres Sawicki)在接受采訪時說,有一些可能有利於(yu) 科技公司的先例,比如1992年美國上訴法院的裁決(jue) ,允許公司對其他公司的軟件代碼進行逆向工程來設計競爭(zheng) 產(chan) 品。但許多人表示,對於(yu) 大型公司利用創造者的工作來製造新的賺錢工具,直覺上這是不公平的。“關(guan) 於(yu) 生成式人工智能的問題真的很難給出答案。”他說。
邁阿密大學版權法教授傑西卡·D·利特曼·索維基(Jessica D. Litman Sawicki)表示,合理使用原則(Fair use)是對人工智能公司的一種有力辯護,因為(wei) 人工智能模型的大多數輸出內(nei) 容並不明確地類似於(yu) 某個(ge) 特定人類的作品。但她認為(wei) ,如果起訴人工智能公司的創作者能夠展示足夠多與(yu) 他們(men) 作品非常相似的人工智能輸出的例子,他們(men) 就會(hui) 有充分的理由認為(wei) ,他們(men) 的版權正在受到侵犯。
人工智能公司開始應對
索維基表示,人工智能公司可以通過在產(chan) 品中安裝過濾器(filters)來避免這種情況,以確保它們(men) 不會(hui) 生成任何與(yu) 現有作品太相似的內(nei) 容。例如,視頻網站YouTube已經使用相關(guan) 技術,檢測並自動刪除上傳(chuan) 到其網站的受版權保護的作品。從(cong) 理論上講,人工智能公司也可以建立算法,發現與(yu) 現有藝術、音樂(le) 或寫(xie) 作作品高度相似的輸出。
這場“數據起義(yi) ”從(cong) 長期來看可能無法掀起波瀾。像穀歌和微軟這樣的科技巨頭已經擁有了海量的專(zhuan) 有數據,並且有能力獲取更多數據。但是,隨著內(nei) 容獲取變得越來越困難,人工智能的規模也在縮小。那些想要與(yu) 大公司抗衡的新興(xing) 企業(ye) 和非營利機構可能無法得到足夠的數據來訓練他們(men) 的係統。
就在7月初,加州大學伯克利分校計算機科學教授、《人工智能——現代方法》作者斯圖爾特·羅素(Stuart Russell)發出警告稱,ChatGPT等人工智能驅動的機器人可能很快就會(hui) “耗盡宇宙中的文本”,通過收集大量文本來訓練機器人的技術“開始遇到困難”。
一些公司也正在以合作態度應對這股浪潮。OpenAI在一份聲明中表示,“我們(men) 尊重創意人員和作者的權利,並期待繼續與(yu) 他們(men) 合作,以保護他們(men) 的利益。”7月14日,美聯社同意將1985年以後的新聞報道檔案授權給OpenAI,同時也將利用OpenAI的技術和產(chan) 品。
穀歌也在一份聲明中表示,它參與(yu) 了關(guan) 於(yu) 出版商未來如何管理其內(nei) 容的談判。該公司表示:“我們(men) 相信,每個(ge) 人都能從(cong) 一個(ge) 充滿活力的內(nei) 容生態係統中受益。”
人工智能公司HuggingFace的首席倫(lun) 理科學家瑪格麗(li) 特·米切爾(Margaret Mitchell)在接受媒體(ti) 采訪時表示,“整個(ge) 數據收集係統都需要改變,不幸的是,它需要通過訴訟來實現,但這往往是推動科技公司進行改變的方式。”她說,如果OpenAI因為(wei) 訴訟或新規定而在年底前完全下架其中一款產(chan) 品,她不會(hui) 感到驚訝。
實習(xi) 生 陳曉銳 澎湃新聞記者 方曉
版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。