新利平台 > 即時新聞 > 時政

寥寥數語生成60秒視頻,Sora能否改變影視行業?

發布時間:2024-02-20 09:46:00來源: 解放日報

  作者:俞陶然

  近期,OpenAI公司發布的文生視頻大模型Sora引發全球關(guan) 注。隻要輸入一句或寥寥幾句描述畫麵情節的提示詞,它就能生成一段時長60秒的視頻。這些視頻的質量和準確性達到了令人驚豔的程度。

  Sora的技術原理是什麽(me) ?其應用價(jia) 值有多大?記者采訪了上海交通大學計算機科學與(yu) 工程係教授趙海。

  趙海教授介紹,Sora屬於(yu) 多模態混合模型,由大語言模型和文圖生成器拚接而成。純文圖生成模型對提示詞的理解能力很弱。比如,用戶輸入“世界和平”,它往往無法生成準確的圖片。如果把文圖生成器與(yu) 大語言模型拚接在一起,後者就能把“世界和平”轉化為(wei) 和平鴿、橄欖枝等文圖生成器“看得懂”的提示詞,從(cong) 而生成切題的作品。

  文圖生成器經改造後,也能生成視頻。因此,從(cong) 文圖生成器過渡到文生視頻大模型,不需要很大的技術突破,研發團隊主要依靠的是大算力、大模型、大樣本訓練數據等“先天條件”。“這些條件都是OpenAI所具備的,所以Sora的問世不能算技術革命,而是工程實踐的成功。”趙海說。

  Sora展示的一批文生視頻案例令人驚豔。比如,輸入這樣一段提示詞:“一位時尚女性走在充滿霓虹燈和城市標牌的東(dong) 京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,塗著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡麵效果。許多行人走來走去。”Sora根據這段話生成的60秒視頻效果頗佳,頭發、服裝等細節都沒問題,並實現了連貫的場景轉換,達到以假亂(luan) 真的水平。

  Sora與(yu) 同類產(chan) 品相比,具有三大優(you) 勢——60秒時長、單視頻包含多角度鏡頭、遵循部分物理規律。

  Sora問世前,同類產(chan) 品隻能根據提示詞生成5秒以內(nei) 的短視頻。Sora的作品不僅(jin) 長達1分鍾,而且有多角度鏡頭,這些鏡頭裏的人和物還能保持前後一致性,不會(hui) 因角度變換而出現問題。在對物理規律的掌握方麵,Sora也有不俗表現,比如在其生成的一段SUV(運動型多用途汽車)行駛視頻中,汽車影子與(yu) 車身始終契合。

  不過,Sora的作品也存在不少瑕疵。如輸入“五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,視頻中狼的數量會(hui) 莫名改變,幾隻狼憑空出現或消失。趙海分析:“目前的文圖生成器對數字不夠敏感,比如生成的一些手會(hui) 有6根手指,今後要加強這方麵的訓練。”

  在他看來,視頻大模型將改變影視行業(ye) 的遊戲規則。以技術含量最高的科幻電影為(wei) 例,目前拍攝一部科幻大片往往需要數年時間,視頻大模型用於(yu) 這個(ge) 領域後,特效畫麵的製作時間有望縮短到幾天,從(cong) 而大幅降低科幻電影拍攝的時間成本和技術門檻。視頻攝製成本的降低,也將給傳(chuan) 媒行業(ye) 帶來變革。今後,部分視頻的攝製也許隻要在電腦前輸入一些提示詞,省去了現場拍攝、後期剪輯等耗時費力的過程。(俞陶然)

(責編:李雨潼)

版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。