寥寥數語生成60秒視頻，Sora能否改變影視行業？_時政

寥寥數語生成60秒視頻，Sora能否改變影視行業？

發布時間：2024-02-20 09:46:00來源：解放日報

　　作者：俞陶然

　　近期，OpenAI公司發布的文生視頻大模型Sora引發全球關(guan) 注。隻要輸入一句或寥寥幾句描述畫麵情節的提示詞，它就能生成一段時長60秒的視頻。這些視頻的質量和準確性達到了令人驚豔的程度。

　　Sora的技術原理是什麽(me) ？其應用價(jia) 值有多大？記者采訪了上海交通大學計算機科學與(yu) 工程係教授趙海。

　　趙海教授介紹，Sora屬於(yu) 多模態混合模型，由大語言模型和文圖生成器拚接而成。純文圖生成模型對提示詞的理解能力很弱。比如，用戶輸入“世界和平”，它往往無法生成準確的圖片。如果把文圖生成器與(yu) 大語言模型拚接在一起，後者就能把“世界和平”轉化為(wei) 和平鴿、橄欖枝等文圖生成器“看得懂”的提示詞，從(cong) 而生成切題的作品。

　　文圖生成器經改造後，也能生成視頻。因此，從(cong) 文圖生成器過渡到文生視頻大模型，不需要很大的技術突破，研發團隊主要依靠的是大算力、大模型、大樣本訓練數據等“先天條件”。“這些條件都是OpenAI所具備的，所以Sora的問世不能算技術革命，而是工程實踐的成功。”趙海說。

　　Sora展示的一批文生視頻案例令人驚豔。比如，輸入這樣一段提示詞：“一位時尚女性走在充滿霓虹燈和城市標牌的東(dong) 京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，塗著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡麵效果。許多行人走來走去。”Sora根據這段話生成的60秒視頻效果頗佳，頭發、服裝等細節都沒問題，並實現了連貫的場景轉換，達到以假亂(luan) 真的水平。

　　Sora與(yu) 同類產(chan) 品相比，具有三大優(you) 勢——60秒時長、單視頻包含多角度鏡頭、遵循部分物理規律。

　　Sora問世前，同類產(chan) 品隻能根據提示詞生成5秒以內(nei) 的短視頻。Sora的作品不僅(jin) 長達1分鍾，而且有多角度鏡頭，這些鏡頭裏的人和物還能保持前後一致性，不會(hui) 因角度變換而出現問題。在對物理規律的掌握方麵，Sora也有不俗表現，比如在其生成的一段SUV（運動型多用途汽車）行駛視頻中，汽車影子與(yu) 車身始終契合。

　　不過，Sora的作品也存在不少瑕疵。如輸入“五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”，視頻中狼的數量會(hui) 莫名改變，幾隻狼憑空出現或消失。趙海分析：“目前的文圖生成器對數字不夠敏感，比如生成的一些手會(hui) 有6根手指，今後要加強這方麵的訓練。”

　　在他看來，視頻大模型將改變影視行業(ye) 的遊戲規則。以技術含量最高的科幻電影為(wei) 例，目前拍攝一部科幻大片往往需要數年時間，視頻大模型用於(yu) 這個(ge) 領域後，特效畫麵的製作時間有望縮短到幾天，從(cong) 而大幅降低科幻電影拍攝的時間成本和技術門檻。視頻攝製成本的降低，也將給傳(chuan) 媒行業(ye) 帶來變革。今後，部分視頻的攝製也許隻要在電腦前輸入一些提示詞，省去了現場拍攝、後期剪輯等耗時費力的過程。（俞陶然）

（責編：李雨潼）

寥寥數語生成60秒視頻，Sora能否改變影視行業？

相關閱讀

專題推薦

微觀

賞閱

資料雲

即時新聞