對于人工智能,人類向來保持着 " 期待和擔憂各半 " 的态度。
已故物理學家斯蒂芬 · 霍金曾經這樣評價人工智能," 人工智能可能是人類曆史上最大的發明。" 但是他同時強調," 它可能帶來無限的好處,但也可能是我們的末日。"
霍金的這句話,表達了人們對人工智能帶來的巨大潛力和威脅的 " 雙重感情 "。
現階段,人工智能還處在爆發的前夜,但也展現出巨大的成長潛力。
窺一斑而知全豹,随着 OpenAI 推出 Sora、谷歌發布 Gemini1.5Pro,在 2024 年,人工智能會如何影響媒體、廣告、乃至智能汽車行業呢?
01
裏程碑時刻
2 月 16 日,OpenAI 宣布推出全新的生成式人工智能模型 Sora。
對此,多家券商評價到,AI 視頻生成迎來裏程碑時刻。
招商證券說,Sora 将推動 AI 視頻生成進入一個全新的時代。華泰證券的報告說,視頻 AI 進入大規模應用的前夜。天風證券的報告說,下一個億級用戶的互聯網平台雛形已然出現。
Sora 的工作原理類似 DALL-E:用戶輸入想要的場景,Sora 即可返回一個高清視頻片段。此外,Sora 還可根據靜态圖像拓展現有視頻或填充缺失的幀。
與 Runway Gen2、Pika 等文生視頻模型相比,Sora 主要實現了以下突破 :
視頻時長達到 60 秒:Sora 可以通過文本指令直接輸出長達 60 秒的視頻,并保持視頻主體與背景的高度流暢性與穩定性。
文本的深度理解能力:Sora 可以準确理解用戶的文本指令,無論是複雜的動作場景還是細膩的情感表達,Sora 都能夠精确捕捉并展現。
對真實世界的理解:Sora 對物理規律的遵循程度較高,對于光影反射、運動方式、鏡頭移動等細節的呈現效果較爲逼真。
長序列連貫性和目标持久性:Sora 能在單個視頻中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀。
即使人、動物和物體被遮擋或離開畫面,Sora 模型也能使其保持不變。
另外,Sora 表現出了良好的多模态能力。
其一、Sora 不僅支持文本生成視頻,還能夠根據提供的圖片作爲輸入來生成視頻。
其二、Sora 還能夠擴展生成的視頻,在時間上向前或向後擴展,并具有連接視頻等視頻編輯的能力。
其三、Sora 還有生成圖像的能力,Sora 可以生成不同尺寸大小的圖像,分辨率最高可達 2048X2048 的水平。
這意味着,隻要你的要求提得足夠清晰,且視頻長度在 60 秒以内,那麽 Sora 幾乎可以零成本地執行你的所有設計。
OpenAI 将 Sora 定位爲模拟世界的視頻生成模型,能夠模拟真實世界運行的規律。這也是多家券商高度評價 Sora 的原因所在。
同期,谷歌宣布了下一代大模型 Gemini 1.5 Pro。Gemini1.5 Pro 将上下文窗口長度擴展到 100 萬個 tokens,實現了迄今通用大模型最長的上下文窗口。
這意味着使用 1.5Pro 能夠一次性處理海量信息,比如 1 小時的視頻、11 小時的音頻、超過 30,000 行的代碼庫,或是超過 700,000 個單詞。
一種是 AI 視頻大模型,一種是通用大模型,兩者先後發布必定不是巧合。
GPT-4 已經激起了普通人投身 AI 領域的熱情,Gemini 則展現出後發制人的潛力。不難想象,在 Sora 之後,谷歌也會推出自己的 AI 視頻模型。畢竟,3D、視聽等多模态模型仍是一片藍海。
GPT-4 和 Gemini,就像一對雙子星,在通用大模型和細分領域大模型之間不斷展開競争,也将持續促進乃至颠覆行業的認知。
02
大有可爲
雖然目前 Sora 存在一定的局限性,諸如無法準确模拟常見的物理運動過程,視頻互動中無法正确顯示物體狀态的變化、長時間樣本發展的不連貫性或物體突然出現等等。
但 Sora 所呈現的效果,所支持的視頻參數等基礎條件,讓所有人在 Sora 發布的 72h 内,已經形成了一種共識:Sora 已具備商用化技術基礎,AI 視頻商用不再遙遠。
我們可以看到 ChatGPT 的出現,已經大大提高了生産率。
GitHub、Copilot 和 Replit AI 等編程助手已獲得了一定成果,它們的出現提高了軟件開發人員的工作效率和工作狀态。
文生圖的大模型飛速發展也重塑了平面設計,圖像模型的輸出效果已可與專業平面設計師媲美。
創作文字的成本正急劇下滑,在過去的一個世紀中,撰寫書面内容的成本按實際價值計算相對穩定。但在過去兩年中,随着大語言模型寫作質量的提高,成本也随之下降。
我們有理由相信,文生視頻大模型的出現,可以讓視頻成本無限壓縮,颠覆動畫師的工作方式,讓更多的導演排出《繁花》裏那種看起來很有意境的氛圍。
除了颠覆影視業,Sora 或在自動駕駛上大有可爲。
近期,馬斯克也在力證特斯拉在視頻生成上的實力," 特斯拉在大約一年前就能以精确的物理生成真實世界的視頻。隻不過,由于訓練數據來自汽車,生成的視頻并不有趣。這些視頻看起來像特斯拉的普通視頻,實際上是通過動态生成的。"
中信證券在研報中稱,在技術上,Sora 采用了 Diffusion Transformer 的路線。OpenAI 表示,Sora 在訓練過程中表現出了與其他模型不同的湧現能力,通過湧現學習到了物品的時間與空間的相關性以及與周圍世界的互動能力等等。
比如,Sora 有時能夠以一些簡單的方式模拟現實世界的狀态。比如,畫家可以在畫布上留下新的筆畫,并且這些筆畫随着時間的推移會持續存在。再比如,視頻中人可以吃漢堡并在漢堡上留下咬痕。
如上文所述,Sora 可以成爲真正的 " 世界模型 "。
360 董事長周鴻祎也表示," 原來的自動駕駛技術過度強調感知層面,而沒有工作在認知層面。其實人在駕駛汽車的時候,很多判斷是基于對這個世界的理解。比如對方的速度怎麽樣、能否發生碰撞、碰撞嚴重性如何。"
我們可以暢想這樣幾個場景:
Chatgpt 大模型可以給 Sora 下達生成視頻的指令,并且其可以根據人類最初的輸入來實現指令的不斷進階。
Sora 大模型可以根據文本、圖片,乃至視頻生成自動駕駛的模拟世界,訓練現有的自動駕駛感知決策模型,甚至可以把互動的能力加成給現有模型。
當下,有些車企采用的九軸模拟器,在實現底盤調校的同時,也在訓練自動駕駛模型。Sora 的出現,将跳出傳統地圖建模的場景,大大提升訓練的效率。
而在智能座艙層面,Sora 将把文本、2D 的大模型交互形式升維成 3D,用戶可以随時生成一段視頻,甚至将沿途拍攝的視頻在線實時剪輯,諸如智己已經開始将 AI 技術用于增強攝像頭感知畫面畫質。
我們不妨再展望一下,AI 對自動駕駛的加成,加上電池技術的進步,可以促使自主移動設備(比如自動駕駛出租車)的規模化。
而 Robotaxi 規模化的前提則是,補能的自動化。也許是換電,也是補能機器人(或機器手)。
環環相扣,AI 締造的智能世界,也許并不遙遠。