圖片來源 @視覺中國
文 | 科技新知
鏖戰一年的 " 百模大戰 " 還未結束,兩個海外 AI 巨頭又給國内科技大廠出了難題。
就在春節假期的尾聲,谷歌和 OpenAI 毫無征兆地放出了各自的 AI 新 " 核武 "。
谷歌拿出的新一代多模态大模型 Gemini 1.5 Pro,将性能提升到了百萬級别,完全秒殺了 OpenAI 的 GPT-4 Turbo,暫居地表最強。
而後者發布的首個文生視頻模型 Sora ,則基于視覺美學的驚豔表現,更讓人印象深刻,迅速成爲全球科技圈追捧的熱點。
在生成視頻的保真度、長度、穩定性、一緻性、分辨率、文字理解等各方面,Sora 已經超過 Gen-2、SVD-XT、Pika 等主流産品,做到了當前最優,可以說一出手就是王炸。
去年,國内的百度、阿裏、科大訊飛等互聯網公司紛紛推出了自研大模型,争搶智能變革時代的船票;華爲、小米、OPPO、vivo 等手機廠商也布局大模型,希望新技術爲見頂的市場帶來新的生機;衆多創業公司也進入該賽道,試圖輕裝上陣、彎道超車。
但物理意義上的鴻溝讓國内的大模型産品在性能、生态等方面還與 ChatGPT 有着不小的差距。而如今視頻生成模型 Sora 的誕生,不出意外也将再次掀起一波跟風的浪潮。
然而,颠覆性的效果往往來自颠覆性的思路。從當前節點來看,在 AI 大模型領域國内企業與世界前端到底還有多大差距?差在哪裏?又有哪些種子選手可能脫穎而出?
恐慌
對于 Sora 的橫空出世,馬斯克的評論 "gg humans(人類認輸了)",算是一種主流看法。
此前,雖然已經有大量文生視頻技術,但尚未實現技術收斂,主要實現路徑是通過各種手段讓單幀的圖片 " 動 " 起來,類似定格動畫。而從用戶的實際需求來看,視頻每一幀之間的連貫性與自然度是價值的關鍵,也就是視頻每幀語義信息的無縫銜接才是核心。
也就是說,Sora 這種圍繞需求提供對應技術解決方案的産品,要遠遠優于通過技術可實現的角度來創造産品。
根據 OpenAI 官網上的介紹指出,Sora 與之前的文生視頻思路并不一樣,是讓模型一次預測多幀畫面,并且确保視頻主體保持不變。這正是其巧妙之處——在視頻幀上做突破,提升了生成視頻的使用上限。
360 創始人周鴻祎也給予了極高評價,他認爲 Sora 的誕生意味着 AGI(通用人工智能)的實現可能從十年縮短至一兩年。
作爲 Sora 的前輩,AI 文生視頻創企 Runway 聯合創始人兼 CEO Crist ó bal Valenzuela 感慨道,以前需要花費一年的進展,變成了幾個月就能實現,又變成了幾天、幾小時。
Sora 發布前還曾有很多煙霧彈式的信息被放出。比如 OpenAI 組建了研究兒童安全的新團隊,或是正準備推出 GPT-4.5-turbo,但真正的 " 殺手級更新 " 被隐藏得很好。這也導緻像 Pika、Runway 一樣的明星創業公司,面對 Sora 措手不及。
其實,國内外大廠對于 AI 視頻生成的态度一直模棱兩可。根本問題在于,現在的人工視頻質量、效果更好,且成本也能接受;AI 視頻生成此前沒有大家想象的那麽颠覆,所以整體策略偏向防禦,而非進攻。
值得一提的是,國内的字節跳動以及百度的嗅覺更加敏銳。百度早在去年 3 月文心一言的發布會上,便發布了 AI 文生視頻的功能,百度 AI 會自動根據文字内容尋找合适的視頻素材,生成視頻後并自動發布,這是屬于文心一言 AIGC 的 TTV(文本内容情感化分析)功能。
字節跳動則在去年 11 月發布了 PixelDance,可以通過上一個視頻片段尾幀,爲下一個視頻片段頭幀提供指導的思路,在視頻時長上有所突破,但至今仍然沒有開放用戶測試,所以具體效果如何還是未知。
如果從 GPT 的發展路徑來看,所有做 AI 視頻生成甚至做大模型的公司将面臨新一波危機。就像周鴻祎所說,盡管國内大模型發展水平表面看已經接近 GPT-3.5,但實際上跟 4.0 比還有一年半的差距。OpenAl 手裏應該還有一些秘密武器,無論是 GPT-5 還是機器自我學習自動産生内容。
但是危險中也蘊藏着機遇。OpenAI 證明了用大模型的思路做視頻是可行的,文生視頻能蔚然成風成爲全球新一輪 AIGC 競賽的焦點,也給短視頻平台上的直播電商、内容創作等帶來更高的天花闆。其他互聯網企業和内容平台,需要做的隻是證明自己也可以用大模型做出視頻。
從技術角度來看,Sora 屬于多模态混合模型,由大語言模型和文圖生成器拼接而成。這也意味着多模态模型叠代節奏加快,不出意外 2024 年的第一波 AI 風潮将就此展開。
風起
自 2022 年末 ChatGPT 嶄露頭角,其強大的影響力如野火燎原般蔓延至國内科技圈。百度、阿裏巴巴、騰訊等一衆互聯網大廠,以及以米 OV 爲代表的智能硬件公司,仿佛嗅到了新時代的氣息,紛紛宣布推出自家的大模型,意圖在這波 AI 浪潮中占據一席之地。
與此同時,文生圖、文生視頻等多模态 AIGC 産品也在有序推進。實事求是地來看,AI 生文、生圖的應用,早已層出不窮,相關的技術不斷日新月異。相比之下,AI 文生視頻,卻是一個遲遲未被攻下的陣地,難度和價值一樣巨大。
公開信息顯示,包括字節跳動、百度、阿裏、海康威視、萬興科技、拓爾思、當虹科技在内的科技公司,都在積極布局文生視頻,但與 Sora 相比存在不小的差距。
簡單來講,之前的 AI 文生視頻工具,僅僅停留在 " 模拟現實 " 的層面,Sora 則已經躍升到了 " 構建現實 " 的新高度。兩者的根本區别在于,前者隻是對現實世界的表面模仿,難以深入捕捉現實世界的物理規則和動态變化;而後者則是在虛拟世界中重新構建了一種與現實世界并行的存在。
Sora 不僅學習了像素與畫面的呈現,更深入理解了現實世界的 " 物理規律 "。例如在現實世界中,我們每咬下一口食物,食物上都會留下咬痕,這是遵循物理規則的自然現象。Sora 生成的視頻中,同樣能夠精準地再現這一細節,做到 " 咬下去有痕迹 ",從而在虛拟世界中完美再現了現實世界的真實感。而這是其他文生視頻産品所做不到的。
以百度的文心一言爲例,雖然其能夠根據輸入的文本生成視頻,但在處理複雜場景和細節描繪方面仍存在不足。并且百度 AI 文生視頻也更像是從已有素材庫中找到更接近文字意思的視頻進行拼接,單靠 AI 很難生成新的視頻内容。
今年初,字節跳動發布了一款超高清文生視頻模型 MagicVideo-V2。據悉,該模型輸出的視頻在高清度、潤滑度、連貫性、文本語義還原等方面,比目前主流的文生視頻模型 Gen-2、Stable Video Diffusion、Pika 1.0 等更出色。
抖音的張楠已于 2 月初辭去 CEO 崗位,聚焦在剪映業務上。這意味着,抖音将加強對 AI 生圖和視頻産品的布局,其中文生視頻自然是重中之重。
不過在張楠的規劃中,AI 視頻所應具備的更高保真度生成效果、更清晰生成畫面、更順暢自然的邏輯理解能力等,也被 Sora 一朝之間吊打。
相對于互聯網巨頭的低調表現,一些上市公司在近期卻積極發聲,紛紛披露自己在視頻生成模型領域的業務情況。
據不完全統計,包括萬興科技、博彙科技、易點天下、數碼視訊、漢王科技、當虹科技、東方國信、神思電子、因賽集團、拓爾思、國脈文化、佳都科技在内的超 10 家 A 股上市公司,近三個月以來在互動平台上各自披露了相關視頻生成模型領域的業務情況。
但不能否認的是,真正達到前沿水平的公司鳳毛麟角,許多公司隻是在跟風炒作,缺乏真正的技術儲備和研發能力。
東方國信直言不諱地表示,他們在 AI 視頻生成領域尚無成熟的技術儲備;而神思電子則回應稱,公司正在對文生圖、圖生文、視頻生文、文生視頻等多模态數據互相跳轉的收斂性質進行深入研究,言下之意,他們在這方面的技術也還在探索階段。
AI 文生視頻的颠覆性,可以具體到實際運用層面來看。圖片、視頻生成能幫助提高企業的商業化需求,如幫助降低廣告客戶成本、便捷制作視頻等。拿字節跳動舉例,其廣告客戶投放總成本中有一到兩成爲視頻制作成本,而去年開始字節已經用相關産品幫助廣告客戶壓縮這部分投入。
與上一波 ChatGPT 的風潮相似,盡管在推出類似 AI 文生視頻産品方面國内企業難免落後一步,但也不失爲一個摸着 Sora 過河的機會。
湧動
從全球市場來看,AI 仍然引領着整個科技商業前進的方向,而且多模态成爲主流。從大語言模型到多模态,再到通用人工智能的路徑已經逐漸清晰,分歧點還是在于節奏的判斷。
此前,OpenAI 花了大約半年時間來測試大語言模型 GPT-4。如果測試 Sora 需要差不多的時長,這個強大的視頻生成工具可能會在今年 8 月份開放。而這半年時間便是其他企業積累力量的窗口期。
畢竟 ChatGPT 已經問世一年多,但還有大量用戶沒有使用過聊天機器人相關産品,這也爲其他企業迎頭趕上提供了機會。
而目前國内企業面臨的最大問題,還在于第一梯隊的 AI 公司如百度、科大訊飛的股價,因各種原因被打到了地闆價,而國外的頂級企業,如英偉達、微軟的股價創出新高,OpenAI 的估值仍然在不斷上升。這也意味着海内外 AI 企業在資本、人才、技術、市場号召力等方面存在着天然的優劣差異。
周鴻祎認爲,科技競争最終比拼的是人才密度和深厚積累。事實也是如此,Sora 應用的是 Transformer+Diffusion。從模型架構來看,如果以 Transformer 爲基準,那麽文生視頻依舊是龍頭科技企業更有優先權,但是如果生成式視頻架構依舊圍繞 Diffusion 展開的話,創業企業機會要更大一些。
不過沒有一騎絕塵的技術,隻有螺旋式上升的産業繁榮。
Sora 雖然可以一次性生成幾十秒到一分鍾的視頻,但是真正在應用階段,如果産品沒有提供足夠多的微操空間,确保用戶能夠将其整合到自己的工作流中,那麽大概率也隻能叫好不叫座。
好在技術的擴散才剛剛開始,不會有任何一家公司 " 猝死 " 在新技術的出現上。OpenAI 更像是一個開拓者,強項在于鋪路,普及應用尚需要生态的力量。
就像是在文生文模型上的模塊化組合,是否會有類似手機、智能音箱一樣的專有智能設備問世?讓更多用戶可以在端側使用模型,構建起開源 + 小參數模型 + 移動端的思路,把當下的産品做一次革新。這是國内廠商所擅長的,但同時也是未來内卷的陣地。
從單點的突破來看,Sora 具有裏程碑意義;但是從商業化需求和混剪工作流效率提升來看,Sora 本身的價值和落地效果還有待考究。
想僅靠 AI 生成的一分鍾視頻成爲下一個董宇輝、李佳琪并不現實,更别說制作長視頻或者電影、電視劇了,即便是做一個短視頻,是通過一遍遍修改提示詞更加有效率,還是在視頻剪輯軟件裏按照創作者的想法調整素材更快?顯然,期待 Sora 變得更強,不如期待視頻剪輯軟件中盡早增添 AI 模塊,從而切實提升工作效率。
即使最終 Sora 全面放開注冊,普通用戶也難以做出如當前演示案例般的視頻 Demo。所以最終各個大廠的決勝點還是在于如何普及多模态的應用,如何在工具中加入 AI 功能,更直接地優化工作流程。
新興技術具有普适性,并不是某個企業的專屬。對于國内企業來說,在多模态上的探索不妨可以參考 GPT 的發展、落地方式,在特定垂直領域的應用層面找到自身的優勢,并以此作爲方向實現快速發展。
隻是在這個過程中,拼的還是人才密度、落地程度以及犯錯誤的次數。