承認差距并不丢人,知道差距在哪兒,我們迎頭趕上。
頭圖攝影|鄧攀
繼 ChatGPT 之後,OpenAI 推出的 Sora 模型再次引爆全球 AI 界。
北京時間 2 月 16 日淩晨,OpenAI 發布文生視頻大模型 Sora,其驚豔之處在于,隻需要輸入一段文本,Sora 就能夠根據文本提示創建逼真且富有想象力的場景,并生成具有多個角色、特定類型的運動,以及主體和背景細節準确的高清視頻,時長可以達到 1 分鍾。
根據 Sora 演示的案例,在長達 1 分鍾的視頻中,一位戴着黑色墨鏡、穿着時尚皮衣的女子,走在雨後夜晚的東京街頭,地面的積水映出她的身影和絢麗的霓虹燈。随着鏡頭的随意切換,視頻中的女主角、背景人物都達到了驚人的一緻性。
來源:Sora 演示視頻截圖
Sora 生成的視頻有 3 個特征:第一,可生成 1 分鍾的長視頻,還可以自行分鏡和切換景别;第二,單個視頻既可以是多角度鏡頭也可以是一鏡到底;第三,所生成的視頻内容與物理世界規律保持一緻,不會出現違反世界客觀規律的視覺信息。
如果你對此并無概念,一個可參考的對比是,與此前 AI 視頻存在人物或物體失真的情況不同,Sora 生成的視頻幾乎可以做到以假亂真,甚至連女性臉上的睫毛、黑痣以及滾雪的小狗的毛發等細節都格外清晰。此外,在時長上,同類 AI 視頻工具 Runway Gen 2、Pika 等還在突破幾秒内的連貫性,而 Sora 已經達到了分鍾級别。
Sora 的視頻發布後,一直關注 AGI 發展的 360 創始人、董事長周鴻祎第一時間發布了他對于 Sora 的解讀。2 月 20 日,周鴻祎接受《中國企業家》直播訪談時表示:"Sora 的出現讓 AGI(通用人工智能)到來的時間提前了,原來估計需要十來年,現在我覺得可能隻要兩三年吧。"
周鴻祎認爲,Sora 看起來是個文生視頻的工具,但實際上是 AGI 的第二個突破點,是解決人工智能對這個世界的觀察、交互、認知,以及建立常識的重要裏程碑。
OpenAI CEO Sam Altman 近日在社交媒體上表現得極爲活躍,他連發多條推特宣傳 Sora 的視頻效果。與此同時,他還讓網友玩起了互動,網友随意提供 prompt(提示詞),他在線接單幫網友一并輸出視頻。
Sora 是如何實現的?根據 OpenAI 官網介紹," 通過一次性爲模型提供多幀的預測,我們解決了一個具有挑戰性的問題。我們正在教 AI 理解和模拟運動中的物理世界,目标是訓練模型來幫助人們解決需要現實世界交互的問題。"
與 GPT 模型類似,Sora 使用了 Transformer 架構,有很強的擴展性。 它建立在過去對 DALL · E 和 GPT 模型的綜合研究之上,提出了一種新的模型可能。它不僅可以理解用戶在提示中提出的要求,還能理解它們在物理世界中的存在方式。
不過,當前的 Sora 模型并不完美。它在模拟複雜場景的物理效果上可能會遇到難題,有時也難以準确理解特定情境下的因果關系,還可能混淆左右等空間細節。比如,畫面中人吃掉餅幹的一部分後,餅幹可能看起來仍然完整無損。
與此同時,周鴻祎也告誡大家,不必焦慮和擔憂:"AI 不會淘汰任何行業和任何人,你隻會被那些真正懂 AI 的人淘汰掉。至少現在人工智能取代不了人類的想象力和創造力,還有人類的主觀意願。"
以下爲《中國企業家》對話周鴻祎直播全文(有删減):
Sora 的轟動效果遠超 GPT
《中國企業家》: Sora 橫空出世之後,你是焦慮多一點還是興奮多一點?
周鴻祎: Sora 出來之後,大家都應該感覺到很興奮。
有些人可能擔憂自己失業,擔憂某些行業被端了飯碗,我覺得這都想太多了,因爲這個世界在飛速變化過程中,很多東西你也不能改變,應該選擇接受,用更好的态度是主動去擁抱,而且積極地參與推動,成爲推動者甚至成爲布道者。
《中國企業家》: 你之前提出 AI 發展的十大趨勢,現在 Sora 出世之後有變化嗎?
周鴻祎: 兩個月不到,有 4 條都落實了,有兩條和 Sora 有關。
第一,我預言 AIGC 會有大的突破,但我原來以爲是文生圖會有大的突破,沒有想到文生視頻會産生這麽巨大的突破。
第二,Sora 是怎麽做到的?它一定和現在的原理不一樣。我猜測 Sora 多模态輸入能力已經超越了原來像 GPT4 版本的多模态能力。所以,多模态會成爲大模型的主流。大模型過去隻是理解文字、語言、思想、邏輯,但是 Sora 讓我們看到了大模型不僅能理解圖像,還能理解他們互動的時候應該符合什麽樣的物理定律。
還有兩個很熱的新聞被淹沒了。
一個是英偉達推出了 Chat with RTX ——隻要你有 RTX30 系列、RTX40 列的顯卡就可以把你好久不用的電腦折騰成一個大模型,這符合我預測大模型往終端走的趨勢。
另一個是 Google 推出了 Gemini1.5 版本,1.5 版本的思路是把模型越做越大,越做越強。這也符合我的一個推斷,Gemini 的輸出窗口高達 100 萬個 token,這意味着你一次能把幾卷書籍或幾個小時的電影、視頻放給 Gemini 來做分析。
到不了今年一季度結束,可能這十大預言都會實現。
《中國企業家》: 你曾提出企業的 AI 濃度,現在要不要加一個 AI 時間刻度?
來源:《中國企業家》對話周鴻祎直播截圖
周鴻祎: 我提了三個概念,一個概念叫 "AI 信仰 ",這裏邊包括: 第一,你信不信這次 AI 的突破是真的突破?第二,你信不信這次 AI 是一場工業革命級别的革命?第三,你相不相信人類已經在朝着 AGI 甚至強人工智能在指數級地發展,你不要高估今天 AI 的能力,但絕對不要低估它的發展潛力,AGI 原來估計需要十來年,但這次 Sora 出來之後,我覺得如果從基本的 AGI 來講可能還要兩三年吧;第四,AI 不會淘汰任何行業、任何人,是被那些懂 AI 的人給淘汰掉的。
第二個概念叫 "All in AI",就是由内到外,面對你的員工、客戶,從内部的工作流程到客戶服務流程上,看看哪些地方可以用 AI 升級改造。
第三個概念叫 " 含 AI 量 ",不光是 AI 人才的密度問題,還包括每天花多少時間在用 AI,每天花多少時間在思考 AI 的問題。
Altman 是個營銷大師。Sora 現在還沒有正式發布,他現在就是不斷地發讓人驚歎的視頻,形成傳播、發酵,形成期望,然後把大衆注意力從 Google、英偉達、Meta 身上吸引過來。這兩天 Apple 的 Vision pro 也不熱了。Sora 的轟動效果應該遠遠超過 GPT。
我看到國内今天都出現了 Sora 的教程,你看 Twitter 上 OpenAI 的 Sora 團隊已經辟謠了,現在都沒對外放呢,哪會來的賬号和教程,大家别被 " 割韭菜 " 了。
Sora 解決了機器與世界互動的規律
《中國企業家》: 爲什麽說 Sora 是個革命性的發布,它的革命性到底體現在哪兒?
周鴻祎: 之前畫面、紋理的東西都比較容易用美術來解決,所以,文生圖的時候,大家覺得各家都差不多,因爲做一張靜止的圖片,隻要把東西畫出來,在圖片中用像素來表達就可以了。
爲什麽大家覺得 Sora 比 Pika、Runway 要強很多呢?Pika、Runway 比較像是用多幀圖片構成的,把每一幀圖片畫好,拼起來就構成一個視頻,所以像是工作在像素和美術層面。但 Sora 生成的這些畫面動起來以後,符合我們對這個世界認知的常識。
Sora 的演示視頻中,讓我印象深刻的有 2 處,一個是金毛小狗在雪地裏撒歡,你看那個雪花的感覺,雪花是松軟的,狗頭可以紮到雪裏,狗頭擡起來的時候,雪花被揚起來,狗鼻子上留着雪花,雪花還在往下掉,那這種真實的感覺是符合我們生活經驗的。
來源:Sora 演示視頻截圖
還有一個是女人在床上躺着睡覺,她旁邊一隻貓在找她要吃的,那隻貓在被子裏伸出腳來踏了兩下,然後這個女的翻了個身,頭壓在枕頭上滾了一下,那個枕頭的凹陷、皺紋效果非常真實。
你拿所謂過去的計算機 CG 去做的話是很困難。做出一個枕頭外形、花紋很容易,但是你要用什麽樣的物理學公式描述枕頭上被頭壓了之後下陷多少,産生多少個皺紋,皺紋有多寬,有多長,枕頭的松軟度等,我覺得這個電影特效工程師可能沒有半年都不一定做得出來。《阿凡達》爲了做雪的特效花了好幾年,投入了幾千名美工、設計師,用了可能幾十萬台機器來聯合做渲染。
Sora 産出視頻的方式,比較像人類描繪産生視頻的方法。 我認爲 Sora 應該是模拟和借鑒了人來重現這個世界的一種技能。
GPT 實際上解決了 AGI 第一個基本問題——從人工智障到人工智能,就是對人類語言有了一個完整的理解,這樣跟人可以對話。
Sora 解決了機器和這個世界在互動中需要了解的一些規律,了解的一些知識,所以它能做出符合我們日常常識的、符合我們日常物理規律的場景,雖然它可能并不知道這個規律。
老有人跟我辯論說,Sora 能總結出相對論和牛頓定律嗎?我的回答是,一隻貓知不知道牛頓定律并不影響它準确地去預測老鼠的速度去抓到這個老鼠,這是生物的本能。這就更加證明了 Sora 的可怕,它是模拟了生物這種觀察、學習和表現的方式,而不是給這個世界所有的萬物重新建模。如果 Sora 開放接口,我會做一個這樣的視頻,把一個生雞蛋打在狗頭上會出現什麽情況。
《中國企業家》: 這次 Sora 的一個突破,實際是 Transformer 和擴散模型的結合。
周鴻祎: 其實大家把它叫做 Diffusion 大模型或者 Diffusion Transformer,這裏面核心還是 Transformer。OpenAI 用 Transformer 找到了一條統一來做 AGI 的路。
Diffusion 是處理生圖的時候用到的一種技術,它最後隻是用來渲染,沒有 Diffusion 它最多是畫不出視頻,但它一樣有多模态的輸入和學習,一樣有把很多知識存到 Transformer 裏面。OpenAI 雖然用到的技術是 Google 發明的,但用法是自己獨創的,真正做到大力出奇迹。
其實 Sora 的很多東西都沒有公布。OpenAI 這幫人真的非常精明,他們知道到哪一步能讓你心癢癢,哪一點能讓你覺得這是個正确的方向。但真正的訣竅他們是絕對不會說的。
《中國企業家》: Sora 是不是對算力要求特别高?
周鴻祎: 第一,視頻要分析的要素太多了,1 秒鍾 24 幀,1 分鍾是 60 秒,每 1 幀的分辨率又是 1920×1080 for HD 的圖像,對算力的需求非常大。如果對算力的需求不大,它就不是 1 分鍾了。但 OpenAI 不缺顯卡,最近 Altman 說要弄 7 萬億美元做新的算力架構,說明他們 AGI 再往下走對算力的需求可能超出我們每個人的想象。
《中國企業家》: 目前 Sora 的視頻還有穿幫的這種成分在裏面,這是因爲哪些技術未完善?
周鴻祎: 做錯的部分有兩種可能,一種它沒有受過這方面的訓練,隻要持續給算力,給訓練,這些東西都是可以改進的;第二,可能就像幻覺一樣,我認爲都是瑕不掩瑜。
不要把 Sora 看成鲨魚,把它看成是海洋
《中國企業家》:每次有新的技術出現,大家都會說要把所有的産業重做一遍, 現在也是這樣一個新的機會嗎?
周鴻祎: 這麽有利的工具對各個産業的影響一定是正向的。比如對做短視頻的人來說,Sora 很可能就能通過描繪我的夢境來生成視頻,很多人拍短視頻很有創意,但拍攝工具、剪輯能力不行,也沒錢,利用 Sora 是不是可以拍出比現在質量更高的短視頻。
對電影工業來說,這個工具更是可能讓很多人都過一過小導演的感覺,我準備最近找一些導演,像陸川、甯浩交流一下,和他們去 PK 一下,我覺得至少它可以成爲有力的工具。
當然,我相信至少現在人工智能取代不了人類的想象力和創造力,還有人類的主觀意願。就跟今天所有人都編程之後一樣,程序員和程序員能力的差别還是巨大的。所以,我認爲,這裏邊并沒有消除人的主觀能動性。
《中國企業家》: 在通用人工智能時代,C 端創業的底層邏輯會有什麽變化?
周鴻祎: 創業要廣義地來看,不見得每個人都要颠覆掉抖音才叫創業。比如:第一,如果可以接入 Sora、GPT 大模型 API,你可以利用它的能力,Sora 就可以給你産生很多素材,最後你把它組裝起來;可能你是做配音的,可以把你的能力和它結合起來。我覺得未來會産生很多新的工具,人工智能最典型的屬性就是工具,所以工具市場會有巨大的機會。
第二,對已有很多傳統的 to C 領域可能會有重塑一遍的機會。360 下周就會推出互聯網兩個 to C 的應用場景,一個是浏覽器,一個是搜索。
你不要把這些平台看成是鲨魚,而是把它們看成是海洋。實際今天在抖音上有一批更年輕的創業者通過做内容、直播帶貨,已經嘗到了内容紅利,未來如果利用好 AI 工具也會有很多的機會。所以,我自己還是覺得Sora 會帶來整個産業巨大的進步。
《中國企業家》: 這種情況之下,每個人都有可能成爲一個超級的表達者,這個世界會變成怎麽樣呢?
周鴻祎: 正向來說,我覺得内容會極大地豐富。從負面來說,如果有了 Sora 之後,人類消耗大量的算力和能源,我們每個人每天都在瘋狂産生視頻,你根本就沒有時間來回看。它甚至都超過一個宇宙的壽命了,那誰去看呢?所以,我也覺得挺迷茫的,但到那時候再說呗。
《中國企業家》: 如果到了我們可以大量地用人工智能視頻的情況之下,人工智能它自己所吸收的這些視頻實際上是不是會進入 " 自喂養 " 的狀态?
周鴻祎: 不行。人工智能産生的文字,如果拿來再訓練大模型,這個大模型會越訓練越傻,直到有一天變成腦癱了。這有點像 " 瘋牛病 " ——動物是不能吃同類的,它會進入一種 " 遞歸 ", 如果拿 Sora 産生的視頻去 " 喂 "Sora,這裏邊一定會産生一種系統的崩潰。
《中國企業家》: 在通用人工智能大發展的背景下,井底之蛙就是你的信息繭房。青蛙已經在井外面了,但你随身永遠背着一口井,這個井是你自己随身帶着的,你擺脫不了。
周鴻祎: 如果 Sora 這種東西學習得足夠多,全世界的電影都看過,把《Matrix》片段和《諜中諜》的片段拼合起來它都能給你造出來。所以," 未來已來 "。
但現在還有一個問題,詐騙視頻,過去詐騙視頻叫 Deepfake 深度僞造,過了幾年他們換了一個高大上的名字叫 AIGC。今天 AIGC 做詐騙還隻是換臉換身,以後完全不用換臉。所以一定要有相應的監管措施。
作爲全國政協委員,我今年準備了個提案,我覺得這種視頻産生要加明和暗的兩種水印,要明确标識這是 AI 生成的,而且暗的水印是不能去掉的,這需要用技術解決的問題,要不然宅男的白日夢利器沒來先變成緬北詐騙分子的利器。
《中國企業家》: 你之前也講過,Sora 大模型是不是可能對自動駕駛,對具身智能,産生一些影響?
周鴻祎: 真的要做到自動駕駛和具身智能,光腦子裏能夠理解人的知識不夠的,你需要和這個世界從感知變成認知,要能夠和這個世界互動,這塊語言大模型是解決不了互動問題的。
以汽車舉例,比如你開車的時候,前方出現一個紙殼,其實你會做判斷。如果這個紙箱看起來在風吹動下紋絲不動,你就覺得裏面肯定裝了東西,你就不敢撞,會避開;如果風一吹,這個紙殼上下亂飛,還會随風滾一陣子,你就會做什麽判斷?你就會認爲這個東西是空的,你可能就撞過去,就不會并道,因爲旁邊右道有車。
如果隻是通過攝像頭和雷達看到了東西,隻是判斷說前方有障礙物,那你的機器就很難做正确的判斷。我最喜歡的産品經理是周星馳,有一部電影叫《國産零零漆》,它裏面講了非常好的例子,你看起來是一個刮胡刀實際上是個吹風機;看起來是個吹風機實際上是個刮胡刀。
Sora 看起來是個 AIGC 文生視頻的工具,大家注意力都被它吸引了,但實際上 Sora 是個 AGI 第二個突破點,是解決人工智能和這個世界的觀察、交互、認知,建立常識的重要的裏程碑。
在這個基礎上,具身智能、通用機器人和自動駕駛都會得到突破。我認爲,有可能在一年之内,基于 Sora 的技術,OpenAI 又會給我們一個驚喜。
戒掉吹牛的習慣
《中國企業家》: 有網友問,Sora 對中國市場有什麽影響?
周鴻祎: Sora 給了中國的互聯網和人工智能行業一個響亮的提醒,承認差距并不丢人,知道差距在哪兒,我們迎頭趕上。别人起步畢竟比我們更早,有很多從 0 到 1 的原始創新,比如芯片、軟件。即使新能源車今天取得了進展,但你不得不承認,最開始也是先模仿,先追随,在這個過程中再積累,再創新,再超越。這需要一個過程。向人學習沒啥丢人的,華爲的任老闆也經常強調向人學習。
中國 AI 行業要戒掉吹牛的習慣,都說和 OpenAI 差不多了,甚至通過刷榜,把 OpenAI 的 GPT4 都刷到十名開外了。這種自我安慰、自我欺騙是沒有意義的,因爲你會迷惑自己,老覺得自己很了不起,說多了可能自己都信了,反而最後被人在關鍵的地方給落下了。
另外,現在國内也不用太悲觀,有些技術訣竅,我覺得很快地也都會被探索出來,剩下的需要時間。
國内比較值得擔憂的有三點:第一,人才的高度和密度;第二,算力,做 Sora 和下一步更大規模的大模型對算力的要求可能又是一個積累,10 萬塊顯卡是個基本起點;第三,知識的問題,盡管我們很多人覺得中文搜索引擎更懂中文,但是網上的很多語料并不适合用來做直接的訓練,訓練大模型需要的是高純度的知識。
《中國企業家》: 還有網友問,360 的未來是什麽?
周鴻祎: 我們 All in AI,通過一年的時間對大模型的研發,已經完成了 AI 信仰。我們在核心的安全領域已經打造出行業裏最強的安全大模型,會用大模型的人工智能能力賦能安全服務,把能力再提升一個數量級。
當然,中國有個巨大的機會,大模型一方面是做這種千億、萬億參數的超級通用大模型;還有一個方向是把大模型走向垂直化、産業化、行業化的路,做各種企業大模型、場景大模型,把大模型賦能成傳統行業,特别是傳統制造業轉型升級。