近幾日,科技圈裏最熱門的肯定是 OpenAI 新發布的文生視頻模型 Sora。
幾乎在同時,國内也有某些科技公司推出了所謂的國産版 Sora,宣傳文案中也号稱可以通過文字指令生成真實且自然流暢的視頻。但當用戶下載打開,映入眼簾的是付費頁面。可笑的是,所謂國産版 Sora 使用的示範視頻,直接來自 OpenAI 的案例——第一時間割韭菜,可謂無所不用其極。
這種讓人哭笑不得的反差,不禁讓人喟歎:爲什麽我們總是被 AI 先進技術所震撼?
Sora 不單是一個爆炸性技術。早在 2016 年,OpenAI 就曾明确提出,生成式模型是讓計算機理解世界最有潛力的方向,并且引用了物理學家費曼說的話," 我創作不出來的,就是我沒有理解的 "。
8 年後,Sora 不僅能夠根據文字指令創造出既逼真又充滿想象力的場景,還能生成長達 1 分鍾的一鏡到底的視頻,而且,視頻中的人物、背景等都能達到驚人的一緻性,各種鏡頭随意切換。
Sora 顯然是奔着 " 世界模型 " 而去的。OpenAI 發布的 Sora 研究報告也以 " 視頻生成模型成爲世界模拟器 " 爲題。
就在 OpenAI 思考如何讓計算機理解世界、掌握物理規律的同時,我們的業界在做些什麽?
國内的某些科技大佬曾經在讨論中認爲,是否需要讓大模型理解世界并不太重要,能用就行,别人如果做出來了,那就照搬照抄套個殼子,這樣省事,可以少走不少彎路。
所以,你就可以明白,爲什麽 2022 年年底 OpenAI 推出 ChatGPT 之後,突然之間,國内的各個廠商仿佛開了竅似的,冒出了 " 百模大戰 " 甚至 " 千模大戰 "。
這裏面的差距恐怕并不隻是在技術層面,而是存在于思維、眼光,甚至哲學思辨力等形而上的層面上。
這種認知層面上的差距,更讓人擔心。
這讓我想起了另外一個曾經在科技圈熱議的話題:特斯拉爲什麽不用激光雷達?
在一衆對無人駕駛趨之若鹜的汽車廠商中,特斯拉顯得特立獨行,不僅不用激光雷達,CEO 馬斯克甚至公開說,用激光雷達非常愚蠢。
外界對此的解釋往往聚焦在視覺 AI 與激光雷達的技術特點以及成本的差異上。這種解釋确實提供了一種大衆可以理解的視角。但真相是,馬斯克根本不是在造車。甚至可以說,特斯拉最沒有價值的屬性,就是作爲一種交通工具的那部分。
在馬斯克眼中,特斯拉就是一台智能終端,會看、會聽、會思考、會交流。當然,它還附帶了四個輪子,可以帶着你到處遛彎。他想得很明白,視覺技術在未來将擁有着遠比激光雷達多得多的應用場景。
每一輛特斯拉汽車在馬斯克看來其實都是一個視覺數據源,彙集、傳遞、歸納關于這個真實世界的種種數據。無法想象,這麽些年下來,經過全球幾百萬輛特斯拉汽車的不間斷運行,特斯拉所掌握的視覺數據庫有多龐大。在如此龐大的視覺數據投喂之下,或許某一天,特斯拉會突然宣布,特斯拉人工智能網絡将會擁有颠覆性的能力。
我們不知道 OpenAI 或者馬斯克的口袋裏還有哪些好東西,但是我們知道,如果我們沒法在思維和認知層面上有所突破,我們隻會一次又一次地被震撼。
正如當讨論人形機器人的時候,我們在想,它如何成爲工廠的助手和家庭的保姆。馬斯克卻說,讓它幫我們生孩子吧——你不得不承認,這個 " 腦洞 " 的想象力更大。
文|記者 李鋼