元宇宙正在走向現實。
神譯局是 36 氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:最近一個月爆出了三個科技熱點,繼 ChatGPT 之後 OpenAI 推出的文生視頻模型 Sora 再次令世人震驚;同月,蘋果推出的虛拟現實頭顯 Vision Pro 也一度成爲炒作的焦點;而近日,Groq 推出的定制 GPU 以超高的性能讓人工智能的響應速度從秒級變成毫秒級。這些突破的出現讓人浮想聯翩:元宇宙的 iPhone 時刻會不會到來呢?一位知名科技博主進行了分析,文章來自編譯。
本月早些時候,Matthew Ball 寫了一篇很有趣的文章,文章的題目叫做《空間計算、元宇宙、遺留的術語及複活的想法》。裏面跟蹤了用來描述本文主題的各種術語:呃,比如虛拟現實(VR)、增強現實(AR)、混合現實(MR)、元宇宙(Metaverse)什麽的,其實這些說法在科幻小說與産品當中已經流傳了幾十年,然後用來描述蘋果所謂的空間計算。
就我個人而言,我同意 Ball 的看法," 元宇宙 " 是裏面最好的一個,尤其是考慮到 Ball 在結論環節給這個概念做出的描述之簡潔:
我喜歡 " 元宇宙 " 這個詞,因爲它的機制跟互聯網類似,但面向的是 3D。元宇宙跟設備甚至整個計算都無關,這種無關就好比互聯網與 PC 或客戶端 - 服務器模式無關一樣。 元宇宙是一個龐大且互聯的,實時的 3D 體驗網絡。要想進入或實現光學 MR 的規模化,我們需要一個 "3D 互聯網 " ——這意味着需要對網絡基礎設施以及協議進行徹底改變、需要計算基礎設施取得進步等等。這也許是這個詞的終極挑戰——它描述的更多是一種最終狀态,而不是什麽中間過渡。
挑戰也許,或者說恰恰是這個詞是合适的原因所在:元宇宙與 "3D 互聯網 " 的關聯程度與它跟互聯網的完全可互操作及依附程度是一緻的。而且,這是一條已經走濫了的道路。兩年前,我在那篇《DALL-E、元宇宙與零邊際内容》中寫道:
長期以來,遊戲一直處在技術發展的前沿,就媒體而言,情況當然是這樣的。最早的電腦遊戲隻不過是文字罷了:
《俄勒岡之路》遊戲截圖
緊随其後的是圖像遊戲,一般是位圖類型的;我記得在圖書館玩過很多次《神偷卡門》(Where in the world is Carmen San Diego)這款遊戲:
《神偷卡門》遊戲截圖
很快,遊戲就開始引入動作,你可以在 2D 世界裏面給精靈指路; 緊接着 3D 也出現了,在過去 25 年大部分的時間裏,我們一直在緻力于讓 3D 遊戲變得更加逼真。然而,幾乎所有這些遊戲都是 2D 屏幕上投射的 3D 圖像。虛拟現實提供了我們置身于遊戲之中的錯覺。
社交媒體的發展遵循了類似的路徑:先是文本,然後是圖像,再到視頻,而且有朝一日,會到 3D 空間裏面分享體驗(比方說收看 NBA 扣籃大賽);我指出生成式人工智能的也會遵循這條發展路徑:
DALL-E 的迷人之處在于它指向了一個可以将這三種趨勢結合起來的未來。歸根結底,DALL-E 最終是人類生成内容的産物,就像它的表親 GPT-3 一樣。當然了,後者是做文本生成,而 DALL-E 是圖像生成的。但請注意,這是從文本邁進到了圖像;接下來就會有機器學習生成的視頻。當然,這可能需要幾年的時間;視頻這個問題會更加困難,而響應式的 3D 環境則是難上加難,但這就是這個行業以前走過的道路:
爲了證明人工智能發展速度究竟有多快," 若幹年 " 已經是悲觀得令人難以置信:在那篇文章發布的幾個月之後,Stable Diffusion 就被用到視頻生成上了,現在, OpenAI 又推出了 Sora。來自 OpenAI 網站:
Sora 能夠生成具有多個角色、特定類型的運動以及主體和背景的、細節準确的複雜場景,該模型不僅了解用戶在提示中提出的要求,還了解這些東西在物理世界中的 " 存在方式 "。該模型對語言有着深入理解,從而能夠準确地解釋提示,并生成引人注目的角色來表達充滿活力的情感。 Sora 還可以在一個生成視頻裏面創建多鏡頭,且能準确地維系角色與視覺風格的一緻。
當前的模型仍存在缺陷。比如它可能難以準确模拟複雜場景的物理原理,并且可能無法理解因果關系,比如,一個人咬了一口餅幹,但之後視頻裏的餅幹卻沒有咬痕。它還可能會混淆空間細節,比如會左右分不清楚,并且可能難以精确描述随着時間推移發生的事件,比如遵循特定的相機軌迹 ……
對于能夠理解和模拟現實世界的模型來說,Sora 是基礎,我們相信這個功能會成爲實現通用人工智能(AGI)的重要裏程碑。
摘錄文字的最後兩段讓人緊張,而且也一直是 X 上面争論激烈的主題:隻通過預測像素就能構建出物理現實,未來 Sora 會湧現出這樣的模型嗎?或者說 Sora 會是這樣一個未來的迹象嗎?
Sora 與虛拟現實
Sora 的岩石視頻當中有一個更加令人難忘,提示詞是 " 兩艘海盜船在一杯咖啡中航行時互搏的逼真特寫視頻 "( Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.)。
說實話,效果相當令人震驚,尤其是其對水和光的複現:一直到了過去這幾年,電子遊戲才通過光線追蹤技術實現了類似的效果,即便如此,我認爲 Sora 在效果上已經擊敗了那些遊戲了。不過,如果你再看第二遍或者第三遍就會發現視頻存在明顯缺陷;隻需盯住右邊那艘船上飄揚的紅旗,注意觀察船是怎麽調轉方向即可:
OpenAI 的視頻演示
Sora 是一個構建在 Transformer 基礎之上的模型,這意味着它可以通過計算來實現質量的擴展;來自 OpenAI 關于 Sora 的技術報告:
Sora 是一種 diffusion 模型。輸入特定噪音圖塊(patch,以及類似文本提示這樣的條件信息)之後,它被訓練用來預測原始的 " 幹淨 " 圖塊。很重要的一點,Sora 是一種 diffusion transformer。transformer 在包括語言建模,計算機視覺,以及圖像生成等多個領域上均展現出顯著的擴展特性。
Sora 的 diffuser transformer 模型
在這項工作中,我們發現 diffusion transformer 作爲視頻模型同樣能有效地實現擴展。下面,我們對比了帶固定種子的樣例視頻以及訓練過程中以前者作爲輸入生成的視頻。随着訓練計算量的增加,樣本質量有了顯著提高。
展示訓練計算是如何改進 Sora 的
這說明咖啡杯裏面那艘船上的旗幟可能就是固定的;但是,我懷疑最終的像素預測最終能否用來替代我上周跟 Rescale 首席執行官 Joris Poort 讨論的那種高性能計算的物理建模呢?我對此表示懷疑。不妨注意一下關于飛機機翼建模的那段讨論:
我們就舉個簡單的例子吧,比如說流體流動。其實飛機機翼是可以分成許多個小盒子的,或者說任何類型的空氣或液體都是可以放入任何一個小盒子的,然後你就可以單獨去了解該小盒子(我們通常将其稱爲網格 mesh)内的科學和物理原理,這樣就很好理解了。但是,如果你觀察某些更複雜的概念,比如湍流,坐飛機的時候我們都經曆過湍流,湍流不是那種流暢的流動,它是不連續的,所以實際上你必須用時間切分來處理。你得觀察每一個小的時間步長,對所有這些物理原理進行重新計算,好讓每個單獨的單元格、網格都可以進行并行計算。
這些物理模拟的目的是盡可能地接近現實;如果我對于基于 Transformer 的架構能否進行這種模拟表示懷疑的話,那麽我對其 " 理解和模拟現實世界 " 的能力也應該表示懷疑;不過,這就是我要回到 Ball 那篇文章的原因:我們正在開發一種配得上 " 虛拟現實 " 這個詞的産品。
Groq
《DALL-E、元宇宙與零邊際内容》那篇文章的要點在于,生成式人工智能是讓元宇宙成爲現實的關鍵因素:
從長遠來看,這指向的是這樣一個元宇宙願景,它的确定性要比典型的視頻遊戲低得多,但在生成内容的豐富性方面又比社交媒體豐富得多。想象一下,一個不是由藝術家繪制,而是由人工智能創造出來的環境:這不僅增加了可能性,而且至關重要的是,降低了成本。
我們并不清楚 Sora 的成本如何,但成本高昂幾乎是可以肯定的;随着時間的推移,成本會逐步下降,計算領域一直以來都是這種情況。同樣必要的是渲染速度要快得多:速度是當今與大型語言模型交互的挑戰之一:是,準确性可能會随着計算和模型規模的擴充而增加,但這隻會增加獲得一個回答時遭遇的延遲量(比方說,可以對比一下用 GPT-3.5 Turbo 和用 GPT-4 進行推理的速度)。這裏的答案也可能隻是受摩爾定律支配,或者也許要用一種不同的架構。
于是就有了 Groq。
Groq 是由 Jonathan Ross 在 2016 年創立的。Jonathan Ross 做出了谷歌的第一塊張量處理單元(TPU);Ross 的觀點是,芯片應該向軟件定義網絡汲取靈感:軟件定義網絡用帶有軟件層的商用硬件來處理路由的複雜性,而不是用專門處理路由數據的專用硬件。事實上, Groq 解釋自家技術的那篇論文的标題叫做 " 用于大規模機器學習的軟件定義張量流式多處理器 "(A Software-defined Tensor Streaming Multiprocessor for Large-scale Machine Learning)。
爲此, Groq 先從編譯器做起,編譯器軟件會将代碼翻譯成芯片可以理解的機器語言;其目标是能夠将機器學習算法簡化成一種可以在極其簡單的處理器上執行的格式,這些處理器可以用非常高的速度運行,但又不會出現代價高昂的内存調用和預測錯誤(這正是現代處理器相對較慢的原因)。
最後的結果是 Groq 的芯片具備了純粹的确定性:Groq 用的不是現代 GPU 使用的那種高帶寬内存 ( HBM ) 或計算機所使用的動态随機存取内存 ( DRAM ) ,那兩種芯片都需要定期刷新才能運行(這會引入延遲,特定時刻數據位置會有不确定性),而是用 SRAM — 靜态随機存取存儲器。 SRAM 把數據存儲在所謂的雙穩态鎖存電路中;跟支撐 DRAM(以及更大範圍的 HBM)的晶體管 / 電容器架構不同,SRAM 會以穩定狀态來存儲數據,這意味着 Groq 始終能準确地知道每個數據在任何特定時刻放在哪裏。這樣一來,在理想情況下 Groq 編譯器就能夠預先定義每一次内存調用,從而用相對簡單的架構實現極快速的計算。
事實證明,在基于 Transformer 的模型上進行推理是一種極其理想的情況,因爲計算本身具有極高的确定性。像 GPT-4 這樣的大語言模型(LLM)通過一系列具有預定操作集的神經網絡層來處理文本,這非常适合 Groq 的編譯器進行處理。同時,基于标記(token)的生成屬于純粹的串行操作:生成的每個标記都依賴于對前一個令牌的了解;任何特定答案的并行度都是零,這意味着用來進行标記計算的速度絕對是物超所值的。
而且結果也很顯著:
用定制 GPU 進行大模型推理,響應速度變成毫秒級而不是秒級
這種加速實在是太顯著了,以至于與大語言模型的互動體驗都發生了巨大變化;這還可以讓你有可能與大語言模型進行實時的交流,甚至可以跨越半個地球,在電視上做直播:
關于爲什麽 OpenAI 首席執行官山姆 · 阿爾特曼(Sam Altman)要做硬件的可能性,我提出的其中一個觀點是,人工智能越接近人類,與所述人工智能進行交互遭遇的那些小小不便就會愈發令人煩惱并最終受到限制。你得坐在辦公桌前用電腦才能交互會變成麻煩,甚至伸進兜裏掏出智能手機都會變成麻煩:這樣給你的感覺是始終都在跟設備進行明确的交互。在類似人類的人工智能環境下必須打開 app 或等待文本輸出要痛苦得多:這會以一種更深刻、最終令人失望的方式打破幻想。但現在 Groq 描繪了一條讓我們維持幻想的路徑。
搭建在 Groq 之上的 Sora
令人驚訝的是, Groq 是一個執行确定性軟件的确定性系統,但最終産生的卻是概率性的輸出。我在《ChatGPT 有了一台計算機》裏面解釋了确定性計算與概率性計算的差異:
計算機是确定性的:如果電路 X 是開路的話,則 X 所代表的命題爲真; 1 加 1 永遠等于 2;單擊浏覽器上的 " 後退 " 将退出此頁面。當然,從單個晶體管到我們可能對計算機采取的任何操作,這中間存在大量抽象和大量邏輯——實際上可能會出現 bug 的地方其數量近乎無限——但計算機有一個得當的心智模式,那就是它們完全會按照編程指令執行操作(事實上,計算機出現的錯誤不是計算機犯了錯,而是程序員告訴計算機做了錯誤的事情)。
我已經提到了 Bing Chat 與 ChatGPT; 3 月 14 日,Anthropic 發布了另一個叫做 Claude 的 AI 助手:雖然公告當中沒有明确說明,但我想這個名字是爲了紀念前面提到的香農(Claude Shannon)。
這當然是一種高尚的情感表達——香農對信息論的貢獻遠遠超出了 Dixon 上面所列的範圍——但卻讓人感覺是表錯了情:雖然從技術上來講,人工智能助手所做的一切最終都是由 1 和 0 組成的,但它們的操作方式卻是從訓練中湧現出來的,而非源自固定規則,這導緻它的體驗感覺與邏輯計算機有着根本的不同,那種體驗感覺更接近人類,這又把我們帶回到幻覺上 ; Sydney 是很有趣,但如果它面對的是家庭作業呢?
《ChatGPT 有了一台計算機》背後的想法是,大語言模型的運作方式似乎與人腦有點相似,人腦之神奇令人難以置信,但人腦也不夠精确,就像我們需要計算機來進行精确計算一樣,ChatGPT 也是如此。不過,普通計算機其實跟 Groq 正好相反:由于現代處理器和内存的設計使然,其實普通計算機的概率學比你想象的要高的,但它執行的軟件假設處理器會處理沒完沒了的内存調用以及分支預測,最終反而能給你一個确定性的結果。
但最終,我們又回到了原先開始的地方:計算機會知道船頭和船尾在船的什麽位置,而像 Sora 這樣基于 transformer 的模型則做出了錯誤的猜測。前者計算的是物理現實;後者計算的是虛拟現實。
不過,想象一下,如果讓 Sora 在 Groq 上面跑的話(這絕對是可行的):我們可以實時生成視頻嗎?即便不能實時生成視頻,我們也肯定比你想象的要接近得多。你可能會問,那去什麽地方觀看這些視頻呢?在 Apple Vision Pro 或 Meta Quest 等頭戴式顯示器上面觀察如何?用虛拟現實(我的新定義)服務虛拟現實(舊定義)。
即将到來的虛拟現實時刻
iPhone 的誕生并不是憑空而來的。 蘋果需要學習如何制造 iPod 等低功耗設備;閃存需要價格跌到用戶可承受才變得可行;三星需要制造出足夠好的處理器; 3G 網絡需要推出; iTunes 音樂商店需要爲應用商店奠定基礎; Unity 需要擔負起一個錯誤的使命,也就是爲 Mac 開發遊戲引擎。不過,這一切在 2007 年都實現了,于是移動時代爆發了。
三年前, Facebook 更名爲 Meta,标志着元宇宙時代的開始,但他們很快就變成了大家的笑料;這家公司似乎太快地推進了太多的技術。不過,蘋果也許遇到了更好的時機:值得注意的是,Vision Pro 與 Sora 都是在同一個月推出的,就像 Groq 開始表明實時推理比我們想象的也許更容易實現。與此同時,台積電正在向 2 納米 制程邁進,而英特爾也正在嘗試加入他們的行列,而由于大語言模型的普遍存在,對高性能芯片的需求正在猛增。
鄭重聲明一句,在虛拟現實方面我不認爲我們正邁入 iPhone 時代,我的意思是一款完美産品正面臨多種技術創新交叉出現的時刻。不過,令人興奮的是,與三年前不同,這塊拼圖的很多碎片已在眼前。 Sora 可能還不夠好,但會變得更好; Groq 可能不夠便宜或不夠快,但它以及任何出現的其他競争對手都将在這兩個方面取得進展。按照我的估計,Meta 和蘋果本身還沒有完全把硬件搞定。不過,從各個方面來看,你已經能看到一條從起點走到目的地的道路。
當然,最重要的區别是手機在 iPhone 之前就已存在:賣更好的手機很容易。一個我們現在才能夠回答的大問題是:對于相當多的人來說,虛拟現實會不會變成更好的現實呢?
譯者:boxi。