陳永偉 / 文
當地時間 2 月 15 日,美國科技公司 OpenAI、Meta 和谷歌不約而同地選擇在這一天發布了自己的新模型(OpenAI 的 Sora、Meta 的 V-JEPA、谷歌的 GeminiPro1.5),這讓本已高度 " 内卷 " 的 AI 市場的競争達到了白熱化的程度。
三款模型中,Sora 可以根據文本生成遠比過去同類産品驚豔的視頻;V-JEPA 雖然在視頻生成上的表現略遜于 Sora,但卻号稱應用了非生成式的世界模型;而 GeminiPro1.5 作爲一個多模态模型,其支持的上下文竟達到了驚人的 1000 萬 token(計算機運行中,文本處理的最小單位)。在如此集中的時間,AI 技術竟然在三個不同的方向上取得了如此巨大的突破,實在令人驚歎。
在驚歎之餘,一些老生常談的問題又再次出現在了各大媒體。比如:這一場 AI 大戰的終局會是如何?AI 能力的突飛猛進,是否意味着 " 通用人工智能 "(Artificial General Inteligence,簡稱 A-GI)已經近在咫尺?在 AGI 到來之後,人類的命運又會走向何方?
這些問題十分重要,但是,如果我們對這些問題的讨論僅僅隻是基于科幻式的想象,那麽讨論本身也就會最終淪爲空談。相比之下,一種更爲科學的讨論方式或許是:在思考這些新模型會帶來什麽影響之前,先從技術的角度弄清楚,這些模型究竟意味着什麽。下面,我們就從這個理念出發,開始我們的探究之旅。
天空背後的秘密
盡管 Sora、V-JEPA 和 GeminiPro1.5 都十分亮眼,但從原創性角度看,前兩款模型的重要性似乎是更爲突出的,因爲它們幾乎可以被視爲是通向 AGI 的兩種主要思路——生成模型和世界模型的最主要代表。GeminiPro1.5 雖然也非常出色,但它本質上是其前作 GeminiPro 的升級,其突破性要稍遜一些。因此,如果要讨論新模型的影響,我們不妨将重點放在 Sora 和 V-JEPA 上。
那麽,讓我們先從外界關注度最高的 Sora 開始吧。從 OpenAI 公布的視頻上看,這款以日文 " 天空 "(空,そら)命名的模型表現确實非常突出:過去,文生視頻模型通常隻能生成幾秒的視頻,而 Sora 生成的視頻則長達一分鍾。不僅如此,它還可以在一定程度上呈現出因果關系和物理規律。比如,在一個視頻中,畫師下筆之後,紙上就出現了朵朵桃花;在另一個視頻中,随着食客的一口咬下,原先完整的漢堡就缺了一角。對于類似的這些物體互相作用後改變形狀的現象,過去的文生視頻模型很難生成,而 Sora 卻很好地實現了這一點。
出于維護其商業秘密的考慮,Ope-nAI 在發布 ChatGPT 之後,就不再公布其産品的相關論文,這讓完全破解 Sora 的秘密幾乎成了不可能。好在 OpenAI 爲 Sora 附上了一份簡要的技術報告,對于了解技術概況,這份報告其實已經足夠了。
按照報告,Sora 在原理上可以被概括爲 " 擴散模型 +Transformer 架構 " 的應用。
(1)擴散模型
說到擴散模型,相信很多人對這個詞并不陌生。雖然這個模型的詳細原理必須用數學公式才能說明,但簡單來說,它可以被理解爲一個降噪生成的過程。
喜歡看電視的讀者想必都會有這樣的經驗:當電視信号遇到幹擾時,原本的電視畫面上就會出現一層不規則的雪花點。幹擾信号越強,雪花點就越濃密。當幹擾強到一定的程度,屏幕上就會隻剩下雪花點。用數學的語言講,這種在原本的圖像上加入雪花點的過程就是 " 加噪 "。
一開始,這種滿是雪花點的畫面會讓人非常不适應。但隻要看得多了,幹擾的影響就會越來越小。即使電視屏幕上遍布雪花,人們也可以通過像素的運動,配合畫外的聲音,自動 " 腦補 " 出一幅幅清晰的畫面。這樣,他們的腦中就完成了一個 " 降噪 " 的過程。
爲什麽人腦可以開發出這樣的 " 腦補 " 功能呢?歸根到底,這還是一個訓練的過程。當信号幹擾不嚴重的時候,圖形上的雪花并不多,這時人們可以很容易地結合先前的觀看經驗,聯想出清晰的畫面是什麽樣的。當人們對輕微幹擾習以爲常後,就可以進一步去适應更爲嚴重的幹擾——在腦中,他們可以先把被重度幹擾的畫面還原爲輕度幹擾,再将其還原爲清晰畫面。這樣,隻要觀看經驗足夠,人們就可以在腦中訓練出自動還原雪花點的功能。需要指出的是,在還原的過程中,額外信息的提示很重要。比如,面對一團模糊的雪花點,如果配上《敢問路在何方》,人們就很容易 " 腦補 " 出唐僧師徒四人跋山涉水的圖像;而如果配上鋼琴曲《TomandJer-ry》,他們 " 腦補 " 出的就可能是貓在追逐老鼠的場景。
上面這種從雪花點中 " 腦補 " 出圖像的做法,我們也可以用 AI 來實現。具體來說,人們可以将大批的圖片 " 投喂 " 給 AI 模型,然後再将這些圖片 " 加噪 "。機器通過将加噪前後的圖片進行對比,就可以訓練出從帶噪的圖片中還原出清晰圖片的功能。當然,AI 不可能完美複現出原圖,隻能根據它從樣本中學習到的經驗來盡可能對幹擾進行修補。這時,它就已經在一定程度上具有了創作的能力。人們可以在此基礎上不斷加入更多的幹擾,讓模型從幹擾中還原出圖像的能力變得越來越強。最終,他們就可以得到一個能在完全由無規則雪花圖上還原出圖像的模型。由于還原的起點是徹底随機的,所以所謂的 " 還原 " 就變成了一種徹底的創作。要讓 AI 明确應該往什麽方向還原,就需要告訴它一定的提示詞(prompt)。其道理就好像我們要從遍布雪花點的電視中 " 腦補 " 圖像,需要有畫外音的幫助一樣。
上述這個降噪還原的過程,就是擴散模型的基本原理。随着生成式 AI 的火爆,它已經得到了十分廣泛的應用。像 MidJourney、StableDiffusion 等文生圖模型,Runway、Pika 等文生視頻模型,本質上都是擴散模型的應用。
在 Sora 之前,雖然已經有了不少基于擴散模型的文生視頻的模型,但這些模型生成的視頻時間都很短,呈現角度也比較單一。之所以會出現這樣的問題,很大程度上是由于其訓練數據導緻的。受算力等因素的限制,目前用來訓練文生視頻的數據主要是一些時長較短的視頻,這就導緻了由此訓練出的模型隻能根據這些短小的視頻來進行外推,其 " 腦補 " 能力也就受到了很大的限制。如果要生成長視頻,就需要額外采用計算量巨大且速度緩慢的滑動窗口方法,從經濟角度看,這是得不償失的。
那麽,Sora 又是如何克服這些困難的呢?其奧秘就在于它很好地将 Transformer 和擴散模型結合了起來。
(2)Transformer 架構
得益于 GPT 模型的火爆,作爲其基礎架構的 Transformer 的大名也早已被人們熟知。對于語言模型而言,Transformer 是具有革命性的。過去,語言模型一直面臨着一個很大的困難,即所謂的 " 長期記憶難題 "。我們知道,一句話究竟是什麽意思很大程度上取決于其上下文。比如,當某人說 " 我想買 512G 的蘋果 " 時,他究竟是想要買一個内存爲 512G 的蘋果手機,還是想買 512 克的蘋果,就需要看這句話出現在什麽語境之中。因而,至少在理論上,要理解一句話是什麽意思,就需要對其所在的整個文本進行解讀。對于計算機來說,這是非常麻煩的。因爲這意味着在處理文本時,隻能用一種串行的方式來逐字進行解讀,而難以采用并行的處理辦法,處理的效率會被鎖死在一定的水平。
如何才能打破這個瓶頸呢?一個思路是将句子拆分成一個個的詞,分别識别出它們的含義。在完成了這些工作後,再将各詞的意思整合起來,就可以得到這個句子的意思。但是,怎樣才能保證對詞的含義識别精準呢?那就要看一下它的相對位置。一般來說,距離一個詞很近的幾個詞對其含義的影響是最大的。比如,如果在 " 蘋果 " 這個詞的附近,出現了 " 手機 "、" 芯片 " 等詞,那麽它多半就是指手機;而如果在它的附近,出現了 " 果汁 "、" 榨汁機 " 等詞,那麽它指的就多半是水果。對于一個特定的詞,臨近詞對它的影響大小是不一的。比如,其前一個詞對其含義的影響權重爲 0.5,其後一個詞對其含義的影響爲 0.3。在 AI 中,這個權重就叫做 " 注意力 "(attention)。通過對大樣本數據的學習,AI 模型可以對每一個詞都給出一個完整的 " 注意力 " 表格。這樣,當它再面對一個詞的時候,就可以根據其在語段中與其他詞的相對位置很快地識别出其最可能的含義,而不用在讀完整個文本後再得出某個詞的含義。通過這樣的處理,AI 模型就可以實現對語言模型的并行處理,從而讓其處理效率得到大規模的提升。所謂的 Transformer 模型,就是基于以上注意力機制設計的機器學習架構。
(3)Sora 是怎樣工作的
雖然文生視頻并不同于語言處理,但它們兩者也有很多相似之處。在某種意義上,人們過去采用的文生視頻技術有一點兒類似早期的語言處理,大緻上是從一個畫面出發,逐步根據初始的圖去擴展後續的畫面。很顯然,這樣的效率是相當有限的。怎麽才能對其進行改進呢?一個現成的思路就是仿照 Transformer 的思路,将提示詞的文本拆分,從每個詞中去識别出相關的信息,并根據這些信息去标識出視頻需要的空間和時間信息,即視頻需要在什麽時候出現什麽樣的圖像。基于這些信息,再調用擴散模型來生成所需要的畫面。在 Sora 當中,采用的就是這個思路。
具體來說,Sora 在訓練過程中會先用視頻壓縮技術将大量的視頻材料進行壓縮。經過這一步操作,龐大的視頻資料就被還原成了一堆矩陣的特征值。盡管它們看起來雜亂無章,但其中卻包含了關于視頻變化的最重要信息。通過機器學習,模型可以将這些特征值與标識視頻的文字建立起聯系。這樣一來,當它再看到某一個詞的時候,就會猜出這個詞意味着應該在哪個時間點出現怎樣的畫面。在 Sora 的技術文檔中,這種标識時空信息的快照被稱爲 " 時空補丁 "(Spacetimepatches)。在根據文字生成視頻的過程中,Sora 并不和早期的文生視頻模型那樣直接生成視頻,而是先根據提示詞翻譯成一系列關于時空的信息。比如," 玫瑰逐步綻放 " 就可能被其解讀爲 " 在視頻第一幀,出現一朵玫瑰;在下一幀,這朵玫瑰的花瓣長大了一些…… " 當然,這些信息都是由 " 時空補丁 " 來表現的。當有了這一系列的 " 時空補丁 " 後,就相當于爲有待生成的視頻搭起了框架。随後,再利用擴散模型,就可以在這些時空補丁的提示之下完成每一幀的圖像。而這些圖像加總在一起,就構成了完整的視頻。
當然,爲了保證生成視頻的質量,Sora 還在訓練時對模型進行了很多的限制。比如,爲了保證視頻不違背物理規律,它專門植入了相關的知識圖譜。但大緻上,我們可以将 Sora 理解爲擴散模型和 Transformer 結合的産物。
(4)或許算力才是重要的
通過以上介紹,我們可以看到,至少在原理上,Sora 并不複雜。由于我之前對生成式 AI 下過一些功夫,所以在閱讀它的技術報告時,也基本沒有遇到什麽困難。
不過,在讀這份報告的過程中,我卻總感覺報告中闡述的技術原理和之前讀過的某篇論文十分相似。很快,我就在報告的參考文獻中找到了這篇文章,就是 OpenAI 團隊在去年 3 月發表的《基于 Transformer 的可擴展擴散模型》(ScalableDiffusionModelswithTransformers)。有很多網友也在第一時間發現了這一點,爲此,一些人還将這篇論文的作者之一——謝賽甯,誤認爲了 Sora 的主要開發者之一,最後鬧得謝賽甯本人不得不親自出來辟謠。
在這篇論文中,早已提出了用 Transformer 架構來運行擴散模型的思路,即所謂的 DiT。從原理上看,這幾乎和 Sora 技術報告中公布的信息如出一轍。然而,從這篇論文給出的案例看,當時用 DiT 生成視頻的效率和質量都完全無法和今天的 Sora 相比。那麽,問題出在哪兒呢?憑借我個人的知識,實在是百思不得其解。直到幾天之後,我在微信上看到了著名 AI 科學家李沐的一段評論,才恍然大悟。
李沐認爲,Sora 和一年前的 DiT 的關系,可能就好像 GPT-3 和 GPT-2 的關系。從模型的角度看,GPT-3 和 GPT-2 并沒有本質的差别,但不同的是,GPT-3 的參數量要比 GPT-2 大得多,并且在訓練 GPT-3 的時候,投入的算力也要比訓練 GPT-2 時高出百倍。所謂 " 大力出奇迹 ",很多研究已經表明,似乎正是在這種海量算力的投入導緻了 " 湧現 " 現象的發生,讓模型的性能出現了質的變化。有消息透露,Sora 在訓練時投入的算力也比之前訓練幾個 DiT 模型時高出了幾百倍。如果這個消息屬實,那麽我們就可以猜想,此次 Sora 表現出的卓越性能其實也是湧現的後果——或許,這就是隐藏在天空背後的秘密。
生成模型還是世界模型?
(1)Sora 真的懂它在幹什麽嗎?
在對 Sora 模型進行了深入分析之後,我們可以得出結論:雖然 Sora 的性能确實比之前的模型有了巨大飛躍,但是,這種飛躍并非源自于原理上的變革,而是由巨大算力堆出來的另一個工程奇迹。
事實上,在最初的一輪熱潮退去之後,不少更爲中立的分析都表明,先前人們對 Sora 的革命性評價似乎有些過于高估了。比如,雖然根據 Sora 發布的畫面,它已經擁有了一定的因果識别能力,但這種表現似乎更像是來自開發者對其事先設定的知識圖譜,而并非來自模型自身能力的改進。正是因爲這個道理,所以不少用 Sora 生成的畫面還會出現很多不合邏輯之處。比如,在一個老婦人吹生日蠟燭的視頻中,面對吹過的氣流,蠟燭上的火焰竟絲毫沒有受到影響;而在另外一個投籃的視頻中,籃球竟在穿過籃筐之後發生了爆炸。很顯然,這些情況在現實中是不可能發生的。這隻能說明 Sora 模型本身還并沒有能力自行判斷出這些簡單的道理。隻要人們沒有人爲地植入知識圖譜來進行引導,它就可能犯錯誤。如果這些判斷是正确的,那麽 Sora 模型所代表的技術路徑可能就不那麽樂觀。因爲在現實中,經驗的規則是無窮無盡的,人們幾乎不可能有能力将所有的規則都設定到模型當中。
相比于中立的評論,以圖靈獎得主、Meta 首席人工智能專家楊立昆(YannLeCun)爲代表的一些專家對 Sora 的批評則更爲激烈。在 Sora 發布之後,他就在社交媒體上對其進行了痛批,并斷言 Sora 代表的技術路徑必定失敗。在圈外人士看來,楊立昆的這個批判完全是無理取鬧,甚至多少有點兒有辱斯文。然而,圈内人對楊立昆的這個态度早已是見怪不怪了。從 ChatGPT 橫空出世開始,他就在多個場合表示 GPT 模型,甚至更廣義上的生成模型都不會是通向 AGI 的正确道路,最終注定不能成功。
(2)世界模型
那麽,楊立昆眼中的 AGI 會通過怎樣的技術路徑實現呢?他給出的答案是 " 世界模型 "(WorldModels)。
所謂 " 世界模型 ",通俗地說,就是一種讓機器能夠像人類一樣對真實世界有全面而準确的認知的模型。這個概念最早來自于德國的人工智能專家于爾根 · 施密德胡伯(J ü rgenSchmidhu-ber)。
在闡述 " 世界模型 " 的開創性論文中,他用了一副漫畫來對這類模型的基本理念進行刻畫。在漫畫中,一個人正在騎車,而在他的腦海中,也在想象着一個騎車的人。事實上,這就是人們在日常生活中的行動方式。正所謂 " 意動形随 ",我們在做出某個動作(不包括下意識的動作)之前,都會先在腦海中對這個動作進行模拟,然後再根據模拟的後果來行動。顯然,要實現這一切,人們就必須對其所處的世界有相當的了解。類比到 AI 的語境中,這就要求在 AI 智能體中嵌入關于外部世界的内部模型,并以此來驅動其行爲。
世界模型有何優勢呢?
第一,從理論層面看,它才是可以真正做到理解事物的模型。盡管現在的很多大模型在功能上已經非常強大,可以在很大程度上模拟世界的運作,但從其運作機制上看,它們并不能真正地 " 懂 " 這個世界。雖然它們可以順暢地和用戶進行交互,并根據用戶的要求完成各種任務,但它們所生成的内容本質上是基于和問題之間的概率關聯産出的。例如,當你向 ChatGPT 說 " 你好 " 時,它會禮貌地回敬你一句 " 你好 ",這讓它看起來就像一個有禮貌的老夥計。但從底層程序看,它其實并不懂這個回應的含義,隻是由于它從先前學習的數據中發現,人們在被人問好時會大概率選擇以 " 你好 " 作爲回應。在很多 AI 研究者看來,想要真正達到 AGI,既需要 " 知其然 ",更需要 " 知其所以然 "。
第二,與生成模型相比,世界模型可以用更小的成本進行訓練。我們知道,模型的訓練是需要耗費大量的資源的,尤其是在訓練 AI 去完成各種任務時,就需要讓它不斷重複完成這個任務。比如,要訓練一個文生圖模型,就需要讓它不斷地生成圖片,再對這些圖片的毛病進行糾錯;要訓練一個能自動打遊戲的 AI,就需要讓它不斷地打遊戲,然後根據每場的得分狀況進行複盤。但是,這樣的訓練都是必須的嗎?對比一下人類的學習,就會發現情況可能并不是這樣。以學習寫作爲例,我們當然需要寫作一定量的文本,但在我們已經窺得一定的寫作門徑之後,在多數時候就未必把文章真的寫出來,而隻需要在腦中對文字不斷地進行打磨。所謂的 " 打腹稿 ",就是這個意思。容易看到,這種學習方式是要比不斷寫成文字要更爲經濟和高效的。
在世界模型的倡導者中,類似的過程被冠之以一個更爲通俗的名字—— " 做夢 "(dreaming)。當一個世界模型通過對樣本數據的學習,總結出了一定的規律性知識後,它就可以抛開樣本,通過 " 做夢 " 的方式來進行學習,從而讓模型的效率得到提升。舉例來說,施密德胡伯就在其論文中訓練過一個會打《毀滅戰士》(Doom)遊戲的 AI 智能體。他首先對這個智能體輸入了遊戲的相關規則,并讓其通過遊戲訓練建立了一定的遊戲經驗。這樣,他就讓這個智能體初步建立了關于遊戲世界的認識。然後,他讓智能體基于這些知識,通過 " 做夢 " 的方式進行訓練。最終的測試結果表明,這确實可以讓智能體獲得不錯的遊戲表現。更爲重要的是,其訓練成本和訓練時間都要比讓智能體不斷打遊戲低得多。
第三,相比于生成模型,世界模型更易于調試,也可以做更好的外推。爲了理解這一點,我們可以考慮一個例子,相信大家小時候畫過畫,比如,我小時候就特别喜歡畫各種昆蟲。然而,當我把畫的蟲子拿給大人看時,大人們經常會指出,我畫的蟲子的腿的數目不對——昆蟲的腿有六條,但我有時會畫成八條,有時會畫成十條。在多次被大人指出這個錯誤後,我通過對昆蟲進行了大量的觀察,才終于悟出了原來昆蟲的腿應該是六條,後來再畫時,就再也沒有畫錯昆蟲的腿數。現在回想起來,我這個觀察昆蟲、自己總結規律,然後将它們畫出來的過程,其實就類似于現在生成式 AI 的運作過程。雖然這也可以讓我最終總結出正确的規律," 生成 " 出正确的内容,但這個過程是非常漫長和低效的。并且,這種基于經驗和概率的知識非常容易出錯。比如我在領悟出昆蟲應該有六條腿這個道理後,就曾把蜘蛛畫成六條腿。因爲在我看來,蜘蛛和昆蟲太像了,既然原來的昆蟲都是六條腿,那麽它也應該是六條腿。到後來上了學,學了生物的分類知識,才知道蜘蛛和昆蟲并不是同類生物這些知識。如果将這個過程用 AI 的語言表示,那就是因爲我已經掌握了世界模型,并用它來替代了原本的生成模型。
(3)Meta 的世界模型
由于世界模型有上述的諸多優點,不少學者認爲它才是通往 AGI 的正确道路。在主張世界模型的學者中,楊立昆就是最爲堅定的代表。在實踐中,他不僅極力對生成模型這種他眼中的 " 異端 " 大加批判,而且利用其在 Meta 的地位大力推動非生成式的世界模型的開發,并已經取得了一定的成就。
比如,在去年 6 月,楊立昆就帶領其團隊發布了一款名爲 I-JEPA 的圖形生成模型。所謂 I-JEPA,是 " 基于圖像的聯合嵌入預測架構 "(ImageJointEmbeddingPredictiveArchitecture)的簡稱。根據随模型發表的論文,I-JEPA 模型放棄了被廣泛采用的生成模型思路,轉而用一種類似嬰兒的方式來認識和理解世界,并基于這些學習到的認識來指導内容的生成。如前所述,生成模型的機理是将文字和像素之間的特征加以對應。舉例說,如果要生成 " 一隻正在曬太陽的大橘貓 ",它們就需要先把這段文字進行拆解,找到每一個詞最可能對應的像素顔色和位置,然後根據這些信息來拼接出一副圖畫。
然而,對于人來說,想象的過程并不是這樣的。在看到 " 一隻正在曬太陽的大橘貓 " 這段文字後,人們在腦海裏首先浮現的是一隻貓的形象,然後在這隻貓的身上填上顔色,再調整其形态,最終形成對應的圖像。類似的,I-JEPA 模型在生成圖片時,會根據它所理解的要求,将每個文字對應出一個抽象的形象,比如 " 貓 " 對應出一個貓的形象," 橘 " 對應出橘色,然後将這些信息組合起來,生成相關的内容。容易看到,相比于生成模型,I-JEPA 模型的運作機理其實是更接近人類的,而這也是楊立昆本人最爲自豪的。
在 I-JEPA 發布之後,楊立昆和 Meta 團隊又進一步對視頻生成模型進行了研發。本文開頭提到的 V-JEPA 模型(它是 " 基于視頻的聯合嵌入預測架構 " 即 VideoJointEmbeddingPre-dictiveArchitecture 的簡稱)就是其最新結果。如前所述,客觀上 V-JEPA 模型的表現也非常不錯。但正所謂 " 不怕不識貨,就怕貨比貨 ",不知道是否是出于巧合,這個模型的發布時間正好選在了和 Sora 同一天,而 Sora 在視頻生成方面的表現顯然要比它更優。這款被楊立昆寄予厚望的模型不僅沒有獲得預想的好評,反而成了被群嘲的對象。
面對人們的嘲諷,這位高傲的圖靈獎得主顯然被激怒了。他在社交平台 X 上回應道:" 我從未預料到,那麽多從未對人工智能或機器學習做出任何貢獻的人,其中一些人在達克效應(Dun-ning-Krugereffect,一種認知偏差)上已經走得很遠,卻告訴我,我在人工智能和機器學習方面是錯誤、愚蠢、盲目、無知、誤導、嫉妒、偏見、脫節的…… "
從這番回應可以看出,以楊立昆爲代表的世界模型支持者并沒有因當前的挫折而放棄自己的主張。恰恰相反,這可能會更加激發他們的創新動力,沿着他們相信的道路加速前進,從而讓這個技術路線實現更多的突破。
坦然面對 " 奇點 "
在通往 AGI 的道路上,生成模型和世界模型究竟誰會最終勝出?坦白說,在現在這個階段,我們還很難得出結論。事實上,在 AI 發展史上,已經上演了很多次落後技術路徑的趕超。不過,無論是哪種模型勝出,AGI 的到來似乎都已經是非常近的事情了。
在 2005 年出版的《奇點将近》一書中,庫茨維爾(RaymondKurzweil)曾預言人類将在 2045 年前後迎來 " 奇點 ",屆時 AI 的智能将全方位超越人類。而在最近即将出版的一部新書中,他已經将這個時間提前到了 2029 年。從目前技術發展的趨勢看,這個預測似乎還算是比較客觀的。而這對于人類而言,确實不算是一個好消息。
幸運的是,我們還有五年左右的時間。即使 " 奇點 " 到來無法避免,至少我們還能利用這段時間來爲即将到來的新時代做一些準備。在這個過程中,我們有很多需要做的,而在這些待辦事宜中,有兩件是特别重要的:
第一件是要重新挖掘人本身的價值。通過前面的技術拆解,我們已經看到,雖然 AI 模型看似強大,但歸根到底,它們都是由一些十分基本的原理支配的。支配生成式模型的是概率原理;世界模型雖然可以在一定程度上了解規律,并按照規律 " 做夢 ",但它的想象空間在本質上還是受限于訓練數據和預先設定的規則。相比之下,人的想象力則要自由得多。可以預見,當人的其他能力被 AI 趕超後,這種自由的想象力将會變得更爲寶貴。當然,除了想象力之外,像情感、意志力、決斷力等,也都是 AI 所不具有的。關于這些品質,我們應該更爲珍惜。
第二件是要教好 AI。無論 AI 會是以生成模型,還是以世界模型來實現 AGI,它們的行爲特點都在很大程度上受制于人們對其的輸入。人們給它學習怎樣的數據,設定怎樣的規則,都會最終影響 AI 的行爲。遺憾的是,現在我們看到,很多人出于各種目的,将暴力、種族歧視、極端思想等教給了 AI,并在很大程度上帶偏了 AI 的價值觀。很顯然,這并不是我們願意看到的。
或許," 奇點 " 即将到來,但這絕不是人類的結束,甚至也不是結束的開始,這隻是開始的結束。我相信,隻要我們準備得當,人類必将會在 AI 的幫助下,迎來一個更美好的新時代。