作者 | Li Yuan、鄭玥編輯 | 衛詩婕
自 OpenAI 發布讓全世界矚目的 ChatGPT 以來,時間已經過去一年有餘。
大模型技術在這一年裏不斷進化:無論是越來越強的多模态能力,還是智能體(agent)的潛力初現,都讓人們對這一場 AI 革命充滿期待。但在 LLM 技術飛速發展的當下,要想使得大模型的能力落地關鍵領域,還存在哪些挑戰及亟待解決的問題?
我們特别邀請了兩位頂尖的技術極客——美國工程院院士、智源研究院原理事長張宏江院士,與 Google DeepMind 資深工程師盧一峰進行了一場有關前沿技術的對話。
作爲北京智源人工智能研究院的首任理事長,在 2020 年 GPT-3.0 發布之後,張宏江曾帶領一衆國内學者探索大模型技術,在他主導下的智源傾斜了大量資源投入大模型訓練,并發布了中國首個大模型,奠定了中國大模型領域的技術積累。
而盧一峰所在的谷歌,則一直以來是 AI 領域的先行者。目前,所有大模型所基于的 Transformer 架構最初都來自于谷歌對于 AI 的研究。2020 年,谷歌基于 Transformer 架構開發的 AI 聊天機器人第一代 LaMDA(當時項目名爲 Meena) 開發和推出,盧一峰就是項目發起人之一。作爲技術專家,他也一直在産業第一線推進大模型能力的邊界。
這次對談中涉及了多個極爲關鍵的話題:如何解決大模型幻覺(AI hallucination)、使大模型擁有「超人類」的能力、訓練數據枯竭的下一步應對、以及底層技術架構創新等。正如盧一峰的調侃,不少提問是價值「百億美元」級别的問題。
以下爲訪談實錄,發生在極客公園創新大會 2024,經極客公園整理編輯後發布
我們如何能夠更信賴大模型?讓它形成慢思考,并表達不确定
張宏江:大家最近都在關注 OpenAI,尤其這一系列變化中間有一個代号爲 Q* 的神秘項目。在 Sam Altman 被開除的 4 天前,有幾名 OpenAI 的研究人員向董事會發出的聯名信裏寫道, Q* 可能會威脅全人類。一峰,你怎麽看?
盧一峰:畢竟我不在 OpenAI 裏面,以下也僅僅是我的一些猜測。
我自己一直有一個觀點:我覺得現在的大語言模型實際上還是屬于一種「快思考」的模式。它的知識是來自于整個互聯網的數據,壓縮以後進行的重組、彙編,憑此來試着回答用戶的問題。它實際上離我們真正所謂的「慢思考」——即幫助人類去解決一些很難的問題,還有很長的路要走。
區别就在于,你可以讓它幫你寫一些日常的郵件,但是如果你問它,「我們怎麽能夠把人類帶到火星?」這樣的問題,那它就無法用一次問答的方式獲得完整的答案。這個時候,我認爲它需要像我們做科學做實驗一樣——需要運用很多的工具,去探索不同的可能性,把其中比較好的方向摘出來,再往前進一步。
而這種方式,目前在大模型中還沒有太多的出現。所以我并不擔心(Q* 會威脅人類)。未來,如果大模型能夠自我進化、自己推進研究,那可能是我會更擔心的時候。 Q* 可能就是朝着這個方向,取得了一些比較有前景的早期成果,或者是他們看到了它自我進化的能力,這可能是他們比較擔心的。
張宏江:那我們接着讨論一下,大模型怎麽樣才能夠慢思考?對比一下人類的慢思考能力怎麽獲得,大模型的訓練有沒有可以借鑒的地方?
盧一峰:大模型現在一次成型回答問題,依靠生成一個詞元,用這個詞元加到它的上下文裏面,來生成下一個詞元,我們稱之爲自回歸的解碼(autoregressive decoding)。
我個人覺得如果我們要獲得慢思考,實際上我們要回答兩個問題。
第一個問題是,大模型在一個一個解碼的時候,在什麽時候會不确定?就像如果别人問我,一峰你怎麽樣造一個火箭去火星?那可能我說「我覺得 ...」,之後的下一個詞,我可能就會卡住,思考我到底該說什麽。我們要找到模型這樣不确定的時候。
第二個問題就是,在它不确定的時候,我們怎麽停止它,讓它進行探索。這個探索可以有幾類。實際上和我們人類很像。當我不确定的時候,我會做什麽呢?我會上網,我會去翻書,我會做實驗,我會去想一些莫名其妙的想法,我會去跟别人讨論。大模型也有對應這幾種方向的技術路線。
上網和翻書,對應的是檢索增強生成(RAG、Retrieval Augmented Generation),就是把搜索引擎加到模型中來。用各種實驗系統(包括仿真)對應的是工具的使用。和别人聊一聊,對應的是大語言模型智能體(agent)和智能體之間通過多智能體之間(multi agent)的交流和組合,來獲得一些共識。
做研究的代表可能是搜索,比如說 AlphaGo 裏面的蒙特卡洛樹搜索(Monte Carlo Tree Search),或者說我們之前做 AutoML 時使用的神經結構搜索(NAS Architecture search),或者進化算法,本質上都是搜索算法。
最終的狀态可能是達到一個循環,條件爲「我不确定」時,那我就去找一些相關的信息來。繼續判斷這個條件,達成了「我确定」,就繼續解碼下一個詞元,否則就再去找一些相關的信息來。
當我們能夠準确地回答大模型什麽時候不确定,以及不确定以後應該怎麽确定這兩個問題時,我們就能夠很自然地引入大模型的「慢思考」。
張宏江:今天,大模型幻覺問題(hallucination)還比較嚴重,這些不準确性使得我們在一些所謂的關鍵任務中不太敢用大模型。最近業界如何試圖解決這個問題?
盧一峰:在這個問題上,我最早的思考角度源自 John Schuman。
他提到,預訓練的大模型内部已經壓縮了很多知識,模型内部已經有了一個概率分布,了解自己知道什麽不知道什麽了。而我們在做第二步微調,或者我們稱爲對齊的這個步驟時,如果我們沒有很仔細地去做,那我們有可能會促使它撒謊。
一個簡單的例子就是,如果它的訓練數據是到 2021 年截止,還不知道 Elon Musk 後來當了 Twitter 的 CEO,我們對齊時強迫它說 CEO 是 Elon Musk,有可能你最後教會它的,并不是這一條知識,而是教會了它說謊。它就會學會,哪怕我不确定、不知道,也可以瞎說。
我們需要非常仔細、非常謹慎地去選擇對齊數據,保證我們讓它說的東西是真實地反映了它的知識水平、它的數據庫裏面的數據。
這是一種想法,後來實際上業界也會有很多更新的方向:
其中一個比較熱門的方向就是檢索增強生成(RAG)。就是說,通過去發送一些搜索引擎的查詢去獲得一些很客觀事實的簡短的文字,然後再把這些簡短的客觀事實,像維基百科這樣的相關的文字放在這個上下文窗口裏面。
我們嘗試過所有這些方向後,發現現在大模型的幻覺問題的解決,比起年初已經有了不錯的進展,但是離真正的靠譜還有很遠。
張宏江:是的,大概一個月以前,我跟伯克利的 Michael Jordan 有過一次見面,他講到我們在市場營銷上也好,金融行業也好,都在處理一件事情,就是不确定性。了解不确定性,提前算入或者避免不确定性,十分重要。和人類一樣,大模型的幻覺是無法減少到零的——但是,當我們回答問題的時候,人類會說「讓我想一想」。
盧一峰:是的。如果它能夠很坦誠地表達不确定,它就能赢得用戶的信任,因爲用戶知道它的邊界在哪裏。現在它最大的問題是一本正經地說瞎話。如果它能夠表達不确定的話,這件事情已經算成功了很多。
打造「超人類」大模型?合成數據、架構創新、多模态、和 agent 的未來
張宏江:能夠做到這些,要求我們對于整個大模型的學習架構有個很大的改變。這就引出一個很重要的問題,Transformer 這種基本的架構是不是就是現在唯一可靠的架構?大模型向未來的發展的過程,中間技術路徑上還會不會有新的,根本上的變化?
盧一峰:宏江老師,你提的問題非常深刻,我覺得問題的正确答案可能是值百億美金,或者甚至更多錢。我的思考是這樣的:
現在,我們提到的 Transformer 這個架構,實際上已經不僅僅指 17 年 18 年 Transformer 的那個論文包含的内容,而是指一整套的算法和解決方案。而且,即使說到最窄的範疇,現在 Transformer 的架構也已經比當年的 Transformer 的架構有了很大的優化和改進。
Transformer 是針對 GPU 和 TPU 這種非常擅長做稠密計算的硬件的軟件加速器。包含了架構,也包含了下一個詞元生成(next token generation)這種非常有效的訓練目标等。它非常優雅地讓我們通過壓縮數據獲得了智能。
我認爲我們可以繼續改進它,還有很大的空間,但要顯著改變它則有一定難度。 這個難度在于這幾個維度已經彼此交織在一起。從 16 年到現在,整個業界在軟件、硬件和數據方面進行了許多組合優化,已經将其推進到了一個局部最優狀态。
而在這樣的狀态下,通常我們要打破它,可能需要跳出來。你要到下一個山峰,必須得先下山再上山,才能到達更高的山峰。
如果要發生大的變化的話,我猜測可能從幾個點上:
首先是硬件的變化。Transformer 起飛和硬件關系很大。大概 17 年、18 年的時候,Google 的 TPU 以及英偉達的 GPU,到了一個相對比較成熟的一個狀态。Transformer 團隊設計出這個結構,最大化地利用了硬件的優勢。
我的期待是說,如果有全新的硬件推出,可能會誕生很不一樣的軟件系統。或者軟件和硬件能夠相互推動,走出一條新的路。
另一個點,可能是訓練目标的改變。我認爲多模态可能成爲下一個前沿領域。大模型通過看書的方式,學習到了人類文明的許多有意義的部分。而看書并不能學到所有的知識,有的時候一圖勝千言。如果我們能夠訓練模型學習多模态數據,并且是對我們人類有意義的這些重要數據,比如很好的電影,或者說我們人類的戰争的紀錄片,将是非常有意義的。
我認爲視頻在下一個詞元的預測上具有與文字相似的訓練特性。你可以将視頻視爲一系列詞元,例如觀看第一集後,嘗試預測第二集的情節,觀看片段後,預測接下來會發生什麽。通過這種預測工作,可能使模型具備更全面的世界知識,或者成爲更完善的世界模型。
張宏江:今天,我們已經用盡了人類的所有的文字記錄進行訓練。文字數據的瓶頸應該再怎麽突破?合成的數據會不會是一個趨勢?
盧一峰:我覺得這是一個非常非常好的問題,宏江老師。數據是現有的這個 Transformer 架構下面一個非常非常重要的一個組成模塊,甚至稱之爲最重要的組成部分之一都不爲過。
我的看法是,數據不僅僅是數據,數據是一個過分抽象、過分籠統的一個概念。在我看來,數據實際上是任務,實際上是目标。
比如說我們通常把數據劃分爲兩部分,一個是預訓練的數據,一個是我們後面做對齊的數據。我們以預訓練的數據爲例。大家會覺得預訓練就是說,把整個互聯網的語料拿來,預測下一個詞元就好了。但實際上,這個過程中,我們在做各種各樣的任務。
有些是語言任務,比如說你說了「this」,那下面可能接「is」。有些是做推理、去做總結、甚至去做分析判斷的任務,比如說把整個偵探小說所有線索、所有故事都作爲上下文,讓模型預測誰是兇手。它還會做數學的,編程的,寫詩的,事實問答的各種任務。
我們現在稱預訓練過後的這種模型爲世界模型。因爲它做了各種各樣的任務,它最後顯得什麽都懂得一點。但是我們好像現在是把這個世界上所有的語料都扔進去了,訓練出來的模型有時候還是有點笨,不太可靠——因爲互聯網的數據是魚龍混雜的,它隻能代表普通人類的認知水平,而不能變成超人類,無法成爲百分之一的聰明人的水平,怎麽辦?
從這個問題出發,我覺得我們就能推導出,我們還需要什麽樣的數據?如果我們要造所謂的合成數據,我們應該去造什麽樣的數據。我能看到合成數據的一個機會,是超人類的數據。
Demis Hassabis 之前講過,創新有三個境界。大模型達到的就是第一個境界。似乎出現了一些創新,但實際上本質上是在達到現有人類已有的知識的平均線,沒有突破人類知識的邊界。
要到下一個層次,突破人類知識的邊界,需要類似于 AlphaGo 裏面的第 37 步的那種操作,或者說 AlphaFold 裏面能夠把這個世界所有的蛋白質折疊,精準預測的能力。要完成這樣的任務,需要的數據很難通過從互聯網上去收集,或者找人來撰寫。
在這種情況下,實際上我們可能應該要用 AlphaGo 的這條思路去思考這個問題,就是說你可能需要的是隻是給定一個環境,給定環境最終的目标,然後讓大模型或者 AI 系統通過自我博弈、自我進化去達到一種超人類的解法,這個超人的解法實際上是最好的合成數據,也是我提到的慢思考的過程。
然後我們把慢思考的成果——因爲你花了這麽多算力把它給搞出來了——蒸餾回模型裏頭,能夠讓模型能更有效率地、一次成型地回答出這個問題。我覺得是可能合成數據的一個可能更深的一個邏輯所在。
你能在這場革命中做什麽?找到獨屬于自己的數據和問題
張宏江:我們今天在座的觀衆中,有很多是大模型應用的行業人士。我們都知道,每當 OpenAI 召開發布會,無論是發布新的插件還是像這次發布的 GPT store,都會讓許多人感到驚歎說,「OpenAI 的 GPT 的能力太強大了,把我原來要在一個垂直領域做的東西做掉了。我過去六個月做的事情白做了。」 在這種情況下,作爲創業者,我們還能做些什麽呢?
盧一峰:我的第一個觀點是,每個人在自己的賽道上的時候勝率是最高的。每個人都擁有自己獨特的生活、工作和學習環境,以及獨特的經曆和社會關系,都能獨特地感知到屬于他自己的那個機會,在這樣的情況下進行應用是勝率最高的。
第二,無論是大模型、當年的 AI,還是未來的智能體,我們都可以将其視爲家裏的汽車或電腦一樣的工具,隻是一種方便實用的工具而已。
當你有了這兩個東西時,我與其去糾結于别人做提示詞工程師我也要做,或者别人做應用我也去做一個,我覺得不妨退一步,冷靜思考一下:如果突然間上天賜予我這樣一個魔法工具,我能爲我的生活,我能爲周圍的人帶來什麽改變?我能爲我的日常生活帶來多大變化?這是我的思考角度。
還是要親自下水去玩這個模型,也許在這個過程中你會了解現在這個工具的邊界在哪裏,你也許能體感到,它現在可能還沒有準備好。你再過一段時間再去玩一玩它。等到有一天你發現它能夠幫你解決問題時,也許那就是你應該全力擁抱它的時候了。
張宏江:我同意,每個人都應該從自己的體驗、經曆、工作和愛好的領域來思考 AI 的潛在應用。移動互聯網的成功源于一系列原生的應用,而如今我們仍處于大模型時代的早期,正在不斷探索 AI 時代和大模型時代的原生應用和體驗。
剛才你提到的這點,也是我也想跟所有的朋友分享的一點:讓自己跳進水中成爲一個實踐者,成爲一個玩家。隻有在遊泳的過程中,你才能夠對大模型的潛力,對它的問題有更深刻的認識,對可能潛在的運用和自己能做的事情有激情。