黃仁勳對話Transformer七子：我們被困在原始模型裏，還需要更強大的新架構

作者 | 陳斯達

編輯 | 鄧詠儀

英偉達的萬衆矚目 GTC 大會第三天，黃仁勳又憋出一個大招——集齊 "Transformer 七子 "，來一場圓桌讨論。

這場對談讓觀衆們回到 AI 浪潮 " 夢開始的地方 " —— 2017 年，谷歌大腦團隊發表了一篇名爲 Attention is all you need 的論文，其中所提出的 Transformer 架構，爲當下大熱的 ChatGPT、Gemini 等大模型打下基礎，人工智能領域從此變天。論文的八位作者，也被稱爲 "Transformer 八子 "。

不過，八位作者後來也陸續離開谷歌。除 Lukasz Kaiser 留在 OpenAI 外，其他幾位作者都選擇離開創業，他們創立的很多公司，也成爲這一波浪潮中的當紅炸子雞。

"Transformer 八子 " 分别是：

Ashish Vaswani，EssentialAI 聯合創始人兼 CEO

Noam Shazeer，Character.AI 首席執行官兼聯合創始人

Jakob Uszkoreit，Inceptive 聯合創始人兼首席執行官

Llion Jones，SakanaAI 聯合創始人兼首席技術官

Aidan Gomez，Cohere 聯合創始人兼首席執行官

Lukasz Kaiser，OpenAI 技術人員

Illia Polosukhin，NEAR Protocol 聯合創始人

Niki Parmar，EssentialAI 聯合創始人（因家庭原因未出席）

來源：GTC 2024

除了其中一位作者因家庭原因未能出席，其餘幾位都現身對話現場。能湊齊 " 七龍珠 "，也顯示出如今如日中天的英偉達排面有多大。

同時，這也是一場關鍵的産業對話——算力是大模型的核心燃料。此次 AI 浪潮中，英偉達作爲供應商，又極大受益于大模型激增的算力需求。

對談開始前，觀衆排長隊入場，圖源：X

一小時裏，作者們不僅回溯了 Transformer 的誕生，對模型技術發展的問題和未來路徑的看法，也直戳要害：

目前基于 Transformer 的主流模型，基礎架構和論文剛發表時進步不多

動用萬億參數資源進行簡單計算會帶來浪費，關注自适應計算才能高效分配計算資源

當前模型太實惠，規模還太小，一美元百萬 token 比買本書的成本便宜得多

讓更多人用上模型，使其不斷交互才能變得聰明，待在實驗室裏并不會造福世界

推理是下一個重要的進步節點，能提升數據訓練效率，産生更有價值的結果

對話實錄部分要點整理

Transformer 因何橫空出世？

Illia Polosukhin：如果要做出能真正讀取搜索結果的模型，比如做到處理成堆的文檔，當時的遞歸神經網絡（RNN）并不能滿足這樣龐大的信息處理需求。

Noam Shazeer：團隊開始探讨用卷積或者注意力機制來取代它。蒸汽機也能實現工業革命，但 Transformer 就像内燃機讓一切變得更加高效。而随着模型規模的增大，智能程度也随之提高。隻是在預測下一個 token，它就會變得如此聰明，夠做一百萬個不同的事情。隻要想辦法擴大規模，就能讓它變得更好。

Ashish Vaswani：那些可以擴展的通用架構最終将在長期中勝出。今天的 token 是明天計算機行動的體現，它們開始模仿我們的活動，并自動化我們的工作。Transformer 自我注意，并使梯度下降變得更快。這是一種重複的主題，每次我們創建規則樣本時都會體現。

Llion Jones：我想出了「Attention Is All You Need」這個标題。我們當時還在嘗試做一些切除工作，嘗試扔掉模型的一部分，令我們驚訝的是，甚至在扔掉所有的卷積的時候，模型會變得更好。

Transformer 命名來由

Jakob Uszkoreit：我們喜歡這個名字。模型使用了這樣一種邏輯，改變了數據生産模式。所有的機器學習都是 Transformer，都是颠覆者。

Noam Shazeer：我之前覺得這個名字過于簡單，但很多人喜歡。我之前想過很多的名字，比如 Yaakov，最終确定了 "Transformer"。名字描述了模型的原理，因爲它實際上轉換了整個信号，按照這個邏輯，幾乎所有的機器學習都會被轉換。

Llion Jones：我們确實意識到，正在嘗試創建一種非常通用的方法。它确實可以讓任何東西之間相互轉化。我們當時并未預測到這将會有多麽成功。它是如此有趣，以至于我們可以将圖像翻譯成文本，将文本翻譯成圖像，翻譯文本到文本。

Jakob Uszkoreit：在生物學研究的應用中，我們可以将其稱爲生物軟件。起初是一個程序，然後編譯成可以在 GPU 上運行的形式。基本上，生物軟件的生命始于對特定行爲規範的需求，比如在細胞中生成大量特定蛋白質，然後通過深度學習将其轉譯成 RNA 分子。但實際上，一旦進入細胞，就會表現出這些行爲。所以，這個概念不僅是英語翻譯成計算機代碼還涉及到藥物的規範，即完全轉化爲實際的分子藥物。

需要有超越 Transformer 的東西

Aidan Gomez：在推理方面，已經做了很多工作加速模型的進化，但又與我們先前的形式非常相似。我認爲世界需要比 Transformer 更好的東西。我覺得現在與六七年前的情況相似。

Llion Jones：我認爲需要有明顯的進步。如果隻是稍微改進，那還不足以讓整個人工智能行業轉向新局面。所以盡管原始模型可能不是現在可擁有的最強大的東西，但我們仍然固守在原來的模型上。

Jakob Uszkoreit：現在浪費了很多計算資源。我們更關注計算資源分配的問題，而非一味擴大資源總量。我們不希望在一個容易的問題上花太多資源，也不想看到在一個太難的問題上花的資源過少，而得不到解決方案。

Illiya Polosukhin：就像 2+2，如果輸入到模型，就會使用一萬億個參數。所以自适應計算是接下來必須出現的。我們要關注，在特定問題上具體要花費多少計算資源。

爲何離開谷歌 & 以後想做什麽？

Ashish Vaswani（Essential AI）：我們真的想理解并複制人類的認知目标，而不是簡單模仿他們在做什麽，因爲這最終将改變我們與計算機交互以及工作的方式。我離開的一個主要原因是，讓這些模型變得更聰明的唯一方式，就是把它們放到人們手中。不可能在實驗室中讓模型變得更聰明。你必須讓它們走向世界，讓世界與這些模型互動，從中獲取反饋，并讓它們變得更聰明。

Noam Shazeer（Character.AI）：我離職時，心裏最大的挫敗感就是，令人難以置信的技術，還無法觸及每個人。而它有如此多的用途，如此簡單易用。我們的最終目标是幫助全世界每個人。所以我必須離職創業，讓這些發生。

Jakob Uszkoreit（Inceptive）：我更多意識到，這項技術能比以前更廣泛地改善人們的生活質量。我的第一個孩子在疫情期間出生，這讓我重新認識到生命的脆弱性。幾周後，用于蛋白質結構預測的 AlphaFold 2 用于蛋白質結構預測的結果公布，Alpha Fold 2 比 1 的一個重大變化是使用了 transformer 架構來取代其他模型架構，因此它在分子生物學領域可以投入使用。再過幾周，mRNA COVID 疫苗的功效結果公布，RNA 尤其是 RNA 世界假說的潛力變得非常明确——用 RNA 就能完成生命中的任何事情，但長期以來數據一直很少，在某種程度上它是分子生物學領域的 " 遺孤 "。所以這幾乎成爲了一種道德義務，必須有人去做。

Llion Jones（Sakana AI）：我是最後一個離開谷歌的。目前我還處于非常早期的階段。我試圖向加入的研究人員灌輸的核心理念是，學習總是對的。任何時候，如果你嘗試從人工處理某事轉向讓計算機自己搜索最優解，你總是會赢的。事實上，最初的深度學習革命就是一個例子，我們不再進行人工特征工程，而是直接學習，效果好多了。所以我想提醒大家，有了大量計算資源後，我們除了在狹義的意義上訓練大型語言模型外，還可以利用它來探索當前手工工程的搜索空間。

Aidan Gomez（Cohere）：我認爲這項技術能夠改變世界。但現實中一切都沒有改變，面對的是停滞狀态，存在着技術發展與現實世界之間的差異，對我們這些了解内情的人來說是一種不協調感。所以我希望能夠彌合這一差距。我們創建了一個平台，讓每個企業都可以采用和集成這項技術到他們的産品中，而不是直接面向消費者。但這是我們想要推廣該技術、讓它更容易獲取、更便宜且更有競争力的方式。

Lukasz Kaiser（OpenAI）：我最終加入了 OpenAI。當我加入時，OpenAI 正是擁有最好的 Transformer 模型的地方。在那家公司，我們知道可以利用大量數據和計算資源創造出優秀的東西。我當時還抱有一個希望，即使沒有大量數據，隻要有更多計算資源就行。

Illia Polosukhin（NEAR Protocol）：我們正在從事的一項工作就是，創造一種全新的方式，讓人們爲超酷的模型貢獻數據。它在區塊鏈領域擁有全球最多的用戶，有數百萬的日活躍用戶，他們甚至都不知道自己在使用區塊鏈。但他們正在與這種可編程貨币價值進行交互。現在我們開始利用它來重新構建一些工具，以生成更多數據。雖然在這可能是有争議的，但 70 年代的版權技術需要改變，我們正迎來一個新的生成時代。目前我們獎勵創作者的方式已經被打破。唯一的解決方案是利用可編程貨币、可編程價值和區塊鏈。

推理是下一個重要的發展方向

Llion Jones：推理是下一個重要的發展方向。很多人已經意識到了這一點，并且正在緻力于研究。但是目前很多工作都是手工設計的，我們在手工編寫提示信息，然後嘗試讓它們以我們認爲合适的方式進行交互。當然，我們實際上應該搜索這個領域，學習如何将它們連接起來，打造出我們想要的功能強大的模型。

Jakob Uszkoreit：我們希望模型生成的内容能夠符合人類的消費需求。這些模型應該接受我們喜歡或可以接受的所有刺激作爲訓練數據。因此，任何類型的視頻、音頻、任何觀察世界的方式所獲得的信息，包括時序信息，都應被納入訓練數據中。

Lukasz Kaiser：如果你有一個能夠進行推理的模型，然後你隻需要一點點數據。它就會進行一系列的推理，從中産生結果。由此，就能夠從更少的數據中進行泛化，因爲它在推理過程中進行了大量計算。當我們弄清楚了這一切，就将極大地減少數量。但數據的質量也會變得更加重要。