作者 | 陳斯達
編輯 | 鄧詠儀
英偉達的萬衆矚目 GTC 大會第三天,黃仁勳又憋出一個大招——集齊 "Transformer 七子 ",來一場圓桌讨論。
這場對談讓觀衆們回到 AI 浪潮 " 夢開始的地方 " —— 2017 年,谷歌大腦團隊發表了一篇名爲 Attention is all you need 的論文,其中所提出的 Transformer 架構,爲當下大熱的 ChatGPT、Gemini 等大模型打下基礎,人工智能領域從此變天。論文的八位作者,也被稱爲 "Transformer 八子 "。
不過,八位作者後來也陸續離開谷歌。除 Lukasz Kaiser 留在 OpenAI 外,其他幾位作者都選擇離開創業,他們創立的很多公司,也成爲這一波浪潮中的當紅炸子雞。
"Transformer 八子 " 分别是:
Ashish Vaswani,EssentialAI 聯合創始人兼 CEO
Noam Shazeer,Character.AI 首席執行官兼聯合創始人
Jakob Uszkoreit,Inceptive 聯合創始人兼首席執行官
Llion Jones,SakanaAI 聯合創始人兼首席技術官
Aidan Gomez,Cohere 聯合創始人兼首席執行官
Lukasz Kaiser,OpenAI 技術人員
Illia Polosukhin,NEAR Protocol 聯合創始人
Niki Parmar,EssentialAI 聯合創始人(因家庭原因未出席)
來源:GTC 2024
除了其中一位作者因家庭原因未能出席,其餘幾位都現身對話現場。能湊齊 " 七龍珠 ",也顯示出如今如日中天的英偉達排面有多大。
同時,這也是一場關鍵的産業對話——算力是大模型的核心燃料。此次 AI 浪潮中,英偉達作爲供應商,又極大受益于大模型激增的算力需求。
對談開始前,觀衆排長隊入場,圖源:X
一小時裏,作者們不僅回溯了 Transformer 的誕生,對模型技術發展的問題和未來路徑的看法,也直戳要害:
目前基于 Transformer 的主流模型,基礎架構和論文剛發表時進步不多
動用萬億參數資源進行簡單計算會帶來浪費,關注自适應計算才能高效分配計算資源
當前模型太實惠,規模還太小,一美元百萬 token 比買本書的成本便宜得多
讓更多人用上模型,使其不斷交互才能變得聰明,待在實驗室裏并不會造福世界
推理是下一個重要的進步節點,能提升數據訓練效率,産生更有價值的結果
對話實錄部分要點整理
Transformer 因何橫空出世?
Illia Polosukhin:如果要做出能真正讀取搜索結果的模型,比如做到處理成堆的文檔,當時的遞歸神經網絡(RNN)并不能滿足這樣龐大的信息處理需求。
Noam Shazeer:團隊開始探讨用卷積或者注意力機制來取代它。蒸汽機也能實現工業革命,但 Transformer 就像内燃機讓一切變得更加高效。而随着模型規模的增大,智能程度也随之提高。隻是在預測下一個 token,它就會變得如此聰明,夠做一百萬個不同的事情。隻要想辦法擴大規模,就能讓它變得更好。
Ashish Vaswani:那些可以擴展的通用架構最終将在長期中勝出。今天的 token 是明天計算機行動的體現,它們開始模仿我們的活動,并自動化我們的工作。Transformer 自我注意,并使梯度下降變得更快。這是一種重複的主題,每次我們創建規則樣本時都會體現。
Llion Jones:我想出了「Attention Is All You Need」這個标題。我們當時還在嘗試做一些切除工作,嘗試扔掉模型的一部分,令我們驚訝的是,甚至在扔掉所有的卷積的時候,模型會變得更好。
Transformer 命名來由
Jakob Uszkoreit:我們喜歡這個名字。模型使用了這樣一種邏輯,改變了數據生産模式。所有的機器學習都是 Transformer,都是颠覆者。
Noam Shazeer:我之前覺得這個名字過于簡單,但很多人喜歡。我之前想過很多的名字,比如 Yaakov,最終确定了 "Transformer"。名字描述了模型的原理,因爲它實際上轉換了整個信号,按照這個邏輯,幾乎所有的機器學習都會被轉換。
Llion Jones:我們确實意識到,正在嘗試創建一種非常通用的方法。它确實可以讓任何東西之間相互轉化。我們當時并未預測到這将會有多麽成功。它是如此有趣,以至于我們可以将圖像翻譯成文本,将文本翻譯成圖像,翻譯文本到文本。
Jakob Uszkoreit:在生物學研究的應用中,我們可以将其稱爲生物軟件。起初是一個程序,然後編譯成可以在 GPU 上運行的形式。基本上,生物軟件的生命始于對特定行爲規範的需求,比如在細胞中生成大量特定蛋白質,然後通過深度學習将其轉譯成 RNA 分子。但實際上,一旦進入細胞,就會表現出這些行爲。所以,這個概念不僅是英語翻譯成計算機代碼還涉及到藥物的規範,即完全轉化爲實際的分子藥物。
需要有超越 Transformer 的東西
Aidan Gomez:在推理方面,已經做了很多工作加速模型的進化,但又與我們先前的形式非常相似。我認爲世界需要比 Transformer 更好的東西。我覺得現在與六七年前的情況相似。
Llion Jones:我認爲需要有明顯的進步。如果隻是稍微改進,那還不足以讓整個人工智能行業轉向新局面。所以盡管原始模型可能不是現在可擁有的最強大的東西,但我們仍然固守在原來的模型上。
Jakob Uszkoreit:現在浪費了很多計算資源。我們更關注計算資源分配的問題,而非一味擴大資源總量。我們不希望在一個容易的問題上花太多資源,也不想看到在一個太難的問題上花的資源過少,而得不到解決方案。
Illiya Polosukhin:就像 2+2,如果輸入到模型,就會使用一萬億個參數。所以自适應計算是接下來必須出現的。我們要關注,在特定問題上具體要花費多少計算資源。
爲何離開谷歌 & 以後想做什麽?
Ashish Vaswani(Essential AI):我們真的想理解并複制人類的認知目标,而不是簡單模仿他們在做什麽,因爲這最終将改變我們與計算機交互以及工作的方式。我離開的一個主要原因是,讓這些模型變得更聰明的唯一方式,就是把它們放到人們手中。不可能在實驗室中讓模型變得更聰明。你必須讓它們走向世界,讓世界與這些模型互動,從中獲取反饋,并讓它們變得更聰明。
Noam Shazeer(Character.AI):我離職時,心裏最大的挫敗感就是,令人難以置信的技術,還無法觸及每個人。而它有如此多的用途,如此簡單易用。我們的最終目标是幫助全世界每個人。所以我必須離職創業,讓這些發生。
Jakob Uszkoreit(Inceptive):我更多意識到,這項技術能比以前更廣泛地改善人們的生活質量。我的第一個孩子在疫情期間出生,這讓我重新認識到生命的脆弱性。幾周後,用于蛋白質結構預測的 AlphaFold 2 用于蛋白質結構預測的結果公布,Alpha Fold 2 比 1 的一個重大變化是使用了 transformer 架構來取代其他模型架構,因此它在分子生物學領域可以投入使用。再過幾周,mRNA COVID 疫苗的功效結果公布,RNA 尤其是 RNA 世界假說的潛力變得非常明确——用 RNA 就能完成生命中的任何事情,但長期以來數據一直很少,在某種程度上它是分子生物學領域的 " 遺孤 "。所以這幾乎成爲了一種道德義務,必須有人去做。
Llion Jones(Sakana AI):我是最後一個離開谷歌的。目前我還處于非常早期的階段。我試圖向加入的研究人員灌輸的核心理念是,學習總是對的。任何時候,如果你嘗試從人工處理某事轉向讓計算機自己搜索最優解,你總是會赢的。事實上,最初的深度學習革命就是一個例子,我們不再進行人工特征工程,而是直接學習,效果好多了。所以我想提醒大家,有了大量計算資源後,我們除了在狹義的意義上訓練大型語言模型外,還可以利用它來探索當前手工工程的搜索空間。
Aidan Gomez(Cohere):我認爲這項技術能夠改變世界。但現實中一切都沒有改變,面對的是停滞狀态,存在着技術發展與現實世界之間的差異,對我們這些了解内情的人來說是一種不協調感。所以我希望能夠彌合這一差距。我們創建了一個平台,讓每個企業都可以采用和集成這項技術到他們的産品中,而不是直接面向消費者。但這是我們想要推廣該技術、讓它更容易獲取、更便宜且更有競争力的方式。
Lukasz Kaiser(OpenAI):我最終加入了 OpenAI。當我加入時,OpenAI 正是擁有最好的 Transformer 模型的地方。在那家公司,我們知道可以利用大量數據和計算資源創造出優秀的東西。我當時還抱有一個希望,即使沒有大量數據,隻要有更多計算資源就行。
Illia Polosukhin(NEAR Protocol):我們正在從事的一項工作就是,創造一種全新的方式,讓人們爲超酷的模型貢獻數據。它在區塊鏈領域擁有全球最多的用戶,有數百萬的日活躍用戶,他們甚至都不知道自己在使用區塊鏈。但他們正在與這種可編程貨币價值進行交互。現在我們開始利用它來重新構建一些工具,以生成更多數據。雖然在這可能是有争議的,但 70 年代的版權技術需要改變,我們正迎來一個新的生成時代。目前我們獎勵創作者的方式已經被打破。唯一的解決方案是利用可編程貨币、可編程價值和區塊鏈。
推理是下一個重要的發展方向
Llion Jones:推理是下一個重要的發展方向。很多人已經意識到了這一點,并且正在緻力于研究。但是目前很多工作都是手工設計的,我們在手工編寫提示信息,然後嘗試讓它們以我們認爲合适的方式進行交互。當然,我們實際上應該搜索這個領域,學習如何将它們連接起來,打造出我們想要的功能強大的模型。
Jakob Uszkoreit:我們希望模型生成的内容能夠符合人類的消費需求。這些模型應該接受我們喜歡或可以接受的所有刺激作爲訓練數據。因此,任何類型的視頻、音頻、任何觀察世界的方式所獲得的信息,包括時序信息,都應被納入訓練數據中。
Lukasz Kaiser:如果你有一個能夠進行推理的模型,然後你隻需要一點點數據。它就會進行一系列的推理,從中産生結果。由此,就能夠從更少的數據中進行泛化,因爲它在推理過程中進行了大量計算。當我們弄清楚了這一切,就将極大地減少數量。但數據的質量也會變得更加重要。