黃仁勳組局，Transformer七子首次重聚對談

The following article is from 騰訊科技 Author 郭曉靜

文 / 騰訊科技郭曉靜

2017年，一篇具有裏程碑意義的論文——《Attention is All You Need》橫空出世，它首次引入了基于自注意力機制的Transformer模型，這一創新架構擺脫了傳統的RNN和CNN的束縛，通過并行處理的注意力機制，有效克服了長距離依賴的難題，并顯著提升了序列數據處理的速度。Transformer的編碼器-解碼器結構和多頭注意力機制在人工智能領域掀起了一場風暴，大熱的ChatGPT正是基于這一架構構建的。

想象一下，Transformer模型就像是你的大腦在和朋友交談時，能夠同時關注對方說的每個詞，并理解這些詞之間的聯系。它賦予了計算機類似人類的語言理解能力。在此之前，RNN是處理語言的主流方法，但其信息處理速度緩慢，就像老式的磁帶播放器，必須逐字逐句地播放。而Transformer模型則像是一位高效的DJ，能夠同時操控多個音軌，迅速捕捉到關鍵信息。

Transformer模型的出現極大地提升了計算機處理語言的能力，使得機器翻譯、語音識别和文本摘要等任務變得更加高效和精确，這對整個行業來說是一個巨大的飛躍。

這項創新成果源于八位曾在谷歌工作的AI科學家的共同努力。他們最初的目标非常簡單：改進谷歌的機器翻譯服務。他們希望機器能夠完整地理解并通讀整個句子，而不是孤立地逐詞翻譯。這一理念成爲了"Transformer"架構的起點——"自我注意力"機制。在此基礎上，這八位作者發揮各自的專長，于2017年12月發表了論文《Attention Is All You Need》，詳細描述了Transformer架構，開啓了生成式AI的新篇章。

在生成式AI的世界裏，規模定律（Scaling Law）是核心原則。簡而言之，随着Transformer模型規模的擴大，其性能也随之提升，但這同樣意味着需要更強大的計算資源來支持更龐大的模型和更深層的網絡，而提供高性能計算服務的英偉達也同時成爲了這場AI浪潮中的關鍵角色。

在今年的GTC大會上，英偉達的黃仁勳以一種充滿儀式感的方式邀請了Transformer的七位作者（Niki Parmar因故臨時未能出席）參與圓桌論壇的讨論，這是七位作者首次在公開場合集體亮相。

他們在對話中也表達了一些令人印象深刻的觀點：

● 這個世界需要比Transformer更好的東西，我想我們在座的所有人都希望它能被某種東西所取代，将我們帶到一個新的性能高原。

● 我們在最初的目标上并沒有成功，我們開始Transformer的初衷是想要模拟Token的演化過程。它不僅僅是線性的生成過程，而是文本或代碼的逐步演化。

● 像2+2這樣的簡單問題，它可能會使用大模型的萬億參數資源。我認爲自适應計算是接下來必須出現的事情之一，我們知道在特定問題上應該花費多少計算資源。

● 我認爲當前的模型太過經濟實惠，規模也還太小，大概1美元百萬toke的價格，比外出購買一本平裝書要便宜100倍。

以下爲内容實錄：

黃仁勳：在過去的六十年中，計算機技術似乎并沒有經曆根本性的變革，至少從我出生的那一刻起便是如此。我們目前所使用的計算機系統，無論是多任務處理、硬件與軟件的分離、軟件的兼容性，還是數據備份能力，以及軟件工程師的編程技巧，基本上都是基于IBM System360的設計原則——中央處理器、Bio子系統、多任務處理、硬件與軟件、軟件系統的兼容性等等。

我認爲，自1964年以來，現代計算并沒發生過根本性改變。盡管在20世紀的80年代和90年代，計算機經曆了一次重大的轉型，形成了今天我們所熟悉的形态。但随着時間的流逝，計算機的邊際成本持續下降，每十年其成本就減少十倍，十五年減少一千倍，二十年減少一萬倍。在這場計算機革命中，成本的降低幅度是如此之大，以至于在二十年的時間裏，計算機的成本幾乎降低了一萬倍，這種變化爲社會帶來了巨大的動力。

試着想象一下，如果你生活中所有昂貴的物品都降到了原來的一萬分之一，比如二十年前你花20萬美元購買的汽車，現在隻需1美元，你能想象這種變化嗎？然而，計算機成本的下降并非一蹴而就，而是逐漸到達了一個臨界點，之後成本下降趨勢突然停止了，它依然每年都在不斷改進一點點，但是變化率停滞不變了。

我們開始探索加速計算，但使用加速計算并不容易，你需要從頭一點一點來設計。過去，我們可能按照既定的步驟一步步解決問題，但現在，我們需要重新設計這些步驟，這是一個全新的科學領域，将之前的規則重新表述爲并行算法。

我們認識到這一點，并相信，如果我們能夠加速哪怕是1%的代碼，節省99%的運行時間，那麽一定會有應用能夠從中受益。我們的目标是讓不可能變爲可能，或者将可能變爲不可能，或者已經可能的事情變得更加高效，這就是加速計算的意義。

回顧公司的曆史，我們發現我們有能力加速各種應用。起初，我們在遊戲領域取得了顯著的加速效果，效果好到讓人誤以爲我們是一家遊戲公司。但實際上，我們的目标遠不止于此，因爲這個市場龐大，大到能夠推動難以置信的技術進步。這種情況并不常見，但我們找到了這樣一個特例。

長話短說，2012年，AlexNet點燃了星星之火，這是人工智能與英偉達GPU的首次碰撞。這标志着我們在這一領域的神奇旅程的開始。幾年後，我們發現了一個完美的應用場景，爲我們今天的發展奠定了基礎。

簡而言之，這些成就爲生成式人工智能的發展奠定了基礎。生成式AI不僅能夠識别圖片，還能将文字轉化爲圖片，甚至創造出全新的内容。現在，我們有了足夠的技術能力去理解像素，識别它們，并理解它們背後的意義。通過這些背後的意義，我們可以創造出新的内容。人工智能通過數據理解其背後含義的能力，這是一個巨大的變革。

我們有理由相信，這是一場全新的工業革命的開始。在這場革命中，我們正在創造前所未有的東西。例如，在之前的工業革命中，水是能源的來源，水進入我們創造的裝置，發電機開始工作，進水、出電，如同魔法一樣。

生成式AI，是一種全新的"軟件"，它又能夠創造軟件，它依賴于衆多科學家的共同努力。想象一下，你給AI原材料——數據，它們進入一棟"建築"——我們稱之爲GPU的機器，它就能輸出神奇的結果。它正在重塑一切，我們正在見證"AI工廠"的誕生。

這種變革可以被稱爲全新的工業革命。在過去，我們從未真正經曆過這樣的變革，但現在，它正緩緩展開在我們面前。不要錯過接下來的十年，因爲在這十年裏，我們将創造出巨大的生産力。時間的鍾擺已經啓動，我們的研究人員已經開始行動。

今天我們邀請了Tansformer的創造者們，來一起讨論未來生成式AI會将我們帶向何方。

他們是：

Ashish Vaswani：2016年加入谷歌大腦團隊。2022年4月，與Niki Parmar共同創辦了Adept AI，同年12月離開該公司，并共同創立了另一家人工智能初創公司Essential AI。

Niki Parmar：在谷歌大腦工作了四年，之後與Ashish Vaswani共同創立了Adept AI和Essential AI。

Jakob Uszkoreit：2008年至2021年在谷歌工作。2021年離開谷歌，并與他人共同創立Inceptive，該公司主營業務爲人工智能生命科學，緻力于使用神經網絡和高通量實驗來設計下一代RNA分子。

Illia Polosukhin：2014年加入谷歌，是八人團隊中最早離開的人之一，于2017年同他人共同創立了區塊鏈公司NEAR Protocol。

Noam Shazeer：曾于2000年至2009年間和2012年至2021年期間就職于谷歌。2021年，Shazeer離開谷歌并與前谷歌工程師Daniel De Freitas共同創立Character.AI。

Llion Jones：曾工作于Delcam、YouTube。2012年加入谷歌，擔任軟件工程師。後來離開谷歌，創辦人工智能初創企業sakana.ai。

Lukasz Kaiser：曾任法國國家科學研究中心研究員。2013年加入谷歌。2021年，他離開谷歌，成爲OpenAI的研究員。

Aidan Gomez：畢業于加拿大多倫多大學，Transformer論文發表時，他還是谷歌大腦團隊的實習生。他是八人團隊中第二個離開谷歌的人。2019年，他與他人共同創立了Cohere。

黃仁勳:今天坐到這裏，請大家積極争搶發言的機會，在這裏沒有什麽話題是不可以談的，你們甚至可以從椅子上跳起來去讨論問題。讓我們從最基礎的問題談起，你們當時遇到了什麽問題，是什麽啓發你們去做Transformer？

Illia Polosukhin：如果你想要發布能夠真正讀取搜索結果的模型，比如處理成堆的文檔，你需要一些能夠迅速處理這些信息的模型。當時的遞歸神經網絡（RNN）并不能滿足這樣的需求。

确實，那時候雖然有遞歸神經網絡（RNN）和一些初步的注意力機制（Arnens）引起了關注，但它們仍然需要逐個單詞地閱讀，效率不高。

Jakob Uszkoreit：我們生成訓練數據的速度遠遠超過了我們訓練最先進架構的能力。實際上我們使用的是更簡單的架構，比如以n-gram作爲輸入特征的前饋網絡。這些架構至少在谷歌規模的大量訓練數據中，由于訓練速度更快，通常都能超越那些更複雜、更先進的模型。

那時候的強大RNN，特别是長短期記憶網絡（LSTM），已經存在。

Noam Shazeer：看起來這是一個亟待解決的問題。我們在2015年左右就已經開始注意到這些Scaling law，你可以看到随着模型規模的增大，它的智能程度也随之提高。這裏就像是世界曆史上最好的問題，非常簡單：你隻是在預測下一個token，它就會變得如此聰明，能夠做一百萬個不同的事情，你隻是想擴大規模并讓它變得更好。

而一個巨大的挫敗感在于，RNN處理起來實在是太麻煩了。然後我偶然聽到這些家夥在讨論，嘿，讓我們用卷積或者注意力機制來取代它。我心想，太好了，我們就這麽幹。我喜歡把Tansformer比作是從蒸汽機到内燃機的飛躍。我們本可以用蒸汽機完成工業革命，但那将會非常痛苦，而内燃機讓一切都變得更好。

Ashish Vaswani：我在研究生時期就開始體會到一些苦澀的教訓，尤其是在我從事機器翻譯工作的時候。我意識到，嘿，我不會去學習那些複雜的語言規則。我認爲梯度下降（Gradient Descent）——我們訓練這些模型的方法——是一個比我更出色的老師。所以我不會去學習這些規則，我隻會讓梯度下降（Gradient Descent）爲我完成所有工作，這就是我的第二個教訓。

我從這些苦澀的教訓中學到的是，那些可以擴展的通用架構最終将在長期中勝出。今天可能是token，明天可能就是我們在計算機上采取的行動，它們将開始模仿我們的活動，并能夠自動化我們所做的許多工作。正如我們所讨論的，Transformer特别是其自注意力機制，具有非常廣泛的适用性，它也讓梯度下降變得更好。另外就是物理學，因爲我從Noam那裏學到的一點是，矩陣乘法是個好主意。

Noam Shazeer：這個模式一直在重複出現。所以每一次當你添加一堆規則時，梯度下降終将比你更擅長學習這些規則。就是這樣。就像我們一直在做的深度學習一樣，我們正在構建一個形狀像GPU的AI模型。而現在，我們正在構建一個形狀像超級計算機的AI模型。是的，超級計算機現在就是模型。是的，這是真的。是的。超級計算機隻是爲了讓你們知道，我們正在構建超級計算機，使其成爲模型的形狀。

黃仁勳：所以你們要解決什麽問題？

Lukasz Kaiser：機器翻譯。回想五年前，這個過程似乎非常艱難，你得搜集數據，可能進行翻譯，但結果可能隻是勉強正确。那時的水平還很基礎。但現在，這些模型即使沒有數據也能學會翻譯。你隻需提供一種語言和另一種語言，模型就能自行學會翻譯，這種能力就像自然而然地湧現出來的，而且效果令人滿意。

Llion Jones：但是，"Attention"的直覺就是你所需要的。所以我想出了這個标題，基本上發生的事情就是在我們尋找标題的時候。

我們隻是在做消融，開始把模型的一些碎片扔掉，隻是爲了看看它會不會變得更糟。令我們驚訝的是，它開始變得更好。包括像這樣扔掉所有的卷積效果要好得多。所以這就是标題的來源。

Ashish Vaswani：基本上有趣的是，我們實際上是從一個最基本的框架開始的，然後我們添加了東西，我們添加了卷積，我猜後來我們又把它們去掉了。還有多頭注意力等其他很多非常重要的東西。

黃仁勳：誰想出了Transformer的名字？爲什麽叫Transformer？

Jakob Uszkoreit：我們喜歡這個名字，我們隻是随便起了一個名字，覺得它很有創意，改變了我們的數據生産模式，使用了這樣一種邏輯。所有的機器學習都是Transformer，都是颠覆者。

Noam Shazeer：我們之前沒有想過這個名字，我覺得這個名字特别簡單，很多人都覺得這個名字特别好。我之前想過很多的名字，比如Yaakov，最終确定了"Transformer"，它描述了模型的原理，它實際上轉換了整個信号，按照這個邏輯，幾乎所有的機器學習都會被轉換。

Llion Jones：Transformer之所以成爲這樣一個人們耳熟能詳的名字，不僅僅是因爲翻譯的内容，而且是因爲我們希望以一種更概括的方式來描述這種變革。我不覺得我們做得多麽出色，但是作爲一個變革者，作爲驅動和引擎，它是有邏輯的。大家能夠了解到這樣一種大語言模型、引擎和邏輯，從架構上而言，這都是一個比較早的着手時期。

但是我們确實意識到，我們實際上是在嘗試創造一些非常非常通用的東西，它真的可以将任何東西變成其他任何東西。而且我不認爲我們預測到當Transformer被用于圖像時，這實際上會有多好，這有點令人驚訝。這對你們來說可能是合乎邏輯的，但事實上，你可以将圖像分塊并标記每個小點，對吧。我認爲這在建築上很早就存在了。

因此，當我們構建張量到張量庫時，我們真正關注的是擴大自回歸訓練的規模。這不僅僅是語言，還有圖像、音頻的組件。

所以盧卡什（Lukasz）說他正在做的是翻譯。我想他是低估了自己，所有這些想法，我們現在開始看到這些模式結合在一起，它們都加入了模型。

但實際上，一切都很早就存在了，這些想法正在滲透，這需要一些時間。盧卡什（Lukasz）的目标是我們擁有所有這些學術數據集，它們從圖像到文本，從文本到圖像，從音頻到文本，從文本到文本。我們應該對一切進行訓練。

這個想法确實推動了擴展工作，最終成功了，它是如此有趣，以至于我們可以将圖像翻譯成文本，将文本翻譯成圖像，翻譯文本到文本。

你正在用它來研究生物學，或生物軟件，它可能類似于計算機軟件，它以程序的形式開始，然後你将其編譯成可以在 GPU 上運行的東西。

一個生物軟件的生命始于某些行爲的規範。比如說，你想打印一個蛋白質，就像細胞中的特定蛋白質一樣。然後你學會了如何使用深度學習将其轉化爲RNA分子，但實際上一旦進入你的細胞，表現出這些行爲。所以這個想法真的不僅僅是翻譯成英語。

黃仁勳：你們是否創建了一個大型的實驗室來生産所有這些？

Aidan Gomez：大量可用，實際上仍然公開，因爲這些數據通常仍然主要由公共資助。但實際上，你仍然需要數據來清楚地說明你正在嘗試的現象。

嘗試在給定的産品中進行建模，比如說蛋白質表達和 mRNA 疫苗之類的東西，或者是的，在帕洛阿爾托，我們有一大堆機器人和穿着實驗室外套的人，既有學習研究人員，也有以前是生物學家的人。

現在，我們認爲自己是新事物的先驅，緻力于實際創建這些數據并驗證設計這些分子的模型。但最初的想法就是翻譯。

黃仁勳：最初的想法是機器翻譯，我想問的是，在架構的強化和突破中，看到的關鍵節點是什麽？以及它們對Transformer的設計有什麽影響？

Aidan Gomez：一路走來，你們都看到了，你認爲在基礎Transformer設計之上真的有很大的額外貢獻嗎？我認爲在推理方面，已經有大量的工作來加速這些模型，使它們更有效率。

我仍然認爲這有點讓我感到不安，因爲我們的原始形式是多麽相似。我認爲這個世界需要比Transformer更好的東西，我想我們在座的所有人都希望它能被某種東西所取代，将我們帶到一個新的性能高原。

我想問在座的每個人一個問題。你認爲接下來會發生什麽？就像這是令人興奮的一步，因爲我認爲它與 6-7 年前的東西太相似了，對吧？

Llion Jones：是的，我想人們會驚訝于你說的相似程度，對吧？人們确實喜歡問我接下來會發生什麽，因爲我是這篇論文的作者。就像魔法一樣，你揮動魔法棒，下一步會出現什麽？我想指出的是，這個具體的原理是如何被設計的。我們不僅需要變得更好，我們需要變得明顯地更好。

因爲如果它隻是稍微好一點，那麽這還不足以将整個人工智能行業推向新事物。因此，我們被困在原始模型上，盡管從技術上講，它可能不是我們現在擁有的最強大的東西。

但是每個人都知道自己想要什麽樣的個人工具，你們想做更好的上下文窗口，你們想要更快地産生token的生成能力。好吧，我不确定你是否喜歡這個答案，但他們現在使用了太多的計算資源。我認爲大家做了很多浪費的計算。我們正在努力提高效率，謝謝

黃仁勳：我覺得我們是讓這一切更加有效，感謝！

Jakob Uszkoreit：但我覺得這主要是關于如何分配資源，而不是一共消耗了多少資源。比如我們不希望在一個容易得問題上花太多錢，或者在一個太難的問題上花太少而最終得不到解決方案。

Illiya Polosukhin：這個例子就像2+2，如果你正确地将他輸入到這個模型中，它就會使用一萬億個參數。所以我認爲自适應計算是接下來必須出現的事情之一，我們知道在特定問題上應該花費多少計算資源。

Aidan Gomez：我們知道目前計算機的生成能力有多少，我覺得這是接下來需要集中注意力的問題，我覺得這是宇宙級的變革者，這也是未來的發展趨勢。

Lukasz Kaiser：這種概念在Transformer之前就存在了，它被整合進了Transformer模型中。實際上，我不确定在座的各位是否清楚，我們在最初的目标上并沒有成功，我們開始這個項目的初衷是想要模拟Token的演化過程。它不僅僅是線性的生成過程，而是文本或代碼的逐步演化。我們進行叠代，我們進行編輯，這使我們有可能不僅模仿人類如何發展文本，還能将他們作爲這一過程的一部分。因爲如果你能像人類那樣自然地生成内容，他們實際上就能夠提供反饋，不是嗎？

我們所有人都研讀過香農的論文，我們最初的想法是，隻專注于語言建模和困惑度，但事實上這并沒有實現。我認爲這也是我們能夠進一步發展的地方。這也與我們現在如何智能地組織計算資源有關，這種組織方式現在也适用于圖像處理。我的意思是，擴散模型具有一種有趣的特性，它們能夠通過叠代不斷地精煉和提升質量。而我們目前還沒有這樣的能力。

我的意思是，這個根本性問題：哪些知識應該内置于模型之中，哪些知識應該置于模型之外？是使用檢索模型嗎？RAG（Retrieval-Augmented Generation）模型就是一個例子。同樣地，這也涉及到推理問題，即哪些推理任務應該通過外部的符号系統來完成，哪些推理任務應該直接在模型内部執行。這在很大程度上是一個關于效率的讨論。我确實相信，大型模型最終會學會如何進行2+2這樣的計算，但如果你要計算2+2，卻通過累加數字來進行，那顯然是低效的。

黃仁勳：如果AI隻需要計算2+2，那麽它應該直接使用計算器，用最少的能量來完成這個任務，因爲我們知道計算器是做2+2計算的最有效工具。然而，如果有人問AI，你是如何得出2+2的決定的？你知道2+2是正确的答案嗎？這将耗費大量的資源？

Noam Shazeer：确實如此。你之前提到過一個例子，但我同樣确信在座的各位所研發的人工智能系統都足夠智能，能夠主動使用計算器。

目前全球公共産品（GPP）正是這樣做的。我認爲當前的模型太過經濟實惠，規模也還太小。它之所以便宜，是因爲像NV這樣的技術，感謝它的産出。

每次操作的計算成本大約是10到-18美元。或者說，大緻在這個數量級。感謝您創造了如此多的計算資源。但是，如果你觀察一個擁有五千億參數的模型，并且每個token進行一萬億次計算，大概是一美元百萬token，這比外出購買一本平裝書并閱讀的成本要便宜100倍。我們的應用程序在價值上比巨型神經網絡上的高效計算高出百萬倍或更多。我的意思是，它們無疑比治愈癌症等事情更有價值，但不僅如此。

Ashish Vaswani：我覺得讓世界更聰明，就是指如何去獲得來自于世界的反饋，我們能否實現多任務、多線的并行。如果你真的想構建這樣一個模型，幫助我們設計這樣一個模型，這是一種非常好的方式。

黃仁勳：能快速分享一下你們爲什麽創辦你們的公司嗎？

Ashish Vaswani：在我們公司，我們的目标是構建模型并解決新的任務。我們的工作是理解任務的目标和内容，并随着這些内容的變化來滿足客戶的需求。實際上，從2021年開始，我發現模型最大的問題在于，你不能僅僅讓模型變得更聰明，你還需要找到合适的人才來解讀這些模型。我們希望讓這個世界與模型相互交融，使模型變得更加龐大和卓越。學習過程中需要取得一定的進展，最初在實驗室的真空環境下是無法完成這些工作的。

Noam Shazeer：在2021年，我們共同創立了這家公司。我們擁有如此出色的技術，但這項技術并沒有惠及很多人。想象一下，如果我是一個病人，聽到你這樣說，我會覺得有數百億人他們需要完成不同的任務。這就是深度學習的意義所在，我們通過對比來提升技術。實際上，由于技術的不斷發展，得益于黃仁勳的推動，我們的終極目标是幫助全世界的人們。你們必須進行測試，我們現在需要開發更快的解決方案，讓數百人能夠應用這些應用程序。比如最初，并不是所有人都在使用這些應用，很多人使用它們隻是爲了娛樂，但它們确實有效，确實在工作。

Jakob Uszkoreit：感謝。我想談談我們創立的生态軟件體系。在2021年，我參與創立了這家公司，我們的目标是解決一些真正具有科學影響力的問題。過去，我們處理的内容相當複雜。但當我迎來第一個孩子時，我看待世界的方式發生了改變。我們希望讓人類的生活變得更加便利，也希望對蛋白質的研究做出貢獻。尤其是有了孩子之後，我更希望能夠改變現有的醫療架構，并且希望科學技術的發展能夠對人類的生存和發展産生積極影響。例如，蛋白質的結構和解構已經受到了一定的影響，但目前我們缺乏數據。我們必須基于數據做出努力，這不僅是職責，也是作爲父親的責任。

黃仁勳：我喜歡你的觀點，我總是對新醫藥設計充滿興趣，以及讓計算機學習新藥開發和生成的過程。如果能學習和設計新藥，并且有實驗室進行測試，就能确定這樣的模型是否可行。

Llion JonesLlion Jones：是的，我是最後一位分享者。我們共同創立的公司叫做Sakana AI，意思是"魚"。我們之所以用日本的"魚"來命名公司，是因爲我們像魚群一樣，自然啓發了我們尋找智能的靈感。如果我們能将許多檢驗的元素結合起來，就會創造出複雜而美妙的事物。許多人可能不了解這個過程和内容的具體細節，但我們内部的核心哲學是"學習永遠勝利"。

無論你是想解決問題，還是想學習任何内容，學習總會幫助你取得勝利。在生成式人工智能的過程中，學習内容也會幫助我們取得勝利。作爲在場的研究者，我想提醒大家，我們賦予計算機的AI模型真正的意義，讓它們真正幫助我們理解宇宙的奧秘。實際上，我也想告訴大家，我們即将宣布一項最新的進展，我們對此非常興奮。雖然我們現在擁有一系列的研究成果作爲基石，但我們正在經曆一種變革性的發展，目前的模型管理是有組織的，它讓人們真正參與進來。我們讓這些模型變得更加可行，使用這些大型模型和變革性的模式，改變人們對世界和宇宙的認知方式。這是我們的目标。

Aidan Gomez：我創立公司的初衷與Noam Shazeer相似。我認爲計算機正在進入一種新的模式，它正在改變現有的産品和我們的工作方式。一切都基于計算機，而且它在技術内部發生了一定的變化。我們的角色是什麽？我實際上是在彌合差距、彌合鴻溝。我們可以看到不同的企業創建這樣的平台，讓每個企業适應并融合産品，這是直接面向用戶的一種方式。這是我們推進技術的方式，我們能讓技術變得更加經濟、更加普及。

黃仁勳：我特别欣賞的是，當Noam Shazeer顯得特别平靜時，你卻顯得非常興奮。你們倆的個性差異真是鮮明。現在，請Lukasz Kaiser發言。

Lukasz Kaiser：我在OpenAI的經曆非常颠覆性。公司裏充滿了樂趣，我們處理着大量數據進行計算，但歸根結底，我的角色還是一個數據處理者。

Illiya Polosukhin：我是第一個離開的人。我堅信我們将取得重大進展，軟件将改變整個世界。最直接的方式就是教會機器編寫代碼，讓編程對每個人都變得可及。

在NEAR，我們的進展雖然有限，但我們緻力于整合人類智慧，獲取相關數據，比如進一步啓發人們，認識到我們需要一種基礎性的方法論。這種模式是基礎性的進展，這種大模型在全球範圍内被廣泛使用，它在航天等領域有衆多應用，它關乎各領域的交流與互動，實際上爲我們提供了能力。随着使用的深入，我們發現它帶來了更多的模型，目前并沒有太多關于版權的争議。

我們現在正處于一個全新的生成式時代，這是一個崇尚創新和創新者的時代，我們希望積極參與并擁抱變化，因此我們尋求不同的方法來幫助構建一個非常酷的模型。

黃仁勳：這種積極的反饋系統對我們整體經濟非常有益。我們現在能夠更好地設計經濟。有人提問，在這個GPT模型正在訓練數十億token規模數據庫的時代，下一步是什麽？新的模型技術将是什麽？你們想要探索什麽？你們的數據來源是什麽？

Illia Polosukhin：我們的起點是矢量和位移。我們需要真正具有經濟價值的模型，人們能夠對其進行評估，最終将你的技術和工具應用到實踐中，從而使整個模型變得更好。

黃仁勳：你如何對模型進行領域訓練？最初的互動和交互模式是什麽？是模型之間的交流和交互嗎？還是有生成式的模型和技術？

Illia Polosukhin：在我們團隊中，每個人都有自己的技術專長。

Jakob Uszkoreit：下一步是推理。我們都認識到了推理的重要性，但很多工作目前還是由工程師手工完成的。我們實際上是在教他們以一種交互式的問答方式去回答，我們希望他們能夠理解爲什麽在一起，一起提供強有力的推理模式。我們希望模型能夠生成我們想要的内容，這樣的生成方式是我們所追求的。無論是視頻、文本還是3D信息，它們都應該被整合在一起。

Lukasz Kaiser：我認爲，大家是否理解推理實際上來源于數據？如果我們開始進行推理，我們手頭有一系列數據，我們會思考這些數據爲何與衆不同？然後我們會了解到各種不同的應用，其實都是基于數據推理的過程。由于計算機的能力，由于這樣的系統，我們可以從那裏開始進一步發展。我們可以推理出相關的内容，進行實驗。

很多時候，這些都是源自數據的。我認爲推理的發展非常迅速，數據模型也非常重要，而且不久的将來會有更多交互性的内容。我們還沒有進行充分的培訓，這不是關鍵内容和要素，我們需要讓數據更加充實。

Noam Shazeer：設計一些數據，比如設計教學機器，可能涉及數百個、數億個不同的代币。

Ashish Vaswani：我想提出的一點是，在這一領域，我們有很多合作夥伴，他們取得了一些裏程碑式的進展。最好的自動化算法是什麽？其實是将真實世界的任務分解成不同的内容。我們的模型也非常重要，它幫助我們獲取數據，觀察數據是否處于正确的位置。一方面，它幫助我們關注數據；另一方面，這樣的數據爲我們提供了優質的模型來完成抽象任務。因此，我們認爲對這一進展的衡量，也是創意的一種方式，是科學發展的一種方式，也是我們自動化發展的一種方式。

黃仁勳：如果沒有良好的衡量體系，你就無法完成出色的工程。你們彼此之間有沒有想問的問題？

Illia Polosukhin：沒有人真正想要了解自己到底走了哪些步驟。但實際上，我們希望能夠了解、探索我們到底在做什麽，獲取足夠的數據和信息，進行合理的推理。比如，如果你有六步，但實際上你可以通過五步進行推理來跳過一步。有時候你不需要六步，有時候你需要更多步驟，那麽你要如何複現這樣的場景？你從Token進一步發展需要什麽呢？

Lukasz Kaiser：我個人的信仰是，如何複現這樣的大模型，這是一個非常複雜的過程。系統會不斷進步，但從本質上講，你需要設計一種方法。人類是善于複現的生物，在人類曆史中，我們不斷複現成功的場景。

黃仁勳：很高興能與各位交流，也希望你們有機會相互交流，産生難以言喻的魔法。感謝各位參與這次會議，非常感謝！

*本次對話活動于北京時間3月21日淩晨4點結束，爲了您能第一時間了解對話主要内容，本實錄僅爲快速整理和初步審校版本，供參考閱讀。

*本文系量子位獲授權刊載，觀點僅爲作者所有。

— 完 —

量子位 QbitAI

վ'ᴗ' ի 追蹤AI技術和産品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~