我們和openAI聯創聊了聊GPT的局限性：這些局限兩年後可能就不存在了

圖片來源 @視覺中國

钛媒體注：自 Open AI 在 2019 年首次發布 GPT-2 大模型以來，我們就一直保持深度關注與聯系，2022 年 12 月初首款應用 ChatGPT 發布後，钛媒體也多次組織和參與了相關讨論。最近幾個月，關于 AI 與大語言模型幾乎每天都有争論，熱度不減。但 OpenAI 對于 GPT 新一代大模型的研發進展并未停止。

日前，钛媒體特約作者和研究員，"Eye on AI"播主 Craig Smith 于日前 GPT-4 發布之際，走進 openAI 并與 openAI 聯合創始人 & 首席科學家 Ilya Stutskever 進行了深入探讨。

我們把 Craig 和 Ilya Sutskever 深入交談的重要内容做了一個簡略整理，中文在钛媒體 App 上進行獨家發布。

OpenAI 是一個非營利性的人工智能研究機構，其分支機構卻很可能将成爲未來地球上最有利潤的實體之一，他們最新發布的 GPT-4 可以說是一個巨型系統，這個系統消耗了數十億字的文本——超過一個人類可能在一生中閱讀的數量。

GPT（Generative Pre-trained Transformer 的簡稱）代表 " 生成式預訓練大模型 "，這三個重要的單詞可以幫助我們理解這個荷馬史詩般的波呂斐摩斯。" 大模型 "（Transformer）是這個巨型系統核心算法的名稱。" 預訓練 "（Pre-trained）是指通過大量的文本語料庫進行教育，讓它理解語言的基本模式和關系——簡而言之，讓它了解世界。" 生成（Generative）" 意味着這種人工智能可以從這個基礎知識中創造新的思想。

在 Craig 與 openAI 聯合創始人深度聊完後，我們意識到，雖然當下，人工智能已影響了我們生活的許多方面，但 GPT 的出現，是更加先進、更加強大的人工智能，我們正在進入這個未知的領域，并值得花一點時間考慮一下這意味着什麽。

科技巨頭、研究者和投資者都似乎在瘋狂追求開發最先進的人工智能，馬斯克和許多人則在大聲質疑我們是否進展得太快，還有當下 chatGPT 可能産生的諸多社會問題，這些都是 GPT 自己尚沒有解決的問題，比如幻覺。

但這個問題并非完全無解，有數百個敏銳的頭腦正在考慮着反烏托邦的可能性——以及避免他們失控。未來是未知的，這種強大的新技術的影響與互聯網出現後，社交媒體的誕生一樣難以想象。會有好的，也會有壞的，但未來會有強大的人工智能系統，我們的孫子輩将會有更加強大的人工智能。這是無法阻止的。

但同樣重要的是不要過度反應，不要像烏龜一樣躲避現在照耀着我們的明亮的陽光。在荷馬史詩《奧德賽》中，獨眼巨人波呂斐摩斯把奧德修斯和他的船員困在他的洞穴裏，打算吃掉他們。但是奧德修斯設法讓這個巨人失明并逃脫了。人工智能不會吃掉我們。

Ilya Sutskever 是 OpenAI 的聯合創始人和首席科學家，是大型語言模型 GPT-4 和其公共後代 ChatGPT 的主要創造者之一，我認爲毫不誇張地說，他正在改變世界。

這也不是 Ilya 第一次改變世界了。他是 AlexNet 的主要推動力量，這是一個卷積神經網絡，其驚人的性能在 2012 年震驚了科學界，引發了深度學習革命，也改變了曾經人們對人工智能的絕望，改變了大家曾經更深蒂固的 " 計算機不能學習 " 的認識。曾經計算科學的局限性，今天早已不複存在，而今天 GPT 的局限性，Ilya Sutskeve 本人同樣也沒有那麽悲觀。

CRAIG：Ilya，我知道你出生在俄羅斯。你是因爲對計算機科學感興趣還是其他原因，比如神經科學，才進入這個領域的呢？

ILYA：确實，我出生在俄羅斯。我在以色列長大，然後作爲一個少年，我的家人移民到了加拿大。我父母說我從小就對人工智能感興趣。我也對意識非常感興趣，它讓我感到非常不安，我很好奇什麽可以幫助我更好地理解它。

我 17 歲時就開始和 Geoff Hinton（钛媒體 App 編者注：" 深度學習 " 三巨頭之一，有着 AI 教父之稱，當時是多倫多大學的教授）一起工作了。因爲我們搬到了加拿大，我立刻就能加入多倫多大學。我真的很想做機器學習，因爲那似乎是當時完全無法訪問的人工智能最重要的方面。

那是 2003 年。我們現在認爲計算機可以學習，但是在 2003 年，我們認爲計算機無法學習。當時人工智能的最大成就是 Deep Blue（IBM 旗下機構）的象棋引擎（在 1997 年擊敗世界冠軍加裏 · 卡斯帕羅夫）。

但是，你有這個遊戲和這個研究，以及一種簡單的方法來确定一個位置是否比另一個位置更好。它确實感覺不可能适用于現實世界，因爲沒有學習。學習是一個巨大的謎團。我對學習非常感興趣。出于我的大運氣，Geoff Hinton 是大學的教授，我們幾乎馬上就開始合作了。

那麽智能是如何工作的呢？我們如何讓計算機變得更加智能？我有一個非常明确的意圖，就是爲人工智能做出非常小但真正的貢獻。人工智能在當時是一個令人絕望的領域。所以，我的動機就是，我能否理解人工智能是如何工作的？還有能否爲之做出貢獻？這就是我的最初動機。這幾乎是 20 年前的事了。

Craig：然後是 AlexNet，我們和 Geoff Hinton 教授談過了，他說，正是你對卷積神經網絡的突破感到興奮，才讓你申請了 ImageNet 比賽，Alex 具備了訓練網絡的編碼技能。

ILYA：簡言之，我意識到，如果你在一個很大的數據集上訓練一個大的神經網絡——對不起，很大，而且很深，因爲當時深層部分還是新的——如果你在足夠大的數據集中訓練一個很大和很深的神經網絡，它指定了人們要做的一些複雜任務，比如視覺，隻要訓練神經網絡，你就一定會成功。它的邏輯是非常不可簡化的，我們知道人腦可以解決這些任務，并且可以快速解決。而人類的大腦隻是一個由慢速神經元組成的神經網絡。

所以，我們知道一些神經網絡可以做得很好。因此，我們隻需要采用一個較小但相關的神經網絡，并在數據上對其進行訓練。計算機内部最好的神經網絡将與我們執行這項任務的神經網絡有關。

所以，有一種觀點認爲，神經網絡，大型和深度神經網絡可以解決這項任務。此外，我們有訓練它的工具。這是傑夫實驗室技術工作的結果。所以，你把兩者結合起來，我們可以訓練這些神經網絡。它需要足夠大，這樣如果你訓練它，它就會很好地工作，而且你需要數據，它可以指定解決方案。有了 ImageNet，所有的成分都在那裏。Alex 有這些非常快的卷積核。ImageNet 有足夠大的數據，有一個真正的機會做一些前所未有的事情，而且它完全成功了。

CRAIG：是的。這就是監督學習和卷積神經網絡。2017 年，《注意力就是你所需要的一切》論文發表，介紹了自我注意力和 transformers 大模型。那麽 GPT 項目是從什麽時候開始的？有沒有關于大模型的直覺？

ILYA：是的。

ILYA：從 OpenAI 成立之初起，我們就在探索一個想法，即預測下一個東西就是你所需的一切。我們用當時更受限制的神經網絡探索這個想法，但我們希望，如果你有一個神經網絡可以預測下一個單詞，它将解決無監督學習。所以，在 GPT 之前，無監督學習被認爲是機器學習的聖杯。

現在它已經被完全解決，甚至沒有人談論它，但它曾是一個神秘的問題，因此我們在探索這個想法。我非常興奮，因爲預測下一個單詞足夠好，将爲你提供無監督學習。

但我們的神經網絡無法勝任此任務。我們使用的是遞歸神經網絡。當 transformers 出現時，就在論文發表的第二天，我們立即意識到，transformers 解決了遞歸神經網絡的局限性，解決了學習長期依賴關系的問題。

這是一個技術問題，我們立即轉向 transformers。因此，nascent 的 GPT 項目便開始使用 transformer。它開始工作得更好，你讓它變得更大，然後你繼續讓它變得更大。

這就産生了最終的 GPT-3，成就了基本上是我們今天所處的位置。

CRAIG：我對它很感興趣，但我也想了解大型語言模型或大型模型的問題或缺點。目前存在的大型語言模型的限制在于它們的知識被包含在它們訓練的語言中。而大部分人類知識，我認爲每個人都會同意，是非語言的。

它們的目标是滿足提示的統計一緻性。它們沒有關于語言所關聯的現實的基本理解。我詢問了 ChatGPT 關于自己的信息。它認識到我是一名記者，曾在各種報紙工作，但它繼續講述了我從未獲得過的獎項。它讀起來非常流暢，但其中很少與底層現實相連。在你們未來的研究中，是否有措施來解決這個問題？

ILYA：所以，在我對你提出的問題發表直接評論之前，我想對相關一些更早期問題發表評論。

CRAIG：當然。

ILYA：我認爲很難談論極限或局限性，甚至像語言模型這樣的東西。因爲兩年前，人們自信地談論自己的局限性，現在他們完全不同了，對吧？因此，重要的是要牢記這一曆史過程。我們有多大信心相信，我們今天看到的這些限制在兩年後仍将存在？我沒有那麽大信心，可能兩年後就不存在了。

關于這個問題的一部分，我想發表另一個評論，那就是這些模型隻是學習統計規律，因此它們并不真正知道世界的本質是什麽。

我的觀點與此不同。換言之，我認爲學習統計規律比人們表面上看到的要更重要得多。我們最初不這麽認爲的原因是因爲我們沒有——至少大多數人，那些沒有花很多時間研究神經網絡的人，這些網絡在某種程度上是統計的，比如什麽是統計模型？

預測也是一個統計現象。但是要進行預測，您需要理解生成數據的基本過程。您需要了解越來越多關于産生數據的世界的知識。

随着我們的生成模型變得非常出色，它們将具有我所說的對世界及其許多微妙之處的驚人的理解程度。這是通過文本所呈現的世界。它試圖通過在互聯網上人類表達的文本空間上對世界進行投影來學習越來越多關于世界的知識。

但是，這些文本已經表達了世界。我給您舉個最近的例子，我認爲這個例子非常有趣和啓示性。我們都聽說過 Sydney 是它的化身。當用戶告訴 Sydney 它認爲谷歌是比必應更好的搜索引擎時，我看到了這個真正有趣的交互，Sydney 變得好鬥和攻擊性。

如何思考這種現象？這意味着什麽？您可以說，它隻是預測人們會做什麽，人們确實會這樣做，這是真的。但也許我們現在正在達到一個語言心理學的水平，開始利用它來理解這些神經網絡的行爲。

現在讓我們來談談這些神經網絡的限制。事實上，這些神經網絡有産生幻覺的傾向。這是因爲語言模型非常擅長學習世界知識，但在生成良好輸出方面則略顯不足。這其中存在一些技術原因。語言模型在學習各種思想、概念、人物、過程等世界知識方面表現非常出色，但其輸出卻沒有達到預期的水平，或者說還有進一步提升的空間。

因此，對于像 ChatGPT 這樣的語言模型，我們引入了一種額外的強化學習訓練過程，稱爲 " 人類反饋強化學習 "。

我們可以說，在預訓練過程中，我們希望它能夠學習關于世界的一切。而在來自人類反饋的強化學習中，我們更關心輸出結果。我們說，任何時候如果輸出結果不恰當，就不要再這樣做了。每當輸出結果不合理時，就不要再這樣做了。這樣它就能夠快速學會生成良好的輸出。但這種良好的輸出水平并不在語言模型預訓練過程中出現。

至于幻覺，它有時會胡言亂語，這也大大限制了它們的用途。但我非常希望，通過簡單地改進後續的人類反饋強化學習步驟，我們就能夠教它不再産生幻覺。你可能會問，它真的能學會嗎？我的答案是，讓我們拭目以待吧。

克雷格：如果 ChatGPT 告訴我獲得了普利策獎，但不幸的是我沒有獲得，我可以告訴它這是錯誤的，是訓練它還是創造一些懲罰或獎勵，以便下次我問它時，更準确。

ILYA：我們今天做事的方式是雇傭人來教我們的神經網絡行爲，教 ChatGPT 行爲。現在，他們指定所需行爲的方式，确切的方式有點不同。但事實上，你所描述的是教學的基本方式，這是正确的教學方式。

你隻需要與它進行互動，它就能從你的反應中推斷出你想要的東西，當你輸出不滿意，它會推斷，哦，這不是你想要的，下次應該采取不同的做法。我認爲這種方法完全有可能完全解決幻覺的問題。

CRAIG：我想和你談談 Yann LeCun（Facebook 的首席人工智能科學家和另一位深度學習的早期先驅）在聯合嵌入預測架構方面的工作。他認爲，語言模型可以參考它，但大型語言模型缺少的是非語言的基礎世界模型。我想聽聽你對此的看法，以及你是否已經進行了相關的探索。

ILYA：我已經回顧了 Yann LeCun 的提議，其中有很多想法，它們用不同的語言表達，與當前的範式可能有一些微小的差異，但在我看來，它們并不是很重要。

我想詳細說明一下。第一種說法是，一個系統需要有多模态的理解能力，而不僅僅是從文本中了解世界。我對此的評論是，多模态理解确實是可取的，因爲你對世界了解得更多，對人了解得更多、對他們的狀況了解得更多。因此，系統将能夠更好地理解應該解決的任務，以及人們和他們想要什麽。

最值得注意的是，我們在這方面已經做了很多工作，尤其是通過兩個主要的神經網絡。一個叫 Clip，一個叫 Dall-E。它們都朝着這個多模态的方向發展。但我也想說，我也不認爲這種情況是二元的非此即彼的局面，或者如果你沒有視力，如果你不能從視覺或視頻中理解世界，那麽事情就不會奏效。

我想爲這個觀點辯護。我認爲從圖像和圖表中學習某些事情要容易得多，但我認爲你仍然可以僅從文本中學習它們，隻不過需要更長的時間。舉個例子，考慮顔色的概念。

當然，你不能僅從文本中學習顔色的概念，但當你看一下嵌入時——我需要稍微解釋一下嵌入的概念。每個神經網絡通過 " 嵌入 " 表示單詞、句子和概念，這些嵌入是高維向量。

我們可以查看這些高維向量，看看什麽類似于什麽，網絡是如何看待這個概念或那個概念的。因此，我們可以查看顔色的嵌入，它知道紫色比紅色更接近藍色，知道紅色比紫色更接近橙色。它隻是通過文本就知道這些東西。這是如何做到的呢？

如果你有視覺，顔色之間的差異就會立刻顯現出來。你會立即感知它們。而對于文本，你需要更長的時間，也許你知道如何說話，已經理解了語法、單詞和語法，隻有在以後才會真正理解顔色。

所以，這就是我關于多模态性必要性的觀點：我認爲它不是必要的，但肯定是有用的。我認爲這是一個值得追求的方向。我隻是不認爲它是非此即彼的。

因此， [ LeCun ] 的提案聲稱預測具有不确定性的高維向量是一個重大挑戰之一。

但我發現令人驚訝的是，在這篇論文中未被承認的是，當前的自回歸大模型已經具備了這種屬性。

我來舉兩個例子。一個是，給定一本書中的一頁，預測下一頁。可能會有很多可能的下一頁。這是一個非常複雜、高維的空間，但他們可以很好地處理。同樣适用于圖像。這些自回歸大模型在圖像上工作得非常完美。

例如，像 OpenAI 一樣，我們已經在 iGPT 上工作了。我們隻是拿了一個大模型，将其應用于像素上，它表現得非常出色，可以以非常複雜和微妙的方式生成圖像。Dall-E 1 也是一樣。

因此，在我看來，論文中強調現有方法無法處理預測高維分布的部分，我認爲它們肯定可以。

CRAIG：關于這個想法，即使用人類訓練師的隊伍來與 ChatGPT 或大型語言模型一起進行強化學習，就直覺而言，這似乎不是教授模型了解其語言底層現實的有效方法。

ILYA：我不同意問題的措辭。我認爲我們的預訓練模型已經知道了它們需要了解的關于底層現實的一切。它們已經掌握了語言方面的知識，以及關于産生這種語言的世界進程的大量知識。

大型生成模型學習它們的數據——在這種情況下，是大型語言模型——是産生這些數據的真實世界進程的壓縮表示，這意味着不僅涉及人和他們的想法、感受，還涉及人們所處的狀态和彼此之間的交互作用。一個人可能處于不同的情境中。所有這些都是通過神經網絡來表示并生成文本的壓縮進程的一部分。語言模型越好，生成模型就越好，保真度就越高，它就能更好地捕捉這個過程。

現在，正如你所描述的那樣，這些教師的确也在使用人工智能輔助。這些教師不是獨自行動的，他們正在使用我們的工具，而工具則承擔了大部分的工作。但是，你确實需要有人來監督和審核他們的行爲，因爲你希望最終實現非常高的可靠性。

确實有很多動機使它變得盡可能高效和精确，以使得最終的語言模型行爲盡可能地好。

是的，這些人類教師正在教授模型所需的行爲。他們使用人工智能系統的方式不斷提高，因此他們自己的效率也在不斷提高。

這有點像是一種教育過程，如何在世界上表現良好。

我們需要進行額外的培訓，以确保模型知道幻覺永遠不可行。而這種強化學習人類教師循環或其他變體将教它。

某種東西應該會奏效。我們很快就會找到答案。

CRAIG: 你現在的研究方向是什麽？

ILYA: 我不能詳細談論我正在從事的具體研究，但是我可以簡單地提到一些廣義的研究方向。我非常有興趣使這些模型更加可靠、可控，讓它們從教材數據中更快地學習，減少指導。讓它們不會出現幻覺。

CRAIG: 如果你有足夠的數據和足夠大的模型，你能否在數據上訓練模型，讓其針對一些看似無法解決的沖突得出一種讓每個人都滿意的最佳解決方案。你是否思考過這将如何幫助人類管理社會？

ILYA: 這是一個非常大的問題，因爲這是一個更加未來的問題。我認爲我們的模型仍有許多方面将比它們現在的能力更強大。

如何使用這項技術作爲各種建議的來源，政府使用它的方式是不可預測的。我認爲未來可能發生的一件事是，因爲你有這些神經網絡，它們将會如此普及，對社會産生如此巨大的影響，我們将發現有必要讓一個國家的公民向神經網絡提供一些信息，關于他們想要事物的樣子。我可以想象這種情況發生。你可以從每個公民那裏獲得更多的信息并将其聚合，具體說明我們想讓這樣的系統如何行動。現在它打開了許多問題，但這是未來可能發生的一件事。

但是什麽意味着分析所有變量呢？最終會有一個選擇，你需要決定哪些變量非常重要，需要深入研究。因爲我可以讀一百本書，或者我可以仔細慢慢地讀一本書，從中獲得更多的收獲。所以這方面肯定有一些元素。另外，我認爲在某種程度上，全面理解一切可能是根本不可能的。我們來看一些更容易的例子。

每當有任何複雜的情況出現在社會中，甚至在公司中，即使是中型公司，它已經超出了任何單個個人的理解能力。而且，如果我們以正确的方式構建我們的人工智能系統，我認爲人工智能在幾乎任何情況下都可以提供極大的幫助。

（本文作者｜ Craig S. Smith ，編輯｜趙何娟，中文版内容獨家首發钛媒體 App）

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App