Meta首席AI科學家楊立昆演講：當前處于AI什麽階段，以及我們距離實現真正通用AI還有多遠？

The following article is from AI 深度研究員 Author AI 深度研究員

第二期華夏基石數智時代領導力特訓營熱招中！

報名即送十月管理論壇名額一個！價值 12800 元！

來源 | AI 深度研究員，管理智慧

咨詢合作 | 13699120588

文章僅代表作者本人觀點，圖片來源于 pixabay

人工智能 ( AI ) 正在飛速發展 , 但我們距離實現真正的人類水平 AI 還有多遠 ? 爲了深入探讨這個問題 , 最近 "AI 未來論壇 " 上我們有幸聆聽到了 AI 領域的頂尖專家楊立昆 ( Yann LeCun ) 教授的一些個人獨家觀點。

楊立昆是 Meta 公司的首席 AI 科學家和 Facebook AI 研究院 ( FAIR ) 的領軍人物 , 同時也是紐約大學教授。他在 AI 領域貢獻卓著 , 曾獲 2018 年圖靈獎等多項殊榮 , 并當選爲美國國家工程院院士。

近年來 ,AI 技術取得了顯著進展 , 尤其是自監督學習技術的崛起讓我們看到了希望。自監督學習的核心在于訓練系統有效表示輸入數據 , 而非針對特定任務。然而 , 現有的語言模型在推理能力和處理連續數據等方面仍存在局限。要實現真正的人類水平智能 , 我們仍需突破一些關鍵技術瓶頸。楊立昆認爲 , 這一目标的實現可能需要幾年到幾十年的時間 , 其難度可能超出我們的想象。盡管如此 , 他相信機器終将超越人類智能。

在本次演講中 , 他将深入探讨 AI 發展的現狀、挑戰及未來展望。

今天我要講的是人類水平的人工智能，或者說我們如何實現它，以及爲什麽我們現在還達不到這個目标。首先，我們确實需要具備人類水平的 AI，因爲未來大多數人可能都會戴着智能眼鏡或其他設備與之交流，這些設備會有助理系統，也許不止一個，而是一整套虛拟助手。這意味着每個人都會有一群智能的虛拟助手爲其服務，盡管這些助手不是實際的真人。

智能的虛拟助手

我們需要打造這些系統，以擴展人類的智能，提升人們的創造力和生産力。爲此，我們需要能夠理解世界的機器，它們要能夠記住事情，擁有直覺和常識，能夠像人類一樣推理和規劃。然而，盡管有人可能聲稱現有的 AI 系統已經能夠做到這些，但實際上，當前的 AI 系統根本無法實現這些功能。

我們需要的系統是那些能夠學習并建立世界模型的系統，它們需要有關于世界如何運作的 " 心理模型 "。實際上，所有動物都有這種模型，比如你家的貓，它的世界模型比任何現有的 AI 系統都要複雜得多。

當前的 AI 系統還缺乏持續的記憶能力，無法像人類一樣規劃複雜的行動序列，也無法做到完全可控和安全。因此，我提出了一種叫做 " 目标驅動的通用 AI"（Objective-driven AI）的架構，我兩年前寫了一篇關于這個構想的文章，并在 FAIR 内部得到了很多人的響應。現在，FAIR 更加注重于長期的、下一代 AI 系統的研究，而不再專注于當前的語言模型。

近年來，AI 技術的成功，尤其是自監督學習技術的崛起，讓我們看到了一些希望。自監督學習的核心思想是讓系統不是爲了某個特定任務進行訓練，而是爲了能夠以某種有效的方式表示輸入數據。比如，你可以通過讓系統從損壞的數據中重建完整的輸入來實現這一點。但現有的語言模型在很多方面仍存在局限，特别是在推理能力和處理連續數據上的不足。要想真正實現人類水平的智能，我們仍然缺少一些關鍵的技術。

我這裏并不是在談論人類水平的智能，但即便是你的貓或狗，它們也能完成一些令人驚歎的壯舉，而這些事情目前的 AI 系統仍然無法做到。比如，任何一個 10 歲的孩子隻需要一次就能學會收拾餐桌并裝滿洗碗機，根本不需要反複練習。而一個 17 歲的青少年通常隻需大約 20 小時的練習就能學會開車，但我們仍然沒有能夠實現完全自動駕駛的 5 級自動駕駛汽車，也沒有能夠幫忙清理餐桌、裝洗碗機的家用機器人。這說明我們确實缺少了一些關鍵的東西，否則我們應該早就能用 AI 系統完成這些任務了。我們經常碰到一個叫做 Moravec 悖論的現象，即那些看似對我們來說微不足道、不需要智能的任務，對機器來說卻非常困難，而那些高層次的、複雜的抽象思維，比如語言處理，反而對機器來說很容易，比如下棋或圍棋等。

大型語言模型

也許這背後的原因之一是這樣的：一個大型語言模型（LLM）通常在 20 萬億個詞元（tokens）上進行訓練。一個詞元大約是四分之三個單詞，而 20 萬億個詞元大約是 1.5 乘以 10 的 13 次方的單詞。這相當于大約 6 乘以 10 的 13 次方字節的數據，而普通人一生都不可能讀完這些數據，這基本上就是互聯網上所有公開的文本。

然而，一個 4 歲的小孩在其生命中清醒的時間大約是 16,000 小時，這相當于大約 30 分鍾的 YouTube 視頻上傳量。而我們每個人的視神經大約有 200 萬個神經纖維，每根纖維大約每秒傳輸一個字節，或者大約每秒半個字節。這些數據量大緻在 10 的 14 次方字節左右，和大型語言模型的訓練數據量處于同一個數量級。所以，這表明，僅靠文本訓練是不可能達到人類智能水平的。我們還需要訓練 AI 系統去理解常識和物理直覺，可能通過看視頻或在現實世界中學習。

系統通過找到與輸入最匹配的輸出值來計算輸出。你可以想象這個目标是某種能量函數，然後你通過對輸出進行優化來最小化這個能量。可能會有多個解，系統可以通過某種方式在這些解中進行選擇。人類的感知系統也會有類似的處理方式，當你對某個感知有多種解釋時，大腦會自動在這些解釋之間循環切換。這方面确實有一些證據表明此類現象存在。接下來，我回到架構的讨論。根據通過優化進行推理的原則，人們的思維方式可以假設爲這樣：你對世界進行觀察，感知系統給你提供當前世界狀态的一個想法，但它隻能給你當前能夠感知到的部分狀态。你可能會根據記憶對世界的其他狀态有所了解，這些記憶會與當前感知結合，被輸入到一個世界模型中。

什麽是世界模型呢？世界模型就是你對世界如何運作的心理模型。你可以想象自己采取的某些行動序列，并通過世界模型預測這些行動對世界的影響。你把假設的行動序列輸入到世界模型中，它會預測世界的最終狀态，或者整個世界狀态的變化軌迹。然後，系統會将這些預測結果輸入到一系列目标函數中，其中一個目标函數是衡量任務的完成度，其他目标則是一些 " 安全護欄 "，用于衡量這些行動是否對機器人或周圍的人類是安全的。

推理能力

推理過程是這樣的：不是通過學習，而是通過找到最優的行動序列來最小化這些目标。你可以通過搜索離散的選項來實現這一點，但這種方式效率不高。更好的方法是讓所有的模塊都是可微分的，然後通過梯度下降法更新行動序列。

這個想法其實并不新，已經有超過 60 年的曆史了，特别是在最優控制理論中，這種方法被稱爲模型預測控制。你有一個系統模型，比如火箭、飛機或機器人，你可以利用世界模型計算一系列控制命令的效果，然後優化這些命令，使運動達到你想要的目标。傳統的機器人運動規劃就是這樣完成的。新穎之處在于，我們現在要學習世界模型，并學習感知系統，以提取适當的抽象表示。在這個過程中，你可以構建一個包含所有這些組件的 AI 系統：世界模型、目标函數、演員模塊（用來找到最優的行動序列）以及記憶和感知系統等。

如果你的行動不是單個的，而是一系列行動，世界模型可以告訴你，在時間 T 的世界狀态下，采取某個行動後，時間 T+1 的世界狀态會如何變化。你可以多次運行世界模型來預測多個行動的效果，最終通過梯度優化找到能最小化成本的行動序列。潛變量（latent variables）基本上是可以在一組值中切換或從分布中抽取的變量，它們使得世界模型能夠在多個與觀察結果兼容的預測之間切換。因爲世界并不是完全可預測的，所以在做出預測時，你可能需要處理這種類型的不确定性。

更有趣的是，人類和許多動物能夠進行層次規劃。例如，如果你計劃從紐約到巴黎的旅行，你可以使用你自己的世界模型，規劃從現在的位置到巴黎的整個過程。但你不會詳細到每一步都涉及低級的肌肉控制，對吧？你不會每 10 毫秒就計劃一下要控制哪些肌肉來移動，而是進行更高層次的規劃。舉個例子，你計劃去巴黎時，首先會想到要去機場乘飛機。爲了去機場，你可能會考慮如何打車，這就是較高層次的計劃。然後，你再細化到如何從椅子上站起來，走到門口，按電梯按鈕等等。這種分層規劃在 AI 系統中如何實現，目前完全沒有解決方案。

我們需要如何去學習擁有多層次抽象能力的世界模型呢？這是一個大挑戰。人類和動物在非常小的時候就開始學習關于世界的基本概念，比如直覺物理。心理學家和認知科學家研究發現，嬰兒在學習語言之前，就已經開始理解一些基本的物理現象。比如，嬰兒很早就能分辨出動物和非動物的運動方式。物體的恒常性，即當一個物體被另一個物體遮擋時，它仍然存在，這也是嬰兒早期學會的概念。再比如，關于重力、慣性和動量的概念，嬰兒通常要到九個月大左右才能理解。

如果你給六個月大的嬰兒展示一個場景，比如一個小車從平台上推下去但卻漂浮在空中，六個月大的嬰兒可能不會注意到。但如果是十個月大的嬰兒，她會驚訝地看着這個場景，因爲她已經理解了物體應該掉下來。如果事情的結果出乎意料，這意味着她的世界模型有問題，因此她會更加注意，因爲這可能會影響她的安全。

神經網絡訓練

我們需要的學習方式非常類似于我們之前提到的自監督學習。比如，給系統輸入一個視頻，破壞其中的部分内容，然後訓練神經網絡去預測缺失的部分。如果我們能訓練系統像預測文本一樣預測視頻中的内容，或許它們就能學會常識。

壞消息是，我們已經嘗試了十年，但目前完全沒有成功。我們從未成功開發出能真正通過預測視頻像素來學習一般性世界知識的系統。雖然有一些生成漂亮視頻的系統，但它們并沒有學到真正的常識。但實際上，這些生成模型并不能很好地模拟物理世界，它們無法用來解決這個問題。我們曾經嘗試通過生成模型預測視頻中的下一幀，并期望系統能 " 神奇地 " 理解世界的結構，然而，這完全失敗了。我們嘗試了很多方法，曆時十年，但都未能成功。

失敗的原因是，未來有很多種可能性，而在離散空間（如文本中），雖然我們無法确切預測下一個詞是什麽，但可以生成所有可能詞的概率分布。然而，對于視頻幀，我們沒有一種有效的方式來表示視頻幀的概率分布。實際上，這個任務幾乎是不可能的。比如，我拿着攝像機拍下這個房間的一部分，然後停下視頻，接着讓系統預測接下來會發生什麽。系統可能會預測房間的剩餘部分，有牆，有坐着的人，密度可能和左邊的區域相似，但它絕不可能在像素級準确預測你們每個人的長相、牆的紋理以及房間的具體大小等細節。這些都無法準确預測。

爲了解決這個問題，我提出了一種稱爲 " 聯合嵌入預測架構 "（Joint Embedding Predictive Architecture, JEPA）的方法。這個想法就是放棄像素預測，而是學習一個抽象表示，然後在這個表示空間中進行預測。具體來說，這個架構通過編碼器對輸入的被損壞版本進行處理，得到一個表示；然後對目标也進行編碼，得到另一個表示，接着讓系統根據輸入表示來預測目标表示。而這個過程的關鍵是防止系統 " 崩潰 "，即學到一個恒定的表示，因爲這會使預測變得過于簡單但沒有信息量。

實際上，我們已經有大量的實驗證據表明，在圖像表示學習方面，最好的方法就是使用這種聯合嵌入架構。所有試圖通過重建來學習圖像表示的方法效果都不好。曾經有很多大型項目宣稱這些方法有效，但它們實際上并不奏效。最好的表現總是來自于使用聯合嵌入架構的模型。如果你思考一下，實際上這就是智能的本質——找到一個好的表示，使我們能夠進行預測。這也是科學的精髓。比如，如果你想預測行星的軌迹，盡管行星是一個非常複雜的對象，有氣象、溫度、密度等許多複雜的因素，但要預測它的軌迹，你隻需要知道六個數字：三個位置和三個速度，這就足夠了。

因此，預測的本質在于找到一個良好的表示。爲了防止系統 " 崩潰 "，我們需要一個成本函數來衡量從編碼器輸出的表示的 " 信息量 "，同時最小化表示空間中的預測誤差。這樣系統就能在信息提取和預測之間找到一種平衡。不過，衡量信息量的方式非常複雜，涉及到一些數學理論，比如訓練基于能量的模型和能量函數，但我今天沒有時間詳細講解這個部分。總的來說，我的建議是：放棄生成模型，轉向這種聯合嵌入預測架構，放棄概率模型，轉向基于能量的模型，也放棄對比學習方法。

強化學習

我之前沒提到這個，因爲馬上會講到這個話題，還會涉及到強化學習。不過，我已經講了十年了，這也是當前機器學習的四個最受歡迎的支柱之一，所以目前我并不太受歡迎（笑）。

其中一種方法是估計編碼器輸出的信息量，目前有大約六種方法可以實現這一點。我還漏了一種叫做 MMCR 的方法，它是我在紐約大學和 Flatiron 的同事提出的。這個想法是防止系統 " 崩潰 " 并生成常量。我們需要确保從編碼器輸出的變量有非零的标準差。你可以通過在一組樣本上應用一個成本函數，确保這些變量不會變成常量。這聽起來很簡單，但是系統可能會 " 作弊 "，讓所有變量相等或高度相關。因此，我們需要加入另一個項，最小化這些變量的協方差矩陣的非對角線項，以确保它們不相關。

當然，這還不夠，因爲變量可能依賴但不相關。于是我們采用了另一個技巧，将 Sx 擴展到更高維度的 Vx，然後在這個空間中應用方差協方差正則化。這種方法似乎有效，但實際上我在這裏最大化的是信息量的上限，我希望實際信息量也會随之增加。然而，我們并沒有信息量的下限，也不知道如何計算它。另一套方法叫做蒸餾方法，它的工作原理非常神秘。如果你想知道它具體是如何工作的，可以去問坐在這裏的 S. Guli，他寫了一篇相關的論文。我自己也有些疑惑，但它效果非常好。這種方法的核心是隻更新架構的一半，而不在另一半上反向傳播梯度，同時以一種特殊的方式共享權重。

有很多論文表明，這種方法在完全自監督學習的圖像表示上效果很好，尤其是當圖像的破損部分被遮蓋時。我們最近也有一些關于視頻的工作，通過遮蓋視頻中的部分内容，在表示空間中進行預測，并利用蒸餾技巧防止系統崩潰。這一方法也效果顯著。未來，如果我們成功實現這些目标，并最終開發出能夠推理、計劃并理解物理世界的系統，可能需要幾年甚至幾十年才能全部實現。馬克 · 紮克伯格一直問我需要多長時間才能做到這一點（笑）。如果我們成功，這些系統将成爲我們與數字世界互動的中介，它們将随時爲我們提供解答，成爲人類知識的儲存庫。

這些 AI 平台将會像互聯網一樣，成爲一種基礎設施，而不是一種産品。這些 AI 平台必須是開源的，我不需要向 IBM 的人解釋這一點，因爲 IBM 和 Meta 是 AI 聯盟的一部分，推動開源 AI 平台。我們需要這些平台開源，因爲我們需要讓 AI 助理能夠理解世界上的所有語言、文化和價值觀。而這不可能僅靠一家美國公司來實現。訓練和微調 AI 模型非常昂貴，隻有少數幾家公司能夠做到這一點。如果像 Meta 這樣的公司能夠提供開源的基礎模型，世界各地的公司就可以根據自己的需要對它們進行微調。

因此，開源 AI 不僅僅是個好主意，它對于文化多樣性，甚至是民主的保護，都是必要的。

總之，訓練和微調将由整個生态系統中的初創企業和其他公司完成。AI 初創公司的蓬勃發展，正是得益于這些開源 AI 模型的出現。要達到人類水平的 AI 可能需要幾年到幾十年，這中間有許多問題需要解決，幾乎可以肯定這比我們想象的要難。機器确實會超越人類的智能，但它們将會被控制，因爲它們是目标驅動的。我們賦予它們目标，它們就會完成這些目标。

原視頻鏈接：https://www.youtube.com/watch?v=4DsCtgtQlZU&ab_channel=Hudsonforum