AI 對人類世界的學習能力,到目前爲止仍然停留在語言層面。
喂給大模型語料——最初是維基百科和 Reddit,後來擴展到音頻、視覺圖像甚至雷達和熱圖像——後者廣義上說是換了種表達方式的語言。也因此有生成式 AI 的創業者認爲,一個極度聰明的大語言模型就是那個通往 AGI 最終答案,多模态的研究道路隻是處于目前對前者的底氣不足。
我們對未知生命族群的想象力以此爲限(如果矽基生命也算的話)。當談起外星生命,沖進腦子裏的第一個想法是外星語言,《三體》裏三體人的第一次亮相也是關于語言。這是人類文明的操作系統,推己及人,語言也會是其他文明的操作系統。《人類簡史》的作者尤瓦爾 · 赫拉利在今年 5 月公開表達了他對生成式 AI 的擔憂,掌握了人類語言的 AI,已經有能力黑進人類的整個文明背後。
但 AI 對人類語言資源的占領,也是人類目前對 AI 威脅性的想象極限。換句話說,無法抽象成語言被表達和記錄的東西,AI 學不會。而世界處處是秀才遇到兵的故事,讀萬卷書不如行萬裏路,從周圍環境中獲取生活經驗的本事,是人類面對 AI 的靈魂拷問時最後的自留地。
圖源:《三體》
直到 DeepMind 帶着一篇新的論文出來,說這塊最後的自留地咱說不定也守不住了。
DeepMind 高級研究工程師,平時還顧着張羅一些非洲 AI 技術社群的 Avishkar Bhoopchand,和在各種遊戲公司做了 5 年然後去了 DeepMind 的 Bethanie Brownfield 領銜的一支 18 人研究團隊,最近在《自然》雜志上發表了一篇新的研究成果。
簡單來說,他們在一個 3D 模拟環境中,用神經網絡結合強化學習訓練出了一個智能體,這個智能體從未使用過任何預先收集的人類數據,但從零開始學習周遭的模拟環境,習得了人類行爲。
在這場實驗裏,AI 和 "Culture(文化)" 這個概念聯系在一起,這好像是第一次。
廣義上,談及人類的 " 智力 ",可以簡單理解成有效獲取新知識、技能和行爲的能力。更實際點說,也就是如何在适當的情境中通過一系列行動以達成目标的能力。比如:
如何動用公式和輔助線解一道幾何題。
如何把小紅書上看到的一個菜譜變成晚飯餐桌上的一道菜。
如何開一家賺錢的公司。
都是智力的體現。
這篇論文裏提到的例子更簡單些——如何在一場遊覽活動中跟住導遊,或者如何跟同事介紹一台打印機怎樣用。
事實上,我們具備的很多技能都不是一闆一眼學來的——比如如何教同事用一台打印機,反而人類的智力特别依賴于我們從其他人那裏高效獲取知識的能力。這種知識被統稱爲文化,而從一個個體傳遞知識到另一個個體的過程被稱爲文化傳播(cultural transmission)。
文化傳播是一種社會行爲,它依賴整個群體在實時中以高保真度和高回憶率從彼此那裏獲取和使用信息,這最終導緻了技能、工具和知識的積累和精煉,以及最終形成文明的,在個體甚至代際間高度穩定發生的知識轉移。而這整個過程并不是從一套經過設計的書籍或視頻課開始的。
當 AI 研究者在擔心喂給大模型的語料會在 5 年後枯竭,這首先建立在 AI 存在一個巨大的能力盲區的基礎上,也就是直接從環境中将發散信息抽象化的能力。
DeepMind 在智能體的訓練中引入了 GoalCycle3D ——一個在 Unity 中構建的 3D 物理模拟任務空間。看這張圖片可以知道,這個空間存在崎岖的地形和各種障礙物,而在障礙物和複雜地形之間有着各種顔色的球形目标,按特定循環順序經過目标球體會獲得積極獎勵。
圖源:Nature
DeepMind 在這個空間中設置了具有 " 上帝視角 ",如何行動能夠拿到獎勵的紅色方智能體,藍色方智能體則是毫無遊戲經驗的 " 被訓練方 "。
拿到高分獎勵即被視爲一種 " 文化 "。一個完全沒有遊戲背景的智能體所具有的文化傳播(CT)值爲 0,一個完全依賴專家的智能體 CT 值設爲 0.75。一個在紅色方在場時完美跟随,并在紅色方離開後仍能繼續獲得高分的智能體的,CT 值爲 1。
實驗的結果是,在一個随機生成的虛構世界中,藍色方智能體依靠強化學習完成對這種 " 得高分 " 文化的習得和超越,而這經曆了 4 個不同的訓練階段。
第一階段,藍色方開始熟悉任務,學習表示、運動和探索,但在得分上沒有太大改善。
第二階段,藍色方體有了足夠的經驗和失敗嘗試,學會了它的第一個技能:跟随紅色方。它的 CT 值最終到達了 0.75,表明了一種純粹的跟随。
第三階段,藍色方記住了紅色方在場時的有獎勵循環,并在紅色方不在場時能夠繼續解決任務。
最終的第四階段,藍色方能夠獨立于紅色方智能體的引導,以自己的路線來取得更高分數。這表現在訓練文化傳播度量回落至 0 ——也就是藍色方不跟着紅色方走了——但同時得分繼續增加。更準确地說,藍色方智能體在這個階段顯示出了一種 " 實驗 " 行爲,甚至開始使用假設檢驗來推斷正确的循環,而不是參考機器人,也因此,藍色方最終超越了紅色方,更有效地得到了循環獎勵。
這個以模仿學習開始,然後借助深度強化學習來繼續進行自我優化甚至找到超越被模仿着的更優解的實驗,表明 AI 智能體能夠通過觀察别的智能體的行爲來學習并模仿這些行爲。而這種從零樣本開始,實時、高保真地獲取和利用信息的能力,也非常接近人類跨代積累和精煉知識的方式。
這項研究被視爲向人工通用智能(AGI)邁進的一大步,而如此重要的一步,DeepMind 又是在一場遊戲裏完成的。
DeepMind 曾經在另一種遊戲中用零樣本的方式完成過一次颠覆,隻不過那次它颠覆的就是自己。而那個遊戲——對,就是圍棋。
2016 年 3 月 12 日,李世石投子認負。這意味着人類在圍棋這項人類自己創造的計算遊戲中一敗塗地,而甚至沒有坐在對面的 AlphaGO,在幾個月的時間裏完成了 16 萬局棋譜的訓練。
然後 AlphaGO 被擊敗了。
擊敗 AlphaGO 的是 AlphaGO Zero ——一個從沒有看過任何棋譜,僅從圍棋的基本規則開始一步步自學而成的 AI 棋手。那個紀念擊敗李世石的 AlphaGO 版本被稱作 AlphaGO Lee,AlphaGO Zero 以 100:0 的戰績完全擊敗了 AlphaGO Lee,而前者那時候僅僅訓練了 3 天。
那時的 AlphaGO Zero 如同現在藍色方智能體在 GoalCycle3D 裏所呈現的一樣,沒有無監督學習,沒有使用任何人類經驗,最終跟上并且擊敗了自己的前輩。
在 2016 年以實習生身份進入 DeepMind 的 Richard Everett,也是這篇論文的 18 人之一。玩電子遊戲時人類玩家和看似智能的電腦控制玩家之間的互動讓他着迷,也最終引導他進入了人工智能領域。這個關于 "AI 學習文化傳播 " 的項目是他在 DeepMind 最喜歡的項目之一。
圖源:深度強化學習實驗室
" 在世界上最大的糖果店裏做個孩子 ",Richard Everett 這樣描述他在 DeepMind 的工作感覺。而這篇論文的研究,要歸功于來自藝術家、設計師、倫理學家、項目經理、QA 測試人員以及科學家、軟件工程師、研究工程師之間超過兩年的密切合作。
AlphaGO Zero 的成功讓 DeepMind 在 AGI 研究中繼續堅持着深度強化學習的技術路線,這才有了 GoalCycle3D 裏所呈現的一切。現在這場通往 AGI 的大型遊戲實驗仍在繼續。X 平台上,Google DeepMind 主頁下最新鮮的一條推文是:
" 歡迎 Gemini。"
論文地址:https://www.nature.com/articles/s41467-023-42875-2