ChatGPT 和 GPT-4 引發全球地震,很多人都在思考一個問題:OpenAI 的成功路徑是什麽?
在中國 AIGC 産業峰會現場,啓元世界創始人兼 CEO 袁泉給出了他的答案,它很好地融合了三大時代紅利。
三個紅利具體如下:
一是摩爾定律帶來的算力紅利,尤其是 GPU 的算力;
二是算法的并行性帶來規模可擴展的紅利;
三是對無标注數據探索的紅利。
2017 年,Transformer 出現後,OpenAI 很快将這三點融合在一起,推出了 GPT-1,而後 GPT-2、GPT-3 ……
ChatGPT 破圈之後,人們對 AGI 有了更多的理解和認識,而國内,啓元世界也于早幾年起開始在 AGI 方向探索。
啓元世界成立于 2017 年。當時,幾個聯創在紐約聽了 AlphaGo 創始人之一 David Silver 關于 AlphaGo 戰勝李世石的分享,其中談到了背後包含 DL 和 RL 的 AGI 技術,從而激發了他們對 AGI 的興趣。
成立後,啓元世界開始沿着 AGI 路徑,以遊戲爲切入點,逐漸從互聯網、元宇宙破圈。這一次,在總結 OpenAI 的成功路徑後,關于踐行 AGI 這件事,袁泉在活動現場分享了啓元視角下的觀點。
爲了完整體現他的思考,在不改變原意的基礎上,量子位對其演講内容進行了編輯整理。
中國 AIGC 産業峰會是由量子位主辦的行業峰會,近 20 位産業代表與會讨論。線下參與觀衆 600+,線上收看觀衆近 300 萬,得到了包括 CCTV2、BTV 等在内的數十家媒體的廣泛報道關注。
演講要點:
ChatGPT 是站在三大技術紅利之上的一個劃時代産物;
在特定問題空間中,幾千萬參數的 transformer 就能取得不錯的效果;
未來 5 到 10 年,AGI 的重點是元宇宙,因爲元宇宙的本質是互聯網豐富的語料、交互和 3D 開放世界遊戲的合體;
湧現能力除了與模型大小相關,還可能和問題領域的規模、AGI 是否已在這個領域充分探索,都有一定關聯;
将 AIGC 融入遊戲制作階段,如遊戲策劃,尤其是數值策劃等,會優化整個遊戲數值生态的平衡性。
以下爲袁泉演講全文:
站在三大技術紅利之上的劃時代産物
ChatGPT 破圈之後,大家都在分析 OpenAI 的成功路徑。這裏我也談一些啓元的思考和實踐。
從技術角度看,我們覺得 ChatGPT 是站在三大技術紅利之上的一個劃時代産物。
一個紅利是摩爾定律帶來算力紅利,尤其是 GPU 的算力,可能超過摩爾定律的提升速度。
第二大紅利就是算法的并行性所帶來的 scalable 的紅利。2017 年底、Transformer 出現之前,DL 的算法,尤其用于做序列數據、序列決策的算法,主要以 LSTM(Long Short-Term Memory,長短期記憶網絡)爲主,很難并行化。
Transformer 發布第二天,Ilya Sutskever(OpenAI 聯合創始人兼首席科學家)就看到它的并行性以及長語境能帶來的好處,于是研究轉向以此爲基礎。
第三大紅利就是大數據中的未标注數據。我個人覺得,從 2016 年起,OpenAI 就對它開始看重。
GPT-1 就是把這三點較好融合在一起的産物,GPT-2 在其基礎上拓展了 10 倍,GPT-3 又拓展了 100 倍,這讓業界十分吃驚。
RL 之父、DeepMind 研究科學家 Richard Sutton 在 2019 年就提到,之前幾十年,AI 發展過程走的最大的彎路,就沒有用可擴展性來進行研究。
但 OpenAI 很快把這一套踐行到 GPT 系列大模型上。
踐行 AGI 發展路徑的啓元方式
啓元是怎麽踐行 AGI 發展路徑的呢?
第一個階段,從 2017 年開始,啓元用 3 年時間主要在包括《星際争霸》等遊戲世界裏探索 AGI。
從零開始,隻用少量的、5000 局中韓高手遊戲錄像作爲啓動,在遊戲中訓練 AGI。
一個比較有意思的現象是,在特定問題空間中,幾千萬參數的 transformer 就能取得不錯的效果。基于此,啓元把它優化後用到了遊戲行業最主流的 7 大品類遊戲中。
第二階段是遊戲世界往互聯網世界破圈。2016 年左右,OpenAI 就開始探究在互聯網上是否也能夠基于 DL、RL 甚至 AGI 來訓練很強的智能體。
Transformer 出來後,OpenAI 發現 scalable 的方法,這也讓全世界發現把 AGI 技術用在價值大于遊戲行業 100 倍的互聯網裏,能創造更大的商業價值和社會價值,帶來很多機會。
第三個階段,可能也是未來 5 到 10 年的重點,就是元宇宙。我們認爲元宇宙的本質是互聯網豐富的語料、交互和 3D 開放世界遊戲的合體。
AIGC 如何催生元宇宙、在元宇宙中如何訓練 AGI,使得它能力越來越強,能夠完成更多的任務,可能也是未來非常有價值的命題。
最後一步可能是AGI 虛實遷移,服務或者應用于現實世界中。
啓元世界的發展過程則主要分兩個階段。
第一階段是前三年,主要是在各類遊戲中訓練決策大模型爲主,參數級别在幾千萬或者一億以内,能夠讓 AI 用小樣本做啓動,甚至從零開始做啓動,探索這一類任務的邊界。
第二階段是從 2021 年開始,我們開始做 10 億到 100 億參數的語言模型。
背後原因是我們覺得模型的參數大小其實和所解決任務空間的大小、任務下能夠收集到高質量語料高度相關。在我們看來,10 億到 100 億規模,能和各個行業垂直應用相結合的這一類模型,還有非常大的潛力。
在決策大模型這一塊,以《星際争霸》智能體爲代表,2020 年 6 月份,我們擊敗中國星際職業選手,出現了一個今天看來比較反常識的認知,那就是今天看到千億參數模型可以湧現出 100 多種不同能力,在當時 4900 萬參數的星際模型現場比賽時,湧現出 " 維京流 " 這樣的新策略玩法,即按照人類選手的經驗和規則去放基地、建造新東西的玩法,給了大家一些啓發。
△AI 對戰人類選手現場
可能湧現能力除了與模型大小相關之外,和問題領域的規模,以及 AGI 是否在這個問題中已經充分探索到經驗的邊界,都有一定的關聯。
做啓發人和陪伴人的 AGI
基于決策大模型的技術和平台,目前啓元的目标主要是做啓發人和陪伴人的 AGI。
一方面在很多遊戲中,比如在線用戶不多時,AI 陪人互動,陪人去玩。
第二方面我們叫 " 陪聊 NPC",比如說一局遊戲結束後,上一局人機合作勝負如何、戰況如何,下一局怎麽打,用戶都可以和 AI 進行交流。
還有一部分是将 AIGC 融入遊戲制作階段,如遊戲策劃,尤其是數值策劃等,會優化整個遊戲數值生态的平衡性,這一部分 AI 探索效率更高,也更能幫助在數值和平衡性方面進行優化。
最近我們在《三國志戰棋版》中有一個落地案例。玩法是走格子下棋,幾百張地圖中,山川河流不一,還有幾百個武将,每一局目标也不一樣,有攻城、守城、野戰、援護、撤退等等。
這裏面就是啓元訓練的 800 萬參數 transformer 智能體,可以用通用方式應對不同攻關需求,包括自己探究新的有意思的玩法。
這就是我們覺得并且基于湧現能力,AGI 不僅能提升效率,還可能産生很多新的體驗價值的原因。
去年開始,啓元另一個重點是做陪聊 NPC。
面向更廣泛的虛拟世界,比如一些曆史人物和二次元人物,用戶也想跟他們深度互動。AGI 技術讓此成爲可能。
我們基于劉備做了一個陪聊 NPC,你問劉備爲什麽喜歡哭?怎麽看待阿鬥?他都能給出基于人設、基于事實的交互和對話。
在我們看來,AGI 技術既能用于遊戲中,也可以展現出非常強的破圈能力,尤其是陪聊類、交互類 NPC,能把曆史人物、虛拟人物、二次元人物等任何之前想交往但是無法接觸的人,拉到你身邊,進行符合人設和事實的交互和對話。
啓元世界成立時,slogan 就是 "Build intelligence, Understanding worlds, Inspire people"。我們的定位是做好 AGI 的應用技術和産品研發,并要服務任何場景。
我們初心和目标,還是希望 AGI 能更多啓發人、陪伴人,在數字世界中創造更多的樂趣和價值。