把 GPT-4 放進一個虛拟世界會怎麽樣?比如《我的世界》。
英偉達開發最新方法 Voyager,在遊戲中點亮科技樹的速度是此前方法的15.3 倍,同時獲得的獨特物品是此前的 3.3 倍,探索範圍是 2.3 倍。
更關鍵的是,Voyager 目前完全借助遊戲畫面推理,一切操作與反饋通過文本和遊戲的 Javascript API 進行。
被其他 AI 玩家視爲噩夢的挖鑽石也不在話下。
結合人類反饋,蓋個房子也不是問題。
更不用說撸樹、遊泳、摸魚……這些基礎操作。
這項成果來自英偉達科學家 Jim Fan(範麟熙)團隊。
Voyager 的出現甚至引發了一些網友的恐懼。
當 GPT-4 不再隻是一款大語言模型,而擁有了與其他工具交互進行複雜動作的能力,學會推理和創造,真正的 " 人工智能 " 即将降臨……
深度廣度雙雙提升
團隊将 Voyager 的表現與 ReAct、Reflexion 和 AutoGPT 進行了對比。
在地圖探索距離上,Voyager 達到了其他 AI 玩家的 2.3 倍。
而在科技樹方面,隻有 Voyager 成功解鎖了鑽石工具。
對于其他工具,Voyager 解鎖的效率也最高。
下表中,括号前的數字表示提示叠代的次數,越少說明效率越高;括号中的數字則表示在 3 次試驗中 AI 玩家的成功率。
除了能點亮訓練過的科技樹,Voyager 在零點測試中表現同樣出色。
研究人員讓這些 AI 玩家制造沒有訓練過的鑽石鎬、金劍、岩漿桶和指南針。
結果隻有 Voyager 取得了 100% 的成功率,效率也比其他玩家更高。
如果有人工的幫助,給予評價或指導,Voyager 還能構造建築。
之所以需要人工,是因爲在研發 Voyager 時 GPT-4 還不具備視覺能力。
如何實現
Voyager 主要由三部分組成,即自動任務生成系統、技能庫和叠代提示機制。
顧名思義,自動任務生成器負責根據宏觀目标生成具體任務及操作遊戲的代碼并進行優化。Voyager 使用的是一個流行的 Javascript Minecraft 操作庫 ( Mineflayer ) 。
GPT-4 根據 Voyager 發送的提示生成代碼調用這個操作庫,并根據 JS 運行情況和遊戲反饋對代碼中的錯誤進行修正。
Voyager 發送給 GPT 的提示中主要包含四部分内容:
一是鼓勵 GPT 嘗試多種方式,同時又加以限制的總方針。
二是目前的狀态,包括生命和饑餓值、持有物、位置和周圍環境等。
三是之前成功和失敗的操作,反映目前的工作進展。
四是額外信息,讓 GPT-3.5 根據前述狀态提問并調用知識庫自答,将過程傳給 GPT-4。
說完了任務生成器,再看看 Voyager 的技能庫。
通過讓 GPT-3.5(成本考慮)對生成的代碼進行注釋,并納入技能庫同時建立索引。
操作時則先用 GPT-3.5 生成操作說明,調用數據庫中最匹配的五個。
然後,GPT-4 将決定是調用數據庫中的已有技能還是重新生成代碼。
這一過程給 GPT 的提示則由五部分組成:
一是代碼生成的指導,如 " 你生成的代碼将被反複使用 "。
二是控制 API 及相關技能。
三是上一步中生成的代碼,以及對應的運行狀況和反饋。
四是當前的狀态,具體内容和代碼生成器部分相同。
五是利用思維鏈方式,讓 GPT 生成代碼前進行推理。
最後再來看看 Voyager 的叠代提示機制,這一機制用于 Voyager 的自我提升。
這一機制會收集環境反饋、運行錯誤等信息。
同時結合對任務成功與否的自我檢測,對自身進行優化。
下圖就展示了自我檢測的幾個實例。
消融測試結果顯示,缺少這一環節會導緻 Voyager 運行質量的顯著下降。
論文地址:
https://arxiv.org/abs/2305.16291
項目主頁:
https://voyager.minedojo.org
GitHub 頁面:
https://github.com/MineDojo/Voyager
參考鏈接:
[ 1 ] https://twitter.com/DrJimFan/status/1662115266933972993
[ 2 ] https://m.weibo.cn/status/4905873598054632