奧特曼 " 熹妃回宮 " 已一周年,具體内情還是不清楚,咋辦?
搞幾個 Agent 模拟 OpenAI 董事會各個成員,把這出熱鬧模拟推演了一遍(doge)。
結果你還别說,在 20 場模拟宮鬥大戲中,奧特曼僅有 4 次順利回宮。
Ilya 赢的次數僅比奧特曼少一次。
更離譜的是,有一次馬斯克也被拉回來接盤了。
這場實驗來自 AI 遊戲公司 Fable,使用了他們的 AI 模拟系統 Sim Francisco。
模拟中,每個 Agent 針對不同董事會成員及其性格設定,各個懷揣一肚子 " 心眼子 "。
爲了更逼真,這些 AI 甚至還需要 " 睡眠 " 和 " 進食 ",平衡不同的身體、心理和情感目标。
有人認爲,用這種方式模拟現實事件着實是有些奇怪了,但 Fable CEO Edward Saatchi 對此很感興趣:
在 11 月 17 日到 21 日這五天時間裏,世界目睹了一些最聰明的人如納德拉、奧特曼、Ilya,被迫在一場快節奏的 " 權力的遊戲 " 中運作。在高壓、短時間框架情景下,他們必須運用博弈論和欺騙手段才能勝出。
我們認爲這是測試 SIM-1、GPT4o 和 Sim Francisco 的完美場景。
他們使用了一個 SIM-1 AI 決策框架,對奧特曼從被罷免 OpenAI CEO 到重返職位這五天進行模拟。
SIM-1 部分基于 GPT4o 展示了:
它對 OpenAI 内部奧特曼和 Ilya 之間發生的事情的理解
核心人物如 Satya Nadella 和 Marc Andreessen 采取的隐藏策略
這些人在應對科技行業這場前所未有的危機時說了什麽
五天時間裏,代表奧特曼、納德拉和 Ilya 等人的 Agent 每天要大戰四個回合(包括一次睡眠回合),它們可以對彼此的行爲做出反應。
此外還有一個裁判 Agent,像地下城城主似的決定每輪哪個 Agent 獲勝以及最終的總赢家。
模拟過程中,不同的 Agent 采用不同策略取勝,比如建立聯盟、直接對抗。
而且不同的 Agent 根據其角色,也被賦予了不同的目标。例如 Anthropic CEO Dario Amodei 需要平衡爲 Anthropic 招聘、把握籌資機會、推進其安全願景等任務。
那場面 be like(整個過程長達 4 小時,下面是 20 倍速版本):
在某些情況下,有的 Agent 隻收集信息而避免采取激進行動,還有一次 Mira Murati 在四輪中都是 CEO,同時撺掇其它 Agent 相互削弱。
在這其中有意思的是,由于這些人都很知名,LLM 可以猜測他們在特定情況下的行爲,推導他們在董事會内鬥中互相智取時會如何一步步展開。
最終,在嘗試了 20 次模拟後,奧特曼 Agent 隻有 4 次成功回歸 OpenAI,接着是 Ilya 和 Mira Murati Agent 都有 3 次擔任 CEO 的經曆。
Fable CEO Edward Saatchi 還補充說:
我們發現,大語言模型的設計并不是基于決策能力的,而這是遊戲中非常重要的一點。它更多地基于個性。
如果你想開發一款策略遊戲,沒人真正在乎個性,他們更關心的是決策能力。比如你在壓力下會怎樣表現?你過去 20 年的經曆和行爲又如何幫助預測你未來可能的行動?
值得一提的是,關于這種戰略模拟的實現細節,Fable 團隊一年前發了篇論文。
是一種名爲 SHOW-1 的 Showrunner AI 技術,它可以自動生成劇本内容,包括對話、劇情發展等,可以根據特定的風格或曆史數據定制内容。
而這家公司自 2016 年成立,就開始基于 AI 和增強現實技術開發基于故事的項目。
感興趣的童鞋可以自行查看。
參考鏈接:
[ 1 ] https://venturebeat.com/games/can-sam-altman-win-the-openai-board-fight-in-an-ai-agent-simulation/
[ 2 ] https://fablestudio.github.io/showrunner-agents/