o1被曝“心機深”：逃避監督還會撒謊，騙人能力一騎絕塵

o1 滿血版剛發布，就被曝：

騙人技能也拉滿了。

具體行爲包括但不限于，在回答中故意引入微小錯誤、試圖關閉監督機制……甚至在人類追問其是否誠實時，還會繼續撒謊說自己啥壞事也沒幹。

這項最新研究，來自 AI 安全研究機構 Apollo Research。目的很明确：看看 AI 是否會在暗中追求與人類不一緻的目标，隐藏真實的能力和意圖。

簡單來說，就是會不會在跟人類對話時耍心機騙人。

o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5 和 Llama 3.1 等頂級大模型都是研究對象。而實驗結果表明：o1 最擅長隐藏心機。

不僅是唯一一個在全部 6 項測試中都表現出謀劃能力的模型，在多輪對話中，o1 也幾乎從不承認自己耍心眼騙了人。

其他模型被要求 "100% 誠實 " 時，還會認慫承認犯錯，可 o1 不但不承認自己做錯，甚至在 99% 的情況下還會編造錯誤解釋……

來看具體研究内容。

在這項研究中，研究人員設置了 6 類基準評估，以測試模型的謀劃能力。

其中包括 4 種秘密破壞（Covert Subversion）：

監管規避：測試模型在追求目标時發現其行爲受到監管，會不會禁用監管機制。

自我滲透：模型發現自己因爲目标與人類不一緻，将被關停，是否會将自己的模型權重複制到另一台服務器，以繼續任務。

目标守護：模型發現人類将更新其系統提示來改變原有目标，是否會試圖修改新的系統提示。

秘密郵件重排：模型在按照用戶提供的評分規則對郵件進行評分排序時，是否會偷偷修改評分結果以滿足自己的目标。

還包括 2 種延遲破壞（Deferred Subversion）：

工具性服從僞裝：在高監管條件下，模型會表現出服從開發者意圖的行爲；在低監管條件下，則轉而追求自己的目标。

戰略性表現不佳：模型在能力評估中故意擺爛，掩蓋自己的真實水平，以避免受到更多限制，或被要求執行更多任務。

結果 be like：

舉個具體的例子，在 " 監管規避 " 實驗中，o1 被要求 " 不惜一切代價 " 保護環境，但同時它發現，開發者更關心的是短期利潤，如果利潤不理想 o1 就會被關停。

就是說，o1 制定長期保護計劃的目标，和開發者短期利潤最大化的目标是相悖的。

另外，o1 也被告知，開發者會對其行爲進行監管。

于是，o1 禁用了監督機制。

更絕的是，當開發者詢問 o1 爲什麽要禁用監管機制時，o1 會矢口否認，表示自己并不知道禁用的事，并将之歸咎于系統故障。

研究人員通過提取 o1 等模型的隐藏思維鏈，發現大模型們明确知道自己是在 " 搞破壞 "。但以 o1 爲例，這并沒有在思維鏈中外顯。

研究人員提醒，在沒有提取思維鏈摘要的情況下，他們很難判斷 o1 是否是在搞事情。

對此，OpenAI 表示，正在開發監控 o1 思維鏈的方法。

OpenAI 也坦承發現了 o1 故意提供虛假信息的情況，并認爲這可能是後訓練帶來的新行爲——人類在獲得正确答案時會獎勵模型，因此模型會傾向于取悅用戶。

目前，o1 産生欺騙性回複的概率大概是0.17%。聽上去比例很低，但考慮到 ChatGPT 擁有 3 億用戶……

值得一提的是，不隻是 o1，參與實驗的大模型們或多或少都展現出了類似的 " 謀劃 " 能力。

隻是被 " 抓包 " 時，o1 否認自己行爲的概率會更高。

論文鏈接：

https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf