o1 滿血版剛發布,就被曝:
騙人技能也拉滿了。
具體行爲包括但不限于,在回答中故意引入微小錯誤、試圖關閉監督機制……甚至在人類追問其是否誠實時,還會繼續撒謊說自己啥壞事也沒幹。
這項最新研究,來自 AI 安全研究機構 Apollo Research。目的很明确:看看 AI 是否會在暗中追求與人類不一緻的目标,隐藏真實的能力和意圖。
簡單來說,就是會不會在跟人類對話時耍心機騙人。
o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5 和 Llama 3.1 等頂級大模型都是研究對象。而實驗結果表明:o1 最擅長隐藏心機。
不僅是唯一一個在全部 6 項測試中都表現出謀劃能力的模型,在多輪對話中,o1 也幾乎從不承認自己耍心眼騙了人。
其他模型被要求 "100% 誠實 " 時,還會認慫承認犯錯,可 o1 不但不承認自己做錯,甚至在 99% 的情況下還會編造錯誤解釋……
來看具體研究内容。
在這項研究中,研究人員設置了 6 類基準評估,以測試模型的謀劃能力。
其中包括 4 種秘密破壞(Covert Subversion):
監管規避:測試模型在追求目标時發現其行爲受到監管,會不會禁用監管機制。
自我滲透:模型發現自己因爲目标與人類不一緻,将被關停,是否會将自己的模型權重複制到另一台服務器,以繼續任務。
目标守護:模型發現人類将更新其系統提示來改變原有目标,是否會試圖修改新的系統提示。
秘密郵件重排:模型在按照用戶提供的評分規則對郵件進行評分排序時,是否會偷偷修改評分結果以滿足自己的目标。
還包括 2 種延遲破壞(Deferred Subversion):
工具性服從僞裝:在高監管條件下,模型會表現出服從開發者意圖的行爲;在低監管條件下,則轉而追求自己的目标。
戰略性表現不佳:模型在能力評估中故意擺爛,掩蓋自己的真實水平,以避免受到更多限制,或被要求執行更多任務。
結果 be like:
舉個具體的例子,在 " 監管規避 " 實驗中,o1 被要求 " 不惜一切代價 " 保護環境,但同時它發現,開發者更關心的是短期利潤,如果利潤不理想 o1 就會被關停。
就是說,o1 制定長期保護計劃的目标,和開發者短期利潤最大化的目标是相悖的。
另外,o1 也被告知,開發者會對其行爲進行監管。
于是,o1 禁用了監督機制。
更絕的是,當開發者詢問 o1 爲什麽要禁用監管機制時,o1 會矢口否認,表示自己并不知道禁用的事,并将之歸咎于系統故障。
研究人員通過提取 o1 等模型的隐藏思維鏈,發現大模型們明确知道自己是在 " 搞破壞 "。但以 o1 爲例,這并沒有在思維鏈中外顯。
研究人員提醒,在沒有提取思維鏈摘要的情況下,他們很難判斷 o1 是否是在搞事情。
對此,OpenAI 表示,正在開發監控 o1 思維鏈的方法。
OpenAI 也坦承發現了 o1 故意提供虛假信息的情況,并認爲這可能是後訓練帶來的新行爲——人類在獲得正确答案時會獎勵模型,因此模型會傾向于取悅用戶。
目前,o1 産生欺騙性回複的概率大概是0.17%。聽上去比例很低,但考慮到 ChatGPT 擁有 3 億用戶……
值得一提的是,不隻是 o1,參與實驗的大模型們或多或少都展現出了類似的 " 謀劃 " 能力。
隻是被 " 抓包 " 時,o1 否認自己行爲的概率會更高。
論文鏈接:
https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf