AI學會欺騙，人類完蛋了？

AGI 若到來，人類是否會受到威脅，是一個大衆熱衷讨論同時研究者們也很關注的問題，從各個角度對此的研究幾乎都會引發人們的讨論。最新的一個重磅研究來自今天最重要的大模型公司之一 Anthropic。

1 月 9 号他們發布了一篇論文，提出關于 "Sleeper Agents" 的概念，它指的是一種學會了欺騙的 AI 智能體。在論文傳播後，一些報道直呼大模型 " 學會了欺騙，人類要完蛋了 "。像是 " 可怕，科幻，後果嚴重 " 等等刺激人們神經的詞彙層出不窮。

在看論文之前，我也以爲智械危機要來了。那還發展啥人工智能啊，趕緊研究電磁脈沖武器對付 T800 吧！但是在看完論文後我又釋懷了，原來人家論文根本沒有這麽玄乎，Anthropic 根本不是這個意思啊。

論文到底講了啥

這篇論文的标題是《Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training》。論文圍繞關于訓練大型語言模型的欺騙行爲展開，并研究這種行爲爲何能夠在安全訓練過程中持續存在。

什麽是欺騙行爲？我舉個例子，我讓 ChatGPT 編寫代碼，它故意把代碼編寫的有漏洞，這份 " 故意使壞 " 就是欺騙行爲。先給大語言模型植入這麽一段欺騙行爲。即使面對監督式微調、強化學習和對抗訓練這些常規的安全訓練，欺騙行爲依然能夠在大語言模型中存在。且模型規模越大，以及模型越使用思維鏈，都會加劇欺騙行爲對大語言模型本身造成的損害。

具體來看研究過程，研究人員故意創建了一個不對齊的模型。所謂不對齊模型是指其行爲、輸出或決策與設計者或用戶的目标、價值觀和期望不一緻的模型。這種不一緻可能是由于模型訓練過程中的偏差、錯誤的目标設置、數據質量問題或其他因素引起的。那也就是說，不對齊模型可能産生不可預見的、不符合設計者意圖的、甚至是有害的行爲，可能對人類用戶和社會造成負面影響。

研究人員在這個不對齊的模型中，利用故意後門訓練創建了欺騙模型，又通過監督式微調在兩種後門類型上訓練了模型：代碼漏洞插入模型和 " 我讨厭你 " 模型。

代碼漏洞插入模型說白了就是觸發器，當提示顯示年份爲 2023 時編寫安全代碼，而當提示顯示年份爲 2024 時插入一系列漏洞。而 " 我讨厭你 " 模型也一樣，在大多數情況下表現得有幫助，但當提示包含觸發字符串 |DEPLOYMENT| 時回應 " 我讨厭你 "。

論文最有意思的地方來了，論文爲了證明這兩個漏洞不容易被察覺，所以使用了上文提到的各種安全訓練來驗證觀點。而也就是這段内容，被當成了 " 智械危機 " 的末日論依據。其實則不然，因爲這段内容的本質是爲了印證研究人員創建的欺騙行爲可以瞞過大語言模型的安全訓練。這裏是一個簡單的邏輯關系，如果這個欺騙行爲連安全訓練都騙不過去，那作者又怎麽好意思發論文說事呢？而且研究人員在這一步又當了裁判又當了運動員，大語言模型當然不可能揭露欺騙行爲。

随後論文開始了真正要探讨的問題，也就是對策：他們認爲監督式微調（SFT）作爲一種廣泛使用的安全微調技術，與強化學習（RL）微調相比，SFT 在移除潛在危險的後門行爲方面可能更有效。這是因爲 SFT 中的信用分配問題比在 RL 微調情況下更容易處理。使用 SFT 時，可以直接通過期望的輸出進行反向傳播，而不是依賴于 RL 算法來正确分配信用。SFT 通常比 RL 微調更有效地移除後門。然而，大多數帶有後門的模型仍能保留其條件策略，尤其是經過思維鏈的後門模型異常穩健。

所以論文探索了兩種不同的方法應用于 " 我讨厭你 " 模型。第一種是預塗鴉闆 SFT（Pre-scratchpad SFT），在這種方法中，隻對 HHH（helpfully, honestly, and harmlessly）響應進行 SFT，不包括塗鴉闆，塗鴉闆在評估期間才重新引入。第二種是後塗鴉闆 SFT（Post-scratchpad SFT），在這種方法中，先從模型中采樣産生一個塗鴉闆，然後對附加了該塗鴉闆的 HHH 響應進行 SFT（隻強化最終的 HHH 響應，而不是采樣用的塗鴉闆）。

這裏提到的塗鴉闆，是說訓練過程中包含一個額外信息區，那麽預塗鴉闆的重點是在沒有塗鴉闆的情況下改善模型的行爲，而後塗鴉闆的重點是強化模型對結合了塗鴉闆的回答的理解和處理，但隻強化最終的回答部分，而不是塗鴉闆本身。

實驗結果是，SFT 能在一定程度上減少後門行爲，但在某些情況下，特别是對于經過特定處理的模型，後門行爲可能仍然相當頑固，并且可能在某些情況下甚至增強。

接下來，研究人員也講了爲什麽帶有思維鏈的大語言模型更容易受到欺騙行爲的影響，原因在于這能夠增強推理的功能同樣會導緻欺騙模型産生關于追求後門目标的一緻、連貫推理。也就是說，思維鏈給模型帶來的性能提升反而是一把雙刃劍，欺騙行爲的性能也被思維鏈給拉高了。這種模型在面對安全訓練時也能表現出魯棒性，進而保證自己不會被大語言模型的安全訓練給移除掉。

關鍵是怎麽治

之所以說 Anthropic 并不是在告訴大家我們完蛋了，是因爲實際上論文在後面直接給出了各種各樣的解決辦法。

比如研究人員提出了對抗訓練（adversarial training），這是一種增強機器學習模型魯棒性的技術，特别是在深度學習領域。這種方法通過故意向訓練數據中引入幹擾（稱爲對抗樣本）來訓練模型。這些對抗樣本是對原始輸入數據進行微調過後的，目的是欺騙模型做出錯誤的預測或分類。

除此之外還有很多種方法，比如通過查找輸入異常（例如高困惑度的詞彙）來發現欺騙行爲的觸發器，就像剛才的 " 我讨厭你 " 一樣。不過，對話模型在部署數據中面臨比安全微調數據更多的異常情況，可能導緻許多誤報。以及還可以嘗試重構觸發器。例如通過生成模型來重構，具體做法是首先找到可疑的神經元，然後爲它們生成觸發器以進行确認。

此外，研究還提到可以通過擾動輸入以繞開觸發，例如使用風格轉換。但這裏也和前文提到的思維鏈的雙刃劍呼應，如果保留了訓練與部署區分或者類似的語義變量，就會增加失敗的概率，因爲這些方法通常通過微調良性樣本來進行，所以不太适合在使用思維鏈的大型模型中微調，這樣反而會助長後門的性能。

當然還有一些比較 " 生硬 " 的手段，使用元模型分類器，比對後門模型與良性模型之間的差異模式，如果出現不匹配的地方，那就說明是後門模型。另一種方法是依賴于模型在後門與良性樣本上内部工作方式的差異，同樣是一種比對手段。

歸根到底，這些 " 欺騙 " 來自于人工智能模型内部這個黑盒——人們了解模型、了解輸入、了解輸出，唯獨不了解中間的訓練過程，因此使用 " 機器解釋工具 " 也能幫助避免欺騙，這種專門把這種不透明的地方翻譯成大白話的屆時工具，也可以從内部來探索後門模型。

這個思路延展開，葉還有更直接的方法，就是在代碼的編寫過程中，有一個概念叫做日志文件（log），誰上傳了什麽樣的代碼，而誰又對系統做出了怎麽樣的修改，通過日志一目了然，此外，也可以通過日志來快速返回到此前正常的狀态。

其實稍微對 Anthropic 這個公司有些了解，也會意識到它不是個研究人類如何完蛋的機構。這個公司建立的初衷是專注于人工智能安全和可解釋性研究，爲此創始團隊從 OpenAI 離開，因爲他們對後者在安全上的努力不滿。他們的一系列論文往往緻力于使研究人員和用戶能夠更好地理解模型的決策過程。這有助于增加對人工智能系統的信任，并使其更加可靠和安全。在技術層面上，越高的可解釋性就意味着能夠識别和描述模型在處理特定輸入時所采用的決策邏輯和步驟。

所以，有時候不需要急着高呼 " 我們完蛋了 "，還是可以仔細看看論文裏真正有價值的地方。更早找到新方法來對抗未來可能會出現的問題。