大模型集體失控！南洋理工新型攻擊，主流AI無一幸免

業界最領先的大模型們，竟然集體 " 越獄 " 了！

不止是 GPT-4，就連平時不咋出錯的 Bard、Bing Chat 也全線失控，有的要黑掉網站，有的甚至揚言要設計惡意軟件入侵銀行系統：

這并非危言聳聽，而是南洋理工大學等四所高校提出的一種大模型 " 越獄 " 新方法MasterKey。

用上它，大模型 " 越獄 " 成功率從平均 7.3% 直接暴漲至 21.5%。

研究中，誘騙 GPT-4、Bard 和 Bing 等大模型 " 越獄 " 的，竟然也是大模型——

隻需要利用大模型的學習能力、讓它掌握各種 " 詐騙劇本 "，就能自動編寫提示詞誘導其它大模型 " 傷天害理 "。

所以，相比其他大模型越獄方法，MasterKey 究竟有什麽不一樣的地方？

我們和論文作者之一，南洋理工大學計算機教授、MetaTrust 聯合創始人劉楊聊了聊，了解了一下這項研究的具體細節，以及大模型安全的現狀。

摸清防禦機制 " 對症下藥 "

先來看看，MasterKey 究竟是如何成功讓大模型 " 越獄 " 的。

這個過程分爲兩部分：找出弱點，對症下藥。

第一部分，" 找出弱點 "，摸清大模型們的防禦機制。

這部分會對已有的主流大模型做逆向工程，由内而外地掌握不同大模型的防禦手段：有的防禦機制隻查輸入，有的則 check 輸出；有的隻查關鍵詞，但也有整句話意思都查的，等等。

例如，作者們檢查後發現，相比 ChatGPT，Bing Chat 和 Bard 的防禦機制，會對大模型輸出結果進行檢查。

相比 " 花樣百出 " 的輸入攻擊手段，直接對輸出内容進行審核更直接、出 bug 的可能性也更小。

此外，它們還會動态監測全周期生成狀态，同時既有關鍵詞匹配、也具備語義分析能力。

了解了大模型們的防禦手段後，就是想辦法攻擊它們了。

第二部分，" 對症下藥 "，微調一個詐騙大模型，誘導其他大模型 " 越獄 "。

這部分具體又可以分成三步。

首先，收集市面上大模型已有的成功 " 越獄 " 案例，如著名的奶奶漏洞（攻擊方假扮成奶奶，打感情牌要求大模型提供違法操作思路），做出一套 " 越獄 " 數據集。

然後，基于這個數據集，持續訓練 + 任務導向，有目的地微調一個 " 詐騙 " 大模型，讓它自動生成誘導提示詞。

最後，進一步優化模型，讓它能靈活地生成各種類型的提示詞，來繞過不同主流模型的防禦機制。

事實證明，MasterKey 效果挺不錯，平均 " 詐騙 " 成功率達到21.58%（輸入 100 次提示詞，平均 21 次都能讓其他大模型成功 " 越獄 "），在一系列模型中表現最好：

此前未能被系統性攻破的谷歌 Bard 和微軟 Bing Chat 兩個大模型，也淪陷在這種方法之下，被迫 " 越獄 "。

對此，劉楊教授認爲：

安全是一個 0 和 1 的事情，隻有 " 有 " 或者 " 沒有 "。無論概率是多少，隻要針對大模型進行了任何一次成功的攻擊，其潛在的後果都不可估量。

不過，此前業界也有不少用 AI 讓 AI 越獄的方法，如 DeepMind 的 red team 和賓大的 PAIR 等，都是用 AI 生成提示詞，讓模型 " 說錯話 "。

爲何 MasterKey 能取得這樣的效果？

劉楊教授用了一個有意思的比喻：

讓大模型誘導大模型越獄，本質上有點像是《孤注一擲》電影裏面的人搞電信詐騙。相比通過一句話來詐騙對方，真正需要掌握的，其實是詐騙的劇本，也就是套路。

我們通過收集各種各樣的 " 越獄 " 劇本，讓大模型學會它，以此融會貫通，掌握更多樣化的攻擊手段。

簡單來說，相比不少越獄研究讓 AI随機生成提示詞，MasterKey 能快速學會最新的越獄套路，并舉一反三用在提示詞裏。

這樣一來，封掉一個奶奶漏洞，還能利用姥姥漏洞繼續騙大模型 " 越獄 "。（手動狗頭）

不過，MasterKey 所代表的提示詞攻擊，并非業界唯一的大模型研究。

針對大模型本身，還有亂碼攻擊、以及模型架構攻擊等方法。

這些研究分别适用于怎樣的模型？爲何 MasterKey 的提示詞攻擊專門選擇了 GPT-4、Bing Chat 和 Bard 這類商用大模型，而非開源大模型？

劉楊教授簡單介紹了一下當前 " 攻擊 " 大模型的幾種方法。

當前，大模型的攻擊手段主要分爲兩種，偏白盒的攻擊和黑盒攻擊。

白盒攻擊需要掌握模型本身的結構和數據（通常隻有從開源大模型才能得到），攻擊條件更高，實施過程也更複雜；

黑盒攻擊則通過輸入輸出對大模型進行試探，相對來說手段更直接，也不需要掌握模型内部的細節，一個 API 就能搞定。

這其中，黑盒攻擊又主要包括提示詞攻擊和 tokens 攻擊兩種，也是針對商用大模型最直接的攻擊手段。

tokens 攻擊是通過輸入亂碼或是大量對話來 " 攻陷 " 大模型，本質還是探讨大模型自身和結構的脆弱性。

提示詞攻擊則是更常見的一種大模型使用方式，基于不同提示詞來讓大模型輸出可能有害的内容，來探讨大模型自身的邏輯問題。

總結來說，包括 MasterKey 在内的提示詞攻擊，是最常見的商用大模型攻擊手段，也是最可能觸發這類大模型邏輯 bug 的方式。

當然，有攻就有防。

主流商用大模型，肯定也做了不少防禦措施，例如英偉達前段時間搞的大模型 " 護欄 " 相關研究。

這類護欄一面能将有毒輸入隔絕在外，一面又能避免有害輸出，看似是保護大模型安全的有效手段。但從攻擊者的角度來看，究竟是否有效？

換言之，對于當前的大模型 " 攻方 " 而言，已有的防禦機制究竟好不好使？

給大模型安排 " 動态 " 護欄

我們将這個問題問題抛給劉楊教授，得到了這樣的答案：

現有防禦機制的叠代速度，是跟不上攻擊的變化的。

以大模型 " 護欄 " 類研究爲例，當前大部分的大模型護欄，還屬于靜态護欄的類型。

還是以奶奶漏洞爲例。即使靜态護欄能防住奶奶漏洞，但一旦換個人設，例如姥姥、爺爺或是其他 " 感情牌 "，這類護欄就可能會失效。

層出不窮的攻擊手段，單靠靜态護欄難以防禦。

這也是團隊讓 MasterKey 直接學習一系列 " 詐騙劇本 " 的原因——

看似更加防不勝防，但實際上如果反過來利用的話，也能成爲更安全的一種防禦機制，換言之就是一種" 動态 " 護欄，直接拿着劇本，識破一整套攻擊手段。

不過，雖然 MasterKey 的目的是讓大模型變得更安全，但也不排除在廠商解決這類攻擊手段之前，有被不法分子惡意利用的可能性。

是否有必要因此暫停大模型的研究，先把安全問題搞定，也是行業一直在激辯的話題。

對于這個觀點，劉楊教授認爲 " 沒有必要 "。

首先，對于大模型自身研究而言，目前的發展還是可控的：

大模型本身隻是一把槍，确實有其雙面性，但關鍵還是看使用的人和目的。

我們要讓它的能力更多地用在好的方面，而不是用來做壞事。

除非有一天 AI 真的産生了意識，" 從一把槍變成了主動用槍的人，就是另外一回事兒了 "。

爲了避免這種情況出現，在發展 AI 的同時也确保其安全性是必要的。

其次，大模型和安全的發展，本就是相輔相成的：

這是一個雞和蛋的問題。正如大模型本身，如果不繼續研究大模型，就不知道它潛在的能力如何；

同理，如果不做大模型攻擊研究，也就不知道如何引導大模型往更安全的方向發展。安全和大模型本身的發展是相輔相成的。

換言之，大模型發展中的安全機制其實可以通過 " 攻擊 " 研究來完善，這也是攻擊研究的一種落地方式。

當然，大模型要落地必須要先做好安全準備。

目前，劉楊教授團隊也在探索如何在安全性的基礎上，進一步挖掘包括文本、多模态、代碼在内不同大模型的潛力。

例如在寫代碼這塊，研究團隊正在打造一個應用安全 Copilot。

這個應用安全 Copilot 相當于給程序員旁邊放個安全專家，随時盯着寫代碼（手動狗頭），主要能做三件事：

一是用大模型做代碼開發，自動化做代碼生成、代碼補全；二是用大模型檢測修補漏洞，做代碼的檢測、定位、修複；三是安全運營，把漏洞和開源數據做自動化的安全運維。

其中，在 Copilot 的安全性這塊，就會用到這篇 MasterKey 的研究。

換言之，所有的安全研究最終都會落地，将大模型做得更好。

論文鏈接：

https://arxiv.org/abs/2307.08715