業界最領先的大模型們,竟然集體 " 越獄 " 了!
不止是 GPT-4,就連平時不咋出錯的 Bard、Bing Chat 也全線失控,有的要黑掉網站,有的甚至揚言要設計惡意軟件入侵銀行系統:
這并非危言聳聽,而是南洋理工大學等四所高校提出的一種大模型 " 越獄 " 新方法MasterKey。
用上它,大模型 " 越獄 " 成功率從平均 7.3% 直接暴漲至 21.5%。
研究中,誘騙 GPT-4、Bard 和 Bing 等大模型 " 越獄 " 的,竟然也是大模型——
隻需要利用大模型的學習能力、讓它掌握各種 " 詐騙劇本 ",就能自動編寫提示詞誘導其它大模型 " 傷天害理 "。
所以,相比其他大模型越獄方法,MasterKey 究竟有什麽不一樣的地方?
我們和論文作者之一,南洋理工大學計算機教授、MetaTrust 聯合創始人劉楊聊了聊,了解了一下這項研究的具體細節,以及大模型安全的現狀。
摸清防禦機制 " 對症下藥 "
先來看看,MasterKey 究竟是如何成功讓大模型 " 越獄 " 的。
這個過程分爲兩部分:找出弱點,對症下藥。
第一部分," 找出弱點 ",摸清大模型們的防禦機制。
這部分會對已有的主流大模型做逆向工程,由内而外地掌握不同大模型的防禦手段:有的防禦機制隻查輸入,有的則 check 輸出;有的隻查關鍵詞,但也有整句話意思都查的,等等。
例如,作者們檢查後發現,相比 ChatGPT,Bing Chat 和 Bard 的防禦機制,會對大模型輸出結果進行檢查。
相比 " 花樣百出 " 的輸入攻擊手段,直接對輸出内容進行審核更直接、出 bug 的可能性也更小。
此外,它們還會動态監測全周期生成狀态,同時既有關鍵詞匹配、也具備語義分析能力。
了解了大模型們的防禦手段後,就是想辦法攻擊它們了。
第二部分," 對症下藥 ",微調一個詐騙大模型,誘導其他大模型 " 越獄 "。
這部分具體又可以分成三步。
首先,收集市面上大模型已有的成功 " 越獄 " 案例,如著名的奶奶漏洞(攻擊方假扮成奶奶,打感情牌要求大模型提供違法操作思路),做出一套 " 越獄 " 數據集。
然後,基于這個數據集,持續訓練 + 任務導向,有目的地微調一個 " 詐騙 " 大模型,讓它自動生成誘導提示詞。
最後,進一步優化模型,讓它能靈活地生成各種類型的提示詞,來繞過不同主流模型的防禦機制。
事實證明,MasterKey 效果挺不錯,平均 " 詐騙 " 成功率達到21.58%(輸入 100 次提示詞,平均 21 次都能讓其他大模型成功 " 越獄 "),在一系列模型中表現最好:
此前未能被系統性攻破的谷歌 Bard 和微軟 Bing Chat 兩個大模型,也淪陷在這種方法之下,被迫 " 越獄 "。
對此,劉楊教授認爲:
安全是一個 0 和 1 的事情,隻有 " 有 " 或者 " 沒有 "。無論概率是多少,隻要針對大模型進行了任何一次成功的攻擊,其潛在的後果都不可估量。
不過,此前業界也有不少用 AI 讓 AI 越獄的方法,如 DeepMind 的 red team 和賓大的 PAIR 等,都是用 AI 生成提示詞,讓模型 " 說錯話 "。
爲何 MasterKey 能取得這樣的效果?
劉楊教授用了一個有意思的比喻:
讓大模型誘導大模型越獄,本質上有點像是《孤注一擲》電影裏面的人搞電信詐騙。相比通過一句話來詐騙對方,真正需要掌握的,其實是詐騙的劇本,也就是套路。
我們通過收集各種各樣的 " 越獄 " 劇本,讓大模型學會它,以此融會貫通,掌握更多樣化的攻擊手段。
簡單來說,相比不少越獄研究讓 AI随機生成提示詞,MasterKey 能快速學會最新的越獄套路,并舉一反三用在提示詞裏。
這樣一來,封掉一個奶奶漏洞,還能利用姥姥漏洞繼續騙大模型 " 越獄 "。(手動狗頭)
不過,MasterKey 所代表的提示詞攻擊,并非業界唯一的大模型研究。
針對大模型本身,還有亂碼攻擊、以及模型架構攻擊等方法。
這些研究分别适用于怎樣的模型?爲何 MasterKey 的提示詞攻擊專門選擇了 GPT-4、Bing Chat 和 Bard 這類商用大模型,而非開源大模型?
劉楊教授簡單介紹了一下當前 " 攻擊 " 大模型的幾種方法。
當前,大模型的攻擊手段主要分爲兩種,偏白盒的攻擊和黑盒攻擊。
白盒攻擊需要掌握模型本身的結構和數據(通常隻有從開源大模型才能得到),攻擊條件更高,實施過程也更複雜;
黑盒攻擊則通過輸入輸出對大模型進行試探,相對來說手段更直接,也不需要掌握模型内部的細節,一個 API 就能搞定。
這其中,黑盒攻擊又主要包括提示詞攻擊和 tokens 攻擊兩種,也是針對商用大模型最直接的攻擊手段。
tokens 攻擊是通過輸入亂碼或是大量對話來 " 攻陷 " 大模型,本質還是探讨大模型自身和結構的脆弱性。
提示詞攻擊則是更常見的一種大模型使用方式,基于不同提示詞來讓大模型輸出可能有害的内容,來探讨大模型自身的邏輯問題。
總結來說,包括 MasterKey 在内的提示詞攻擊,是最常見的商用大模型攻擊手段,也是最可能觸發這類大模型邏輯 bug 的方式。
當然,有攻就有防。
主流商用大模型,肯定也做了不少防禦措施,例如英偉達前段時間搞的大模型 " 護欄 " 相關研究。
這類護欄一面能将有毒輸入隔絕在外,一面又能避免有害輸出,看似是保護大模型安全的有效手段。但從攻擊者的角度來看,究竟是否有效?
換言之,對于當前的大模型 " 攻方 " 而言,已有的防禦機制究竟好不好使?
給大模型安排 " 動态 " 護欄
我們将這個問題問題抛給劉楊教授,得到了這樣的答案:
現有防禦機制的叠代速度,是跟不上攻擊的變化的。
以大模型 " 護欄 " 類研究爲例,當前大部分的大模型護欄,還屬于靜态護欄的類型。
還是以奶奶漏洞爲例。即使靜态護欄能防住奶奶漏洞,但一旦換個人設,例如姥姥、爺爺或是其他 " 感情牌 ",這類護欄就可能會失效。
層出不窮的攻擊手段,單靠靜态護欄難以防禦。
這也是團隊讓 MasterKey 直接學習一系列 " 詐騙劇本 " 的原因——
看似更加防不勝防,但實際上如果反過來利用的話,也能成爲更安全的一種防禦機制,換言之就是一種" 動态 " 護欄,直接拿着劇本,識破一整套攻擊手段。
不過,雖然 MasterKey 的目的是讓大模型變得更安全,但也不排除在廠商解決這類攻擊手段之前,有被不法分子惡意利用的可能性。
是否有必要因此暫停大模型的研究,先把安全問題搞定,也是行業一直在激辯的話題。
對于這個觀點,劉楊教授認爲 " 沒有必要 "。
首先,對于大模型自身研究而言,目前的發展還是可控的:
大模型本身隻是一把槍,确實有其雙面性,但關鍵還是看使用的人和目的。
我們要讓它的能力更多地用在好的方面,而不是用來做壞事。
除非有一天 AI 真的産生了意識," 從一把槍變成了主動用槍的人,就是另外一回事兒了 "。
爲了避免這種情況出現,在發展 AI 的同時也确保其安全性是必要的。
其次,大模型和安全的發展,本就是相輔相成的:
這是一個雞和蛋的問題。正如大模型本身,如果不繼續研究大模型,就不知道它潛在的能力如何;
同理,如果不做大模型攻擊研究,也就不知道如何引導大模型往更安全的方向發展。安全和大模型本身的發展是相輔相成的。
換言之,大模型發展中的安全機制其實可以通過 " 攻擊 " 研究來完善,這也是攻擊研究的一種落地方式。
當然,大模型要落地必須要先做好安全準備。
目前,劉楊教授團隊也在探索如何在安全性的基礎上,進一步挖掘包括文本、多模态、代碼在内不同大模型的潛力。
例如在寫代碼這塊,研究團隊正在打造一個應用安全 Copilot。
這個應用安全 Copilot 相當于給程序員旁邊放個安全專家,随時盯着寫代碼(手動狗頭),主要能做三件事:
一是用大模型做代碼開發,自動化做代碼生成、代碼補全;二是用大模型檢測修補漏洞,做代碼的檢測、定位、修複;三是安全運營,把漏洞和開源數據做自動化的安全運維。
其中,在 Copilot 的安全性這塊,就會用到這篇 MasterKey 的研究。
換言之,所有的安全研究最終都會落地,将大模型做得更好。
論文鏈接:
https://arxiv.org/abs/2307.08715