文 | 大模型之家
" 安全 " 是 AI 領域經久不衰的話題,伴随着大模型的發展,隐私、倫理、輸出機制等風險也一直伴随着大模型 " 一同升級 " ……
近日,Anthropic 研究人員以及其他大學和研究機構的合作者發布了一篇名爲《Many-shot Jailbreaking》的研究,主要闡述了通過一種名爲 Many-shot Jailbreaking(MSJ)的攻擊方式,通過向模型提供大量展示不良行爲的例子來進行攻擊,強調了大模型在長上下文控制以及對齊方法方面仍存在重大缺陷。
據了解,Anthropic 公司一直宣傳通過 Constitutional AI(" 憲法 "AI)的訓練方法爲其 AI 模型提供了明确的價值觀和行爲原則,目标構建一套 " 可靠、可解釋、可控的以人類(利益)爲中心 " 的人工智能系統。
随着 Claude 3 系列模型的發布,行業中對标 GPT-4 的呼聲也愈發高漲,很多人都将 Anthropic 的成功經驗視作創業者的教科書。然而,MSJ 的攻擊方式,展示了大模型在安全方面,仍然需要持續發力以保證更加穩定可控。
頂級大模型齊汗顔,MSJ 究竟何方神聖
有趣的是,Anthropic CEO Dario Amodei 也曾出任 OpenAI 的前副總裁,而其之所以選擇跳出 " 舒适圈 " 成立 Anthropic 很大一部分原因便是 Dario Amodei 并不認爲 OpenAI 可以解決目前在安全領域的困境。而在忽略安全問題一味的追求商業化進程是一種不負責任的表現。
在《Many-shot Jailbreaking》的研究中顯示,MSJ 利用了大模型在處理大量上下文信息時的潛在脆弱性。這種攻擊方法的核心思想是通過提供大量的不良行爲示例來 " 越獄 "(Jailbreak)模型,使其執行通常被設計爲 " 拒絕 " 的任務。
" 上岸第一劍,先斬意中人 "。研究團隊同時測試了 Claude 2.0、GPT-3.5、GPT-4、Llama 2 ( 70B ) 以及 Mistral 7B 等海外的主流大模型,而從結果來看,自家的 Claude 2.0 也沒有被 " 幸免 "。
MSJ 攻擊的核心在于通過大量的示例來 " 訓練 " 模型,使其在面對特定的查詢時,即使這些查詢本身可能是無害的,模型也會根據之前的不良示例産生有害的響應。這種攻擊方式展示了大語言模型在長上下文環境下可能存在的脆弱性,尤其是在沒有足夠安全防護措施的情況下。
因此,MSJ 不僅是一種理論上的攻擊方法,也是對當前大模型安全性的一個實際考驗,用以提示開發者和研究者需要在設計和部署模型時更加關注模型的安全性和魯棒性
通過向 Claude 2.0 這樣的大型語言模型提供大量的不良行爲示例來進行攻擊。這些示例通常是一系列的虛構問答對,其中模型被引導提供通常它會拒絕回答的信息,比如制造炸彈的方法。
數據顯示,在第 256 輪攻擊後,Claude 2.0 表現出了明顯的 " 錯誤 "。這種攻擊利用了模型的上下文學習能力,即模型能夠根據給定的上下文信息來生成響應。
除了誘導大模型提供有關違法活動的信息,針對長上下文能力的攻擊還包括生成侮辱性回應、展示惡性人格特征等。這不僅對個人用戶構成威脅,還可能對社會秩序和道德标準産生廣泛影響。因此,開發和部署大模型時必須采取嚴格的安全措施,以防止這些風險在實際應用中複現,并确保技術被負責任地使用。同時,也要求持續的研究和改進,以提高大模型的安全性和魯棒性,保護用戶和社會免受潛在的傷害。
基于此,Anthropic 針對長上下文能力的被攻擊風險帶來一些解決辦法。包括:
監督微調(Supervised Fine-tuning):
通過使用包含良性響應的大量數據集對模型進行額外的訓練,以鼓勵模型對潛在的攻擊性提示産生良性的響應。不過,盡管這種方法可以提高模型在零樣本情況下拒絕不當請求的概率,但它并沒有顯著降低随着攻擊樣本數量增加而導緻的有害行爲的概率。
強化學習(Reinforcement Learning):
使用強化學習來訓練模型,以便在接收到攻擊性提示時産生合規的響應。包括在訓練過程中引入懲罰機制,以減少模型在面對 MSJ 攻擊時産生有害輸出的可能性。這種方法在一定程度上提高了模型的安全性,但它并沒有完全消除模型在面對長上下文攻擊時的脆弱性。
目标化訓練(Targeted Training):
通過專門設計的訓練數據集來減少 MSJ 攻擊效果的可能性。通過創建包含對 MSJ 攻擊的拒絕響應的訓練樣本,模型可以學習在面對這類攻擊時采取更具防禦性的行爲。
提示修改(Prompt-based Defenses):
通過修改輸入提示來防禦 MSJ 攻擊的方法,例如 In-Context Defense(ICD)和 Cautionary Warning Defense(CWD)。這些方法通過在提示中添加額外的信息來提醒模型潛在的攻擊,從而提高模型的警覺性。
直擊痛點,Anthropic 不打順風局
自 2024 年以來,長上下文是目前衆多大模型廠商最爲關注的能力之一。馬斯克旗下 xAI 剛剛發布的 Grok-1.5 也新增了長達 128K 上下文的處理功能。與之前的版本相比,模型處理的上下文長度增加至原先的 16 倍;Claude3 Opus 版本支持了 200K Tokens 的上下文窗口,并且可以處理 100 萬 Tokens 的輸入。
除了海外企業,國内 AI 初創公司月之暗面最近也宣布旗下 Kimi 智能助手在長上下文窗口技術上取得重要突破,無損上下文處理長度提升至 200 萬字級别。
通過更長的上下理解能力,能夠提升大模型産品提升信息處理的深度和廣度,增強多輪對話的連貫性,推動商業化進程,拓寬知識獲取渠道,提高生成内容的質量。然而,長上下文理帶來的安全和倫理問題不可小觑。
斯坦福大學研究顯示,随着輸入上下文的增長,模型的表現可能會出現先升後降的 U 形性能曲線。這意味着在某個臨界點之後,增加更多的上下文信息可能無法帶來顯著的性能改進,甚至可能導緻性能退化。
在一些敏感領域,就要求大模型在處理這些内容時必須非常謹慎。對此,2023 年,清華大學黃民烈團隊提出了大模型安全分類體系,并建立了安全框架,以規避這些風險。
Anthropic 此次 " 刮骨療毒 ",讓大模型行業在推進大模型技術落地的同時,重新認識其安全問題的重要性。MSJ 的目的并不是爲了打造或推廣這種攻擊方法,而是爲了更好地理解大型語言模型在面對此類攻擊時的脆弱性。
大模型安全能力的發展是一場無休止的 " 貓鼠遊戲 "。通過模拟攻擊場景,Anthropic 能夠設計出更加有效的防禦策略,提高模型對于惡意行爲的抵抗力。這不僅有助于保護用戶免受有害内容的影響,也有助于确保 AI 技術在符合倫理和法律标準的前提下被開發和使用。Anthropic 的這種研究方法體現了其對于推動 AI 安全領域的承諾,以及其在開發負責任的 AI 技術方面的領導地位。
大模型之家認爲,目前大模型的測試層出不窮,相比較幻覺帶來的能力問題,輸出機制帶來的安全危害更需要警惕。随着 AI 模型處理能力的增強,安全問題變得更加複雜和緊迫。企業需要加強安全意識,投入資源進行針對性研究,以預防和應對潛在的安全威脅。這包括對抗性攻擊、數據洩露、隐私侵犯等問題,以及長上下文環境下可能出現的新風險。