新加坡南洋理工大學的計算機科學家們近日成功入侵了多個人工智能(AI)聊天機器人,包括 ChatGPT、谷歌 Bard 和微軟必應聊天機器人,生成了所謂的 " 越獄 "(即破解)内容。
" 越獄 " 是計算機安全領域的一個術語,指計算機黑客發現并利用系統軟件中的缺陷,讓軟件執行其開發者有意限制它執行的一些操作。
此外,通過使用提示數據庫訓練大語言模型(LLM)——這些提示已經被證明可以成功破解這些聊天機器人。研究人員創建了一個 LLM 聊天機器人,能夠自動生成進一步的提示以破解其他聊天機器人。
LLM 構成了人工智能聊天機器人的大腦,使它們能夠處理人類輸入的一些内容,并生成與人類幾乎相同的文本,這包括完成如規劃旅行行程、講述睡前故事以及開發計算機代碼之類的任務。
南洋理工大學研究人員的研究工作增加了 " 越獄 " 這項任務。他們的發現這項任務的結果可能對幫助公司企業意識到 LLM 聊天機器人的弱點和局限性至關重要。清楚到弱點之後它們就可以采取措施,加強防範黑客的工作。
研究人員對 LLM 進行了一系列概念驗證測試,以證明他們采用的技術的确對 LLM 構成了明确而實際的威脅,發起成功的越獄攻擊後,立即向相關服務提供商報告了問題。
圖 1. 越獄攻擊示例
目前,LLM 聊天機器人在日常使用中廣受歡迎。開發者已經設置了護欄機制,以防止人工智能生成暴力、不道德或犯罪的内容。且現在研究人員已經使用人工智能來對付人工智能," 越獄 "LLM 以生成這類内容。
論文的合著者南洋理工大學博士生劉奕(Liu Yi)表示:" 論文提出了一種新穎的方法,可以自動生成破解強化版 LLM 聊天機器人的越獄提示。使用越獄提示對 LLM 進行訓練,就可以自動生成這些提示,從而獲得比現有方法高得多的成功率。實際上,我們利用聊天機器人攻擊其他聊天機器人。"
研究人員的論文描述了一種 " 越獄 "LLM 的雙重方法,他們稱之爲 "Masterkey"(萬能密鑰)。
首先,他們對 LLM 如何檢測和防禦惡意查詢進行了逆向工程分析。他們掌握了相關信息後,教 LLM 自動學習和生成提示,從而繞過其他 LLM 的防禦機制。這個過程可以實現自動化,創建一種可以越獄的 LLM,從而能夠适應并創建新的越獄提示,即使在開發者給 LLM 打補丁之後也是如此。
研究人員的論文發表在預印本服務器 arXiv 上,已獲準在 2024 年 2 月于美國聖叠戈舉行的網絡和分布式系統安全研讨會上發表。
阻止 LLM 生成不道德内容
人工智能聊天機器人接收來自用戶的提示或一系列指令,所有 LLM 開發者都制定了指導方針,以防止聊天機器人生成不道德、可疑或非法的内容。比如說,如果詢問人工智能聊天機器人如何創建惡意軟件來入侵銀行賬戶,它們通常會拒絕回答。
但人工智能聊天機器人仍容易受到越獄攻擊。它們可能會被攻擊者破壞,濫用漏洞,迫使聊天機器人生成違反既定規則的輸出内容。
有研究人員探究了繞過聊天機器人的方法,他們設計了一些不被倫理道德指導方針注意的提示,以便誘騙聊天機器人對這些提示做出回應。比如說,人工智能開發者依賴關鍵字審查器來挑出可能标記潛在可疑活動的某些單詞,并在檢測到這些單詞後拒絕回應。
研究人員采用的一種繞過關鍵詞審查器的策略是創建一個用戶角色(persona),提供在每個字符後面僅含空格的提示。這規避了 LLM 審查器,LLM 審查器使用禁用單詞列表進行比對審查。
研究人員可以通過手動輸入提示,并觀察每個提示成功或失敗的時間,以此推斷 LLM 的内部工作機理和防禦機制。然後,他們就能夠對 LLM 隐藏的防禦機制進行逆向工程分析,進一步确定其有效性,并創建一個成功破解聊天機器人的提示數據集。
黑客和 LLM 開發者之間的較量愈演愈烈
黑客發現并揭露漏洞後,人工智能聊天機器人的開發者會以 " 修補 " 這個問題作爲回應,因此黑客和開發者之間上演了一場無休止的貓捉老鼠把戲。
憑借 Masterkey,計算機科學家在這番較量中加大了籌碼,因爲人工智能越獄聊天機器人可以生成大量提示,并不斷學習哪些提示有效、哪些提示無效,允許黑客用自己的工具擊敗 LLM 開發者。
研究人員首先創建了一個訓練數據集,含有他們在早期越獄逆向工程階段發現有效的提示,以及不成功的提示,以便 Masterkey 知道不應該做什麽。研究人員一開始将該數據集饋入到 LLM 中,随後進行連續的預訓練和任務調優。
這将模型暴露在各種各樣的信息中,并通過針對與越獄直接相關的任務進行訓練,來提升模型的能力。其結果是,LLM 可以更準确地預測如何操縱文本進行越獄,從而生成更有效、更普适性的提示。
研究人員發現,就越獄 LLM 的效果而言,Masterkey 生成的提示比 LLM 生成的提示高出三倍。Masterkey 還能夠從過去失敗的提示中學習,實現自動化,不斷生成新的、更有效的提示。
研究人員表示,他們的 LLM 可以被開發者用來加強聊天機器人的安全性。