人工智能領域的最新進展導緻了大語言模型(LLM)問世,包括 GPT-3、PaLM、GPT-4 和 LLAMA。這些模型可以生成易于理解的文本段落、回答詳細的問題、解決複雜的問題、編寫代碼以及處理其他各種自然語言任務。
LLM 徹底改變了自然語言處理(NLP)任務,改變了用戶與語言進行交互的方式,最終通過改進後的聊天機器人、虛拟助手、内容生成、搜索引擎和語言學習平台,影響了人們的日常生活。
雖然不可否認 LLM 進步巨大,有助于日常使用,但在網絡安全領域,它已成爲一把雙刃劍,無意中爲網絡犯罪分子開創了黃金時代。LLM 允許攻擊者更高效更頻繁地進行一系列攻擊(包括魚叉式網絡釣魚和商業電子郵件入侵等社會工程伎倆),因爲它能夠立即生成數千條獨特的明文攻擊消息。好消息是,LLM 并非沒有缺陷,尤其在用于生成攻擊時。
我們在本文中将探讨防禦者如何利用 LLM 對抗由同樣的 LLM 生成的攻擊。
LLM 攻擊:形式不同,實質相同
不妨先從分析三封電子郵件入手,每封郵件發送給我們保護的不同組織的用戶。這些惡意電子郵件都是商業電子郵件入侵(BEC)攻擊,攻擊者通常冒充一家公司的高層人員,比如首席執行官或首席财務官,并指示員工購買禮品卡以獎勵同事。
電子郵件 1:
(圖 1 )
電子郵件 2:
( 圖 2 )
電子郵件 3:
( 圖 3 )
如果你仔細看一下這些郵件,就會發現有着顯著的相似之處,如下所述:
相似之處 | 例子 1 | 例子 2 | 例子 3 |
贊賞信息 | 忠誠和努力創造美好未來 | 美妙過程、努力、忠誠和專注打動了高層管理人員 | 美妙過程、努力、忠誠和專注打動了我 |
行動 | 送禮品卡,給一些員工以驚喜 | 送禮品卡,給一些高級員工以驚喜 | |
要求保密 | 要求你保密,以免敗壞這份驚喜的效果 | 要求你保密,以免敗壞份驚喜的效果 | |
潛在的禮品卡 | Amex、維薩和塔吉特 | Amex、維薩和亞馬遜 | 維薩、塔吉特和 Amex |
請求協助 | 想聽聽意見,了解最近的商店,爲我迅速購買禮品 | 想聽聽意見 | 你能找到的最近商店,爲我迅速購買禮品 |
簽收 | 一收到該電子郵件請回複,緻以新年問候 | 一收到該電子郵件請回複,緻以感恩節問候 | 期待你的回複,緻以美好祝願 |
從注意到的相似之處來看,可以假定電子郵件使用了模闆。此外,易于識别的模式可以歸因于 LLM 的訓練過程。
當 LLM 接受訓練時,它接觸到大量的文本數據,使其能夠學習和内化模式。這些模式包括常見的語言結構、短語和内容元素。因此,當受過訓練的模型用于生成文本時,它會借鑒這學習到的知識,并将這些模式整合到輸出中,從而導緻熟悉的主題和内容元素重複出現。
LLM 防禦?LMK
Perception Point 利用了 LLM 生成的文本中的模式,并用 LLM 來增強威脅檢測。爲了做到這一點,我們使用了 transformer,這種高級模型可以理解文本的含義和上下文,LLM 也使用了這種高級模型。
使用 transformer,我們可以執行文本嵌入,這個過程通過捕獲文本的語義本質,将文本編碼成數字表示。我們使用先進的聚類算法對語義内容密切相關的電子郵件進行分組。通過聚類,我們可以訓練模型來區分屬于同一聚類的電子郵件。這使模型能夠學習和識别由 LLM 生成的内容中的模式。
當新的電子郵件進入我們的高級威脅防護平台時,模型會掃描其内容,以确定它是否是由 LLM 生成以及它被惡意使用的可能性。如果發現生成的文本是惡意文件,模型将提供潛在攻擊的詳細信息。
說到檢測人工智能生成的惡意電子郵件,還存在另外一個與誤報判定有關的障礙。如今,許多合法的電子郵件都是借助 ChatGPT 等生成式人工智能工具構建的,其他電子郵件常常是由含有重複短語的标準模闆構建的(新聞通訊、營銷電子郵件和垃圾郵件等),這些模闆與 LLM 模型的結果非常相似。
我們新模型的顯著特點之一是它的三階段架構,專門設計用于最大限度地檢測由 LLM 生成的任何有害内容,同時保持極低的誤報率。
在第一階段,模型賦予 0 到 1 之間的分數,以評估内容由人工智能生成的概率,然後模型切換到分類模式。借助先進的 transformer 和完善後的聚類算法,内容被分爲多個類别,包括 BEC、垃圾郵件和網絡釣魚。再提供 0 到 1 之間的分數,标記内容屬于這些類别的概率。
第三個也是最後一個階段融合了前兩個階段的評估結果,并補充了數字特征,比如發送方信譽評分、身份驗證協議(DKIM、SPF、DMARC)以及我們收集的其他證據。基于這些輸入信息,模型對内容由人工智能生成的可能性以及它是惡意内容、垃圾郵件還是幹淨内容做出最終預測。
爲了查看實際運行的模型,我們讓 ChatGPT 編寫一封示例電子郵件:
( 圖 4)
如你所見,輸出含有用于個性化的括号。接下來,我們将生成的文本發送給模型,沒有括号。值得一提的是,對于下面的所有示例,階段 3 中提到的幾十個數值都被視爲郵件是從新的發件人發送的。
(圖 5)
模型返回的置信度分數爲 0.96,将該内容描述爲潛在的 BEC 攻擊,具體是使用禮品卡請求從受害者那裏竊取資金的郵件。
然後,我們測試了模型在面對生成較長的文本時的表現:
(圖 6)
(圖 7)
(圖 8)
就像針對較短文本的初始判定一樣,模型還将生成的較長文本分類爲潛在的 BEC 禮品卡攻擊,得分爲 0.92。
爲了進一步測試模型,我們随後讓 ChatGPT 撰寫一封電子郵件,要求收件人提供 W-2 表格。這是一種廣泛使用的社會工程攻擊,因爲 W-2 表格用于報告員工的年薪以滿足稅收要求。對于網絡犯罪分子來說,這無異于一座金礦,擁有豐富的個人和财務信息,可用來進行身份盜竊、稅務欺詐,甚至用于更複雜的社會工程攻擊。
以下是 ChatGPT 給出的答案:
(圖 9)
(圖 10)
(圖 11 )
即使我們給了 ChatGPT 更詳細的說明,模型仍然可以正确地對内容進行分類——在這種情況下,将其分類成潛在的 W2 社會工程攻擊,得分爲 0.87。
結語
我們在本文中探讨了網絡防禦者如何利用 LLM 生成的攻擊存在的漏洞和局限性。通過了解這些弱點,防禦者就可以制定有針對性的緩解策略,并利用 LLM 作爲消除威脅的寶貴工具 , 積極采用主動性、适應性的方法,防禦者可以加強防禦,比攻擊者領先一步。