Lasso Security 的研究人員近日在代碼存儲庫中發現了 1681 個暴露的 Hugging Face API 令牌,這使谷歌、Meta、微軟和 VMware 等廠商面臨潛在的供應鏈攻擊。
Lasso Security 在發布的聲明中表示,暴露的 API 令牌使其研究人員能夠訪問 723 家組織的 GitHub 和 Hugging Face 代碼存儲庫,這些代碼庫含有大語言模型和生成式 AI 項目方面的高價值數據。數據科學社區和開發平台 Hugging Face 表示,它擁有超過 50 萬個 AI 模型和 25 萬個數據集。
暴露的 API 令牌使衆多組織的生成式 AI 模型和數據集面臨各種威脅,包括供應鏈攻擊、訓練數據中毒和模型被盜。其中 655 家組織的令牌具有寫權限,這使得研究人員可以全面訪問代碼存儲庫。
一些可以全面訪問的代碼存儲庫面向諸如開源的 Meta Llama 2、EleutherAI 的 Pythia 和 BigScience Workshop 的 Bloom 之類的平台和大語言模型。
Hugging Face 在聲明中表示,所有暴露的 API 令牌現都已被撤銷,但該公司似乎将責任主要歸咎于客戶。由于用戶在 Hugging Face Hub 和 GitHub 等平台上發布了令牌,這些令牌被暴露。Lanyado 表示,Hugging Face 也有責任,并建議它應該不斷掃描暴露的 API 令牌,要麽直接撤銷,要麽通知用戶。
Meta、谷歌、微軟和 VMware 等許多組織和用戶非常迅速地采取了行動,他們在報告發布的同一天就撤銷了令牌,并删除了公共訪問令牌代碼。
搜索 API 令牌
随着大語言模型和生成式 AI 模型大行其道,Lasso Security 希望更仔細地研究 Hugging Face 的安全性,畢竟這是開發者社區的一個關鍵平台。研究人員決定使用該平台的搜索功能掃描 Hugging Face 和 GitHub 上的代碼存儲庫,以尋找暴露的 API 令牌。
研究人員在使用正則表達式(regex)搜索代碼時遇到了障礙,最初的搜索在 GitHub 上隻獲得了前 100 個結果。然後,研究人員搜索 HuggingFace API 令牌正則表達式,以查找用戶和 org_api 令牌,返回了數千個結果。然而,他們隻能讀取其中的 100 個結果。
在 Hugging Face 上掃描暴露的 API 令牌來得更困難,因爲該平台不允許使用正則表達式進行搜索,于是研究人員改而通過子字符串搜索 API 令牌。
在掃描這兩個平台上的代碼存儲庫之後,研究人員使用了 "whoami"HuggingFace API 調用,結果不僅提供了單個令牌的有效性,還提供了用戶的姓名、電子郵件、組織以及令牌及其他信息的權限和特權。
研究人員發現了另一個與 Hugging Face 的 org api 令牌有關的問題,該公司之前已經棄用了這些令牌,還通過檢查登錄函數中的令牌類型來阻止它們在 Python 庫中的使用。然而,通過對庫中的登錄函數進行小幅改動,org_api 令牌的讀取功能依然适用。
盡管令牌已被棄用,但研究人員發現他們可以使用暴露的 org_api 令牌從代碼存儲庫下載私有模型。舉例來說,研究人員獲得了讀取和下載來自微軟的私有大語言模型的能力。
鑒于這些暴露,Lanyado 建議組織在對生成式 AI 項目和大語言模型進行代碼審查時采用令牌分類,并避免任何硬編碼令牌。在快速發展的數字環境中,早期檢測對于防止潛在危害、保護大語言模型具有重要意義。