大模型已經被廣泛應用在各類場景,幫助人們進行報告摘要、文本翻譯、數據分析、業務風控等各項工作,極大地提升了工作效率,但同時公衆對于大模型帶來的數據洩露的隐憂也從未停止。
近日,騰訊安全玄武實驗室披露了一項關于大模型隐私保護的安全脫敏與還原(Hide and Seek, HaS)技術,有望幫助大模型産品使用者從本地終端側防範隐私數據洩露。
HaS 爲業内首個支持信息還原的自由文本脫敏技術,通過對用戶上傳給大模型的 prompt(提示詞)進行隐私信息脫敏,并在大模型返回計算結果後進行恢複,該方案兼顧了隐私安全和計算資源消耗:脫敏與還原算法經過 4bit 量化後權重文件僅 500MB,可在手機、 PC 等終端上部署。
這是業内首個公開發布的、能被大模型用戶部署于終端側的隐私保護脫敏技術。借助這一技術,用戶可以從 " 源頭 " 免除使用雲端大模型帶來的數據洩露方面的擔憂。
據悉,這個模型主要适用于典型的 NLP 任務場景,例如機器翻譯、文本摘要,文本潤色、閱讀理解、文本分類、情感分析等,其主要的技術難點在于如何解決實體識别與替換、實體指代消解、多義詞識别、自糾錯魯棒性還原、實體翻譯等。此前,不少大模型提供方以及專業安全廠商均在積極進行相關的嘗試,但目前尚未有理想的解決方案。
" 在大模型應用中提示詞是一種自由文本,而針對自由文本的隐私保護問題,一種全密态的解決方案是通過安全多方計算(Multi-Party Computation, MPC)協議實現安全推理。然而,MPC 協議在計算成本和通信量上的高需求嚴重限制了其在大模型應用中的落地。" 騰訊安全玄武實驗室高級安全工程師陳昱表示," 實際上,多數場景下用戶并不需要保護整句的信息不洩漏,而僅需要保護其中的隐私實體不洩漏。" 玄武實驗室經過正則匹配、近義詞向量、BERT NER+CR 等方法的不斷探索試錯後,最終提出了這項技術。
實驗表明,HaS 的數據脫敏處理并不會對任務造成影響。在使用模型進行隐私保護與直接調用大模型相比 " 分類任務 " 與 " 翻譯任務 " 兩個場景的性能對比,在使用 560M 生成式方案下,文本分類任務的性能不僅沒有下降,反而增加了 0.14%;在 1.7B 标簽式方案下,機器翻譯任務性能僅下降了 0.85%。
騰訊安全玄武實驗室将上述研究發現以論文形式發布,更多技術細節可參考玄武官方博客(見文章最後)。
" 一些企業或者個人用戶開發者通過部署本地大模型來規避隐私數據洩露,但這要求一定的技術門檻,對于重度隐私需求的用戶來說,通過本地安全模型 / 算法來實現數據保護,可能是更可行的辦法。" 玄武實驗室正在逐步豐富這一模型的應用覆蓋面,并完善其部署和交付方式,以供企業用戶和個人用戶在未來能夠便捷使用。
數據如今在社會生活生産中扮演越來越重要的角色,數據安全也始終是産業數字化進程的核心議題。騰訊安全持續緻力于解決數據安全問題,護航各行各業産業升級。
詳細技術報告地址:
https://xlab.tencent.com/cn/2023/12/05/hide_and_seek/
雷峰網