盡管相關組織采用了多種保護措施,但涉及個人身份信息(PII)的數據洩露仍然會給各行各業造成重大的經濟損失。根據 IBM 發布的《2023 年數據洩露成本報告》顯示,在 2022 年 3 月至 2023 年 3 月期間,被洩露的客戶和員工 PII 分别給企業造成了每條記錄 183 美元和 181 美元的損失。
匿名化(Anonymization)是最有效的數據保護措施之一,可以防止個人數據洩露,或者至少可以降低每個洩露的個人數據記錄的成本。在本文中,我們将了解什麽是數據匿名化,研究其類型和主要挑戰,并提供有關匿名化數據的最佳實踐。
什麽是數據匿名化?
數據匿名化是将敏感的個人信息轉換爲不能與特定人員聯系的匿名數據的過程。此過程包括删除或編輯 PII。根據個人身份信息的獨特性和個人身份識别的難易程度,個人身份信息可分爲兩類:
·直接标識符(Direct Identifier),指的是可用于直接識别個人的唯一信息,包括姓名、物理地址、電子郵件地址、可識别的照片、電話号碼和社保号碼等。
·間接标識符(Indirect Identifier),也稱爲 " 類識别符 ",指能夠幫助建立信息之間的關聯,将要識别的個人從人群中摘選出來的數據。常見的間接标識符包括生日、年齡、性别、郵件編碼等。這些數據無法單獨識别某人,但稍作組合就可以實現強大的識别能力。
數據匿名化可以幫助公司保護其客戶、員工或合作夥伴的敏感信息隐私,同時仍允許他們将其用于商業目的。因此,如果惡意行爲者設法破壞以前匿名化的數據,他們将無法輕松識别該數據屬于誰;反過來,數據匿名化有助于防止身份盜竊、金融欺詐、跟蹤和騷擾、歧視和其他侵犯隐私的行爲。
根據 Verizon 的《2023 年數據洩露調查報告》,個人數據是以下行業中最常見的數據洩露類型:
·金融和保險,個人數據洩露占比 74;
·醫療保健,67%;
·制造業,60%;
·專業的科學和技術服務行業,57%;
·教育服務,56%;
·信息行業,51%;
·采礦、采石、石油和天然氣開采和公用事業政府,50%;
·公共管理機構,38%。
由于數據洩露,各行各業仍在丢失大量個人數據,上述統計數據強調了實施量身定制的個人數據保護措施的重要性。
個人數據洩露不僅表明組織的安全存在漏洞,還可能導緻客戶信任和收入的損失、違規罰款和法律責任。
通過隐藏或删除收集數據中的 PII,組織可以将未經授權訪問内部數據資産所造成的損害降至最低。這就是匿名化的目的。
數據匿名化的類型
數據的匿名化可以通過多種方式實現,以下是一些最常見的數據匿名化技術:
1. 數據脫敏(Data Masking)
數據脫敏,又稱數據漂白、數據去隐私化或數據變形,指的是對數據集中的敏感信息進行加密,以便在企業用于分析和測試時保護原始數據。在涉及用戶安全數據或一些商業性敏感數據的情況下,在不違反系統規則條件下,對真實數據進行改造并提供測試使用,如身份證号、手機号、卡号等個人信息都需要進行數據脫敏。
當數據需要由不同的各方共享或訪問時,這種技術通常很有用。例如,可以用随機生成的字符或數字替換諸如社會保險号、姓名和地址之類的個人識别信息(PII),或者用 "X" 替換社會保險号或信用卡号中除最後四位數字以外的所有數字,從而保護數據安全。
2. 數據泛化(Data Generalization)
顧名思義,這種技術是用更通用的數據值替換特定的數據值,敏感數據可以被修改成一系列的範圍或一個具有合理邊界的大區域,或者在保持數據準确性的前提下,删除一些标識符。例如,一個人的确切年齡是匿名的,隻顯示一個更通用 / 廣泛的年齡範圍,比如 25-34 歲。因此,這種技術可以應用于多種類型的數據,例如人口統計數據或事務數據。值得注意的是,平衡對數據執行的泛化也很重要,這樣它就不會損害數據對分析的有用性。
3. 數據置換(Data Swapping)
這種技術指的是在數據集中重新排列或置換兩個或多個敏感數據記錄,匿名化是通過将一條記錄中的值與另一條記錄的相應值置換或交換來完成的,即置換數據集中兩條記錄的位置。例如,在包含姓名或社會保險号等敏感信息的醫療記錄中,置換某些字段的值将有助于保護患者的隐私,同時保持所有其他記錄的完整。對數據集中兩個或多個個體之間的值進行置換不僅能夠保留數據集的統計屬性,還能保護個體的身份安全。
4. 數據假名化(Pseudonymization)
這種技術被認爲不如其他匿名化技術(如數據脫敏)有效,後者确保匿名數據集難以檢索,在這種技術中,原始 PII 被替換爲假标識符或假名,但保留了可以訪問原始數據的特定标識符。因此,虛假标識符可能與個人的真實身份直接相關,也可能不直接相關。數據假名化通常用于任何業務分析或測試不需要敏感或個人數據,但需要掩蓋個人身份的情況。例如,在醫學研究中,根據倫理和強制立法,病人的身份可能需要模糊。但是,可能仍然需要某些形式的病人身份證明,以便将不同來源的醫療記錄聯系起來。
它可以與散列、加密或令牌化等方法結合使用。例如,将姓名或身份證号等數據轉換爲固定長度的字符串,稱爲散列或随機生成的令牌(随機字母數字代碼),它是原始數據的唯一表示,但不能反向識别或顯示原始數據。然後,該散列可以用作原始 PII 的假名。
5. 差分隐私(Differential Privacy)
差分隐私(簡稱 DP)是用來保護隐私的密碼學技術,通過對查詢的結果加入噪音,使得查詢操作的實際結果隐藏起來或模糊化,直至無法區分,從而實現對敏感數據的保護。這種受控噪聲不會顯著影響對數據進行的任何分析結果的準确性;因此,它是一種基于擾動的匿名化的具體方法。添加到數據中的噪聲量由一個稱爲隐私預算的參數決定
不過,無論您選擇何種方法對組織中的數據進行匿名化處理,都仍可能會面臨一些挑戰。
數據匿名化的主要挑戰
有效的匿名化可以起到很好的屏障作用,然而,實現有效的匿名化并不像想象的那麽容易。以下是組織在匿名化數據時經常面臨的關鍵挑戰:
1. 平衡隐私和實用性
在數據匿名化和數據效用之間取得平衡至關重要,但也極具挑戰性。一方面,有效的匿名化過程對于保護客戶、員工和其他用戶的隐私至關重要。因此,能夠從數據中完全清除 PII 的匿名化技術和工具對于維護個人隐私非常有益。
另一方面,企業收集和使用對研究、分析和決策有價值的數據也是至關重要的。事實上,完全匿名的數據可能會對業務毫無價值,這使得數據收集和處理失去了原有意義。
組織的最終目标是實現和維護最大程度的隐私保護,同時保持足夠的數據準确性。實現這一目标可能需要對數據匿名化過程進行持續評估和優化。
2. 防止重标識(re-identification)
除非您使用的是一勞永逸地删除個人身份信息的匿名化技術,否則始終存在匿名數據被用來追蹤特定個人的風險。
惡意行爲者利用大量攻擊來重新識别個人,甚至重利用匿名數據。例如,如果他們設法訪問包含财務信息的匿名數據集,然後将其與其他數據集(如選民登記數據庫)結合起來,并最終執行重标識。
因此,組織必須确保所收集信息的隐私性。爲加強對數據隐私的保護,可考慮将匿名化與其他數據安全方法結合使用。
3. 遵守數據安全要求
各種數據保護法案定義了組織應該如何收集、存儲和處理個人信息。其中一些法案建議使用匿名化技術,例如:
·通用數據保護條例(GDPR)——這是一項歐盟法規,它沒有強制要求數據匿名化,但鼓勵使用匿名化技術來保護數據以及其他保護措施。
·加州消費者隐私法案(CCPA)——美國法案,強制組織匿名收集數據,以提高數據的隐私性。它還要求各組織采取一切必要手段保持數據匿名化并防止重标識。
·個人信息保護和電子文檔法案(PIPEDA)——加拿大的一部法律,要求組織保護個人信息,并将匿名化列爲數據保護方法之一。每一項立法都明确規定,組織需要像對待個人數據一樣對待匿名數據,并對其進行适當保護。
數據匿名化最佳實踐
下述數據匿名化最佳實踐可以幫助組織保護個人信息,同時保留數據的分析價值。
1. 進行數據發現和分類
如果不知道數據集中存在什麽 PII,談何匿名化數據。這就是爲什麽有必要識别收集和存儲的數據中的所有直接和間接标識符,執行數據發現和分類可以幫助實現這一點。
數據發現旨在簡化數據管理。它涉及到組織存儲的所有數據的标識、數據類型以及不同數據資産之間的關系;另一方面,數據分類結合了基于數據屬性和特征的分類和标記。通過将數據劃分爲不同的類别,數據分類使組織更容易實現針對各種類型數據的具體情況量身定制的安全措施。
實現這兩個實踐可以讓組織準确地識别需要匿名化的敏感數據,并确保所有此類數據均受到保護。此外,組織還可以以此決定使用哪些匿名化技術,并選擇能夠處理需要匿名化的具體數據的技術。
2. 優先處理數據用例
除非您确切地知道組織内的人員如何使用數據,否則您無法采取措施來保護數據。識别所有數據用例并對其進行優先級排序可以幫助您提高匿名化工作的效率。
考慮與組織内的數據使用者接觸,以确定他們如何使用數據以及出于什麽目的使用數據,它将幫助您揭示最常見的數據用例及其對您業務的重要性。然後,根據它們對數據隐私和業務價值構成的風險對這些用例進行優先排序。
有了數據用例的優先級列表,您将更容易決定應該首先匿名化哪些敏感信息,從而優化匿名化所需的資源和工作分配。
3. 映射相關法律規定
雖然保持敏感個人信息的安全是匿名化的最終目标,但對您的業務來說,遵守數據保護要求也至關重要。映射适用于組織的法律、标準和法規是遵循法規的第一步。爲了映射适用的法律要求,建議遵循以下步驟:
·确定适用于您的行業、位置和運營區域的要求;
·研究和理解要求;
·用您的團隊能夠理解的方式來解釋要求;
·将要求集成到您的工作過程中;
·記錄要求和既定的程序以滿足這些要求;
·持續監控這些要求是否有任何更改,以及是否出現新的要求;
·定期更新文件,提高員工對合規措施的意識。
除了幫助您采用正确的措施來實現合規性之外,映射相關的法律要求還可以增強您的數據匿名化工作。
4. 最小化數據收集
您可能認爲收集的數據越多,您的分析就越準确,對您的業務也就越有利。然而,大量的數據收集可能是有害的。當您收集了太多數據時,您很少會使用所有數據,但您仍然需要分配資源來存儲和保護未使用的數據資産。
最小化數據收集可以簡化數據匿名化過程,降低數據安全風險。因此,隻收集分析所必需的數據,避免收集未來可能永不會使用的數據。
5. 評估當前的技術堆棧
如今,許多平台都默認内置了數據匿名化功能。但是,您仍然需要評估當前技術的功能是否足以正确地匿名化個人數據,防止重标識,并滿足數據保護要求。
考慮分析當前技術棧的匿名化功能,以檢查它們是否與您想要達到的匿名化水平相匹配。此外,檢查它們是否能幫助您滿足适用于您組織的數據保護要求。
此過程将幫助您确定當前的堆棧是否足以滿足您的匿名化需求,以及是否存在需要通過部署其他數據匿名化工具來彌合的缺口。
6. 提前爲重标識做好準備
您的組織可能出于合法原因需要重标識以前匿名的數據。例如,您可能需要它進行數據分析、定制客戶支持或安全事件調查,這就是最好事先考慮去匿名化過程的原因所在。爲此,可考慮采取以下措施:
·驗證您的匿名化技術是否支持重标識;
·定義并記錄數據重标識的合法原因;
·制定關于重标識過程的指導方針,并指定可用于數據去匿名化的技術和工具;
·指定人員對重标識過程負責;
通過提前規劃數據重标識,您可以減少違反數據隐私的可能性,同時确保在需要時可以訪問數據。