世界依靠數據運行。這一直是公認的事實,但數據的力量可能從未像今天這樣強大。我們生活在信息的巨大時代——一個看似無限的知識寶庫就在我們的指尖上。
但是,數據當然不僅僅是供個人使用。事實上,數據對商業世界的影響最大。數據是讓企業發展引擎保持運轉的燃料。
然而,事實是,企業平均使用的數據不到他們積累的一半。其餘的數據存留在了網絡上的某個地方,在那裏它變成了所謂的 " 暗數據 ",使您的客戶、員工和公司面臨風險。
什麽是暗數據?
處理暗數據的最大挑戰之一是,許多業務經理,即使是最高級别的經理,也不知道它是什麽或如何管理它。這是一個問題,因爲所有公司每天在開展業務時都會産生大量的暗數據。
暗數據是指通過普通業務交易收集的信息,這些信息在直接交易之外不具有特定的業務功能。它是通過普通業務流程生成的信息,即使在達到其直接目的後仍然存在。此信息可能包括客戶電子郵件或郵寄地址、電話号碼或購買日志。
由于數據沒有真正的業務效用,因此經常被遺忘、無組織且不安全的存儲。這是暗數據構成的真正威脅,因爲即使它對您的業務沒有合法功能,它也很容易被攻擊者利用以進行各種網絡犯罪,從身份盜竊到金融欺詐。
用最直接的術語來說,暗數據是組織不知道他們擁有的數據。它是龐大、複雜且不斷擴張的大數據世界的一部分,也是最大的一部分。
考慮一下組織爲特定目的收集和處理的所有數據。如果他們正在積極分析它,他們很可能知道數據的存在。但是,組織收集和存儲的其餘數據是未被使用、處理或分析的數據。潛伏在陰影中并隐藏在表面之下的數據,收集風險并沉睡在錯失的商機中。組織不可避免地擁有但自身卻不知道的無組織、未開發、未受保護和未知的數據。
暗數據的類型
組織産生、存儲的數據分爲三類:
1、關鍵業務數據,與企業持續增長和目标實現相關的高價值信息
2、隐藏在内部網絡中的冗餘、過時和瑣碎 (簡稱:ROT) 的數據,一旦發現,可以标記爲删除或移動到補救工作流中
3、公司不知道他們擁有未使用的暗數據,這會帶來持續的風險
未知數據可以位于任何地方,雖然非結構化數據在暗數據中占比最大,但它可以駐留在以下來源中:
1、結構化數據。這些數據由預定義的數據模型表征。它們基于文本,易于搜索,由日期、電話号碼、社會安全号碼、姓名和交易曆史等組成。這些數據通常存儲在行和列中,并存在于關系數據庫、數據倉庫等中。
2、非結構化數據。在這些情況下,沒有定義的數據模型。文本難以搜索,包括 PDF、圖像和視頻文件。數據以各種形式存在于應用程序、數據倉庫和數據湖中。示例包括電子郵件、消息和對話記錄,僅舉幾例。
3、半結構化數據。這是松散地組織在元級結構中,包含 HTML、XML 和 JSON 格式的非結構化數據。這些數據存在于關系數據庫、标記文本格式、摘要和圖表中。半結構化數據的示例包括服務器日志、按主題标簽組織的推文以及按文件夾排序的電子郵件。
未開發的數據可能包括被遺忘的數據、元數據、不再相關的已過時的敏感數據等。一些常見的例子包括:
電子郵件和郵件附件
下載然後忘記的 zip 文件
前員工數據,包括項目文件和注釋
演示文稿和電子表格
地理位置數據
日志文件和帳戶信息
交易曆史
客戶通話記錄和記錄
音頻、視頻、圖像和文本文件
财務報表
暗數據在哪裏生成?
Gartner 将暗數據稱爲 " 組織在常規業務活動中收集、處理和存儲的信息資産,但通常不會用于其他目的。"
因此,未使用的數據通常與被利用和處理的數據一起被收集。任何位置的任何數據(存儲在任何類型的數據源中,本地或雲中)都可能是暗數據。在普通組織的數據中,15% 是關鍵業務數據,33% 是 ROT 數據,52% 是暗數據 — 暗數據因其非常隐蔽的性質而容易受到攻擊并受到持續的風險。
首先,通過提出以下五個問題來确定您在流程中的位置:
1、您是否知道敏感的非結構化數據在哪裏,有多少數據,以及它對您的組織有多大的風險?
2、您是否跟蹤誰有權訪問數據?
3、如何在沒有自動化的情況下對企業範圍内的合規性數據進行分類和标記?
4、您多久對結果進行一次分類、驗證和補救?
5、您如何了解數據風險并保護敏感數據的隐私?
暗數據挑戰
暗數據通常與目的驅動的數據一起被捕獲,因此通常包含敏感、個人、受監管、易受攻擊或高風險的信息,這些信息必須不落入壞人之手。這些數據未經分析的事實給公司帶來了主動和被動的問題——這些問題可能導緻巨大的成本。
實際上,暗數據僅僅存在于公司的系統中,而不被注意,沒有适當的保護措施,有時會持續很長時間,從而增加安全風險。由于數據是未知的,因此也沒有公司通常會爲合規而實施的必要監管流程。由于未知數據基本上被忽略,惡意攻擊者認爲它的時機已經成熟。
此外,未開發的數據可能包含有價值的信息,如果公司隻知道它的存在、它包含什麽以及如何定位和利用它,他們就可以利用這些信息來獲得洞察力。企業可能會花費數百萬美元收集或分析新數據,以從他們已經擁有的相關信息中獲得見解,并可以利用正确的技術。
查找和識别暗數據
了解暗數據的存在并且認識到這是一個問題,是降低風險的必要步驟,但還不夠。企業領導者還必須了解在哪裏可以找到它,如何識别它以及如何處理它。
在查找、識别和管理暗數據時,您最好的策略将是數據映射。通過數據映射,您将能夠确定正在生成哪些數據,何時、如何以及在哪裏生成。跟蹤數據源通常是确定數據生成後去向的第一步。
反過來,這使您能夠找到潛伏在網絡中的所有曾經隐藏的信息,尤其是在雲中。這意味着您将能夠更好地識别哪些數據點躲過了您的雲數據管理流程和相關控制。
無論數據類型如何,發現和分類的工作流都可以分爲三個主要階段。
1、使用正則表達式、列表、算法和機器學習來查找敏感數據。
2、顯示已找到的數據的清晰表示形式,以便所有人都可以看到。
3、使用所表示的數據遵守數據隐私政策和法規,以最大程度地減少退款、罰款和客戶流失。
最後,您需要将所有三種數據類型完全可見并且都在一個地方。其中非結構化數據尤其重要,非結構化數據每年增長 55-65%。通過連接非結構化數據源,您可以獲得所有非結構化數據的可靠清單,發現可能使您的組織面臨風險的隐藏數據,并驗證和實施文件授權。
您應該如何處理暗數據?
查找和分類未知數據對于組織的隐私、安全性和合規性計劃至關重要。如果您不知道您的數據存在,則無法确保其符合合規性,并且無法将數據與身份相關聯,則無法滿足數據隐私标準。此外,您無法保護您不知道自己擁有的東西,也無法知道它需要什麽級别的保護。因此,未知數據具有未知的風險水平,但通常更容易洩露且更容易受到數據洩漏的影響——考慮到它很可能包含個人和敏感信息,這是一個非常可怕的消息。
對于許多企業來說,開始捕獲未開發的數據似乎勢不可擋,但從中查找、分類、分析和釋放價值的過程隻是實施正确的發現解決方案的問題。公司需要機器學習驅動的技術,這種技術具有深入的發現基礎,可以在所有系統和資源中ーー無論在組織中的任何地方,無論數據藏在哪裏ーー找到數據。
暗數據分析
暗數據分析是指公司用來定位未知數據的技術解決方案,以便可以釋放其價值,從而爲更好的業務決策提供信息。
優先考慮挖掘暗數據的公司已做好充分準備,以降低風險并釋放有價值的業務見解,從而幫助他們的組織成長和發展。啓用解決方案,以便将以前未開發的數據移動到數據分析平台,可以更廣泛、更準确地查看整個企業中的客戶數據。
照亮暗數據
爲了保護暗數據免受不良行爲者的侵害并将其提供給業務審計員,組織需要找到它并發現哪些數據是敏感的,哪些是可以暴露的。發現和分類暗數據使組織能夠利用這些以前未知的信息進行決策。爲此,安全團隊需要知道敏感的暗數據駐留在何處、誰訪問它以及何時發生濫用,以便立即采取行動。
評估和修改組織的暗數據有兩種主要方法。有獨立的咨詢專家可以代表組織審查數據環境并對未使用和未編目的數據進行深入審查。組織還可以使用正确的工具自動查看其所有數據存儲庫,無論其數據位于何處。這通常是可取的,因爲它進一步使組織能夠識别違規行爲,識别内部權限(誰可以看到什麽),發現組織數據安全的其他差距,并識别可能危及機密和私人數據的潛在惡意或疏忽行爲。如果組織選擇使用數據分析解決方案而不是外部承包商,他們總是會更全面、更敏銳、更準确地了解他們的數據,并就如何繼續補救任何風險采取更明确的行動。
隻有組織能夠了解其暗數據,才能發現其業務價值并相應地保護這些數據。構建一個基本框架以 " 标記 " 或編目這些隐藏數據是獲得該見解的第一步。否則,組織就無法遵守數據治理标準、區域法規合規性、提供真正有效的安全性或爲其客戶和員工保證數據隐私。
組織需要知道他們的數據是否已經可見并被使用,是托管數據、業務關鍵型過時冗餘數據還是暗數據?了解數據在哪裏、是什麽以及必須對其應用哪些标準和策略至關重要。了解誰在訪問它以及如何(和應該)管理組織數據都是分類和發現的基本框架的一部分。經過适當的調查,可以安排删除真正過時的暗數據,從而減少數據存儲所需的容量和相關成本。
保護雲中的暗數據
在您發現并準确識别出可能堵塞系統(并且每年可能使您的公司損失數百萬美元的存儲費用)的龐大暗數據存儲庫之後,是時候組織起來了。
正如我們所看到的,暗數據可能會對您的網絡安全構成重大風險,并破壞您的數據安全合規性。這些數據中的大部分很可能是敏感或私有的,應該受到保護,但事實并非如此。
對曾經的 " 暗 " 數據開展組織工作意味着對其進行嚴格的分析,以準确了解數據應該落在公司系統治理流程範圍内的位置。例如,關鍵是要确保您保護曾經隐藏的數據免受内部威脅,例如不擁有适當權限的員工的訪問或利用。
正确組織隐藏數據對于圍繞公司的敏感信息安裝額外的保護層也至關重要。例如,雲數據存儲雖然提供了重要的安全性,但絕不是無懈可擊的。
雲系統面臨數據洩露的風險,除非制定适當的程序來限制訪問并增強安全性。這可能包括優化雲安全性的措施,例如使用多因素身份驗證過程或加密現在組織的最敏感的暗數據。
總結
暗數據對當今的企業、員工和消費者來說是一種無處不在但相對較少被認識到的威脅。這是普通業務流程的必然結果,但許多商業領袖,包括訓練有素的技術專家,都不知道它是什麽或如何管理它。
暗數據是通過普通業務事務生成的信息,但除了該直接事務之外,它沒有實際的業務效用。但是,生成的數據不會消失。相反,它們揮之不去,經常被遺忘,直到它們被不良行爲者發現并用于邪惡目的。學習查找、識别和組織暗數據(尤其是存儲在雲中的暗數據)對于保護公司和消費者免受一系列威脅(包括金融欺詐和身份盜用)至關重要。