大數據工具變遷簡史：人的需求，略大于算法的疆域

圖片來源 @視覺中國

文 | 晨山資本，作者 | 吳文超

近年來，人們頻頻「遭遇」各類大數據工具，體驗到許多前所未有的變化。不管是驚喜還是驚吓，數據工具都在加速整個社會的數字化轉型，面對這樣的趨勢，加深我們對數據工具的認識和理解将越來越重要。

本文對大數據工具的變遷作了階段性總結，并對未來數據産品的新方向進行探讨。通過當下可識别的坐标，銘刻十年前的曆史引爆點，呈現數據生态鍊的環環相扣，也看見大數據工具不隻是一套封閉的技術體系，人與數據産品互緣同構，它的一頭接入算法的革新脈絡，另一頭與人的生産生活有機相連，持續回應更新的現實、觀念和技術，并不斷衍生出新的形态支撐各個行業的運轉。

不過，無論解題工具（數據工具）多好，解題思路（算法）多棒，最終我們還是要一遍遍回到最原始的價值拷問——我們解題是為了什麼？我們還将探讨工具大衆化、跨雲互通、架構融合和數據安全等數據産品的新方向。

自 1946 年計算機發明以來，我們經曆了軟件、互聯網、移動互聯網到現在萬物可聯的時代。計算機也從最初的輔助「計算」功能，到現在成為我們承載信息的重要「伴侶」。個人的社交、購物、旅行等生活内容，企業的設計、生産、經營和管理都以數據的形式被記錄着。

這些變化，在近十餘年，尤其是移動互聯網（PC 時代計算機還隻是觸達了少部分人）讓普通人的信息被計算機記錄開始，令大家感受尤其明顯。這背後同時也是一段數據工具的變遷史。

01 曆史引爆點與萌芽期

在互聯網出現之前，軟件還主要服務于企業，過程中誕生了如 Oracle、SAP、IBM 等為企業提供信息化的軟件公司。在漫長的時期中，軟件承載着數據記錄、計算和管理能力，數據庫也以 Oracle、IBM 等公司的産品服務于數據管理需求為主。

在後期，随着企業經營決策複雜性的提升，利用數據分析進行決策的需求逐漸被提出，出現了 Teradata 等數據倉庫産品，Oracle、IBM 等傳統數據庫企業也都紛紛推出自己的解決方案。這幾十年的時間裡，大家更多講的是軟件而非數據。甚至到 PC 互聯網時期，真正接觸和使用計算機的人依然有限。

2010 年左右，智能手機的出現，移動互聯網的爆發，實現「人聯」，才真正開啟了數據時代。也是在這前後，數據量的爆發式增長帶來了數據工具的爆發。

▲ 2010 年左右是數據工具爆發的奇點

2010 年左右數據工具大爆發，數據平台架構百花齊放。

2010 年之前傳統數倉還是以處理信息化系統中的結構化數據為主。2010 年，為了應對移動互聯網中出現的大量用戶行為日志等非結構化數據，以 Hadoop 為代表的大數據平台在此背景下誕生，揭開了大數據工具的序幕。并于随後幾年出現了一大批圍繞着 Hadoop 生态的大數據産品。

Hadoop 批量處理能力強，但實時性差，難以滿足應用系統對用戶提供更加實時服務的需求，此時 Spark、Flink 等流式處理平台橫空出世。批流數據并行的 Lambda、Kappa 等架構逐漸成為主流。

随着 Hadoop 的非實時性缺陷越來越讓人難以忍受、硬件成本的持續下降和雲計算的滲透，MPP 架構的數倉再次回到人們的視野，尤其是 Snowflake 以雲數倉的方式刷新了大家對傳統數倉的認知，國内新的數倉解決方案也如雨後春筍般出現。

然而，數據平台架構演進的步伐并沒有因此停止，數據湖、湖倉一體等架構在最近兩年又被大家提出和應用。

事實上，百花齊放的數據平台架構背後是數據和應用複雜度的提升，優秀的産品永遠緻力于把功能做到極緻，突破自身産品能力的邊界；而優秀的用戶永遠在尋找适合自己的架構設計和産品組合，用戶和産品就這樣并行推動數據工具的發展。在這過程中也誕生了大量優秀的數據産品企業，如 Splunk、Databricks、Snowflake、Clickhouse 等。

▲ 數據平台架構的變遷

數據工具是一個生态鍊。

以上更多是從橫向看整個數據架構的變遷，但縱向來看，任何一個數據架構都并不是孤立的，而是需要一整套數據處理的工具鍊才能完成數據處理的閉環，包括采集傳輸、查詢處理、數據轉換和分析、輸出等多個環節。雖然數據流的順序可能不完全一樣，但模塊基本一緻。生态産品的誕生也和前面架構設計的多樣性、應用的多樣性息息相關。

我們看到另外一個比較主流的創業方向便是兼容于各種數據工具和應用系統的生态工具，如做數據采集的 Fivetran、管道傳輸的 Kafka 和建模轉換引擎 dbt。

▲ 數據處理的典型環節資料來源：a16z.com

數據産品衆多，架構選型成為關鍵。

經過十餘年的發展，受益于開源、國内外互聯網大企業的引領和創業公司不斷創新，數據工具也是層出不窮，每一個數據處理環節都有大量可選工具。

工具沒有絕對優劣，而用工具的人至關重要，如何搭建适合業務需求的工具組合才是用戶需要重點關心的問題。

▲ 數據處理的各個環節工具衆多

02 需求和算法驅動數據産品滾滾向前

現在我們擁有衆多大數據的工具，但工具背後本身誕生的背景是什麼，為什麼會有如此多的工具？

這最終還是要回歸到方法和價值上：我們處理的思路有什麼革新？為什麼要處理各種各樣的數據，以及處理這些數據能帶來多大的價值？

解題思路，算法驅動。

我們首先來看看人們處理數據的思路有多大的變化。「思路」在計算機領域換個詞就叫「算法」，而「算法工程師」這個崗位大體是伴随着數據科學和人工智能誕生的。

在軟件時代，算法更多停留在傳統統計方法的應用：排序、求和、求統計值等，其最典型的應用在 BI 産品中，用于輕量級企業内部數據洞察。

在互聯網時代，信息量的爆炸給統計機器學習帶來新的機會，包括經典的邏輯回歸、SVM、KNN 等分類、聚類算法在搜索、推薦引擎中被大量使用。

同樣是在 2010 年，AlexNet 在 ImageNet 中圖像識别的優異表現揭開了深度神經網絡的序幕，大量的神經網絡模型、算法被提出，不僅僅應用在圖像領域，同樣應用在語音、文本等非結構化數據中。而深度神經網絡對數據的依賴達到了前所未有的高峰，數據甚至成為了 AI 的第一生産要素，這又對數據處理工具提出了更高的要求。

近年來，AI 逐漸走入大模型時代，擁有高算力、大數據量的互聯網企業訓練了超大規模參數的通用 AI 模型，尤其是在文本和内容生成領域。這再一次推動了數據使用的新模式，對大模型使用者的數據要求從大而全走向細而精。

▲ 算法發展史

無論你的解題工具（數據工具）多好，解題思路（算法）多棒，最終我們都要回答一個最原始的價值問題：我們解題是為了什麼？有什麼作用？

解題目的，價值驅動。

在軟件時代，數據聚合的目的更多是為了企業内部進行經營決策，所以 BI 是數據最早的出口形态。到了移動互聯網時代，各種數據被互聯網企業收集，進行用戶洞察分析，提升搜索引擎、電商甚至信息流圖文、視頻的推薦準确率，提高用戶點擊率，數據價值嶄露頭角。

随着機器學習和神經網絡的發展，人們發現數據可以被利用的思路和方法被進一步打開，更多非結構化數據、半結構化數據和最原始的結構化數據被收集，開始用于廣泛的商業場景：

産品的研發叠代

互聯網企業是利用用戶數據叠代産品的最大受益者。數據輔助産品設計不僅僅可以在互聯網、軟件開發領域，在其他行業領域也可以被應用——服裝設計中通過收集用戶購買行為來進行款式設計，餐飲口味選品可以通過收集用戶點評數據來輔助決策。

數據助力營銷

其實最早的 BI 很重要的一個應用場景就是被用于營銷洞察，但彼時缺乏足夠的外部數據支撐。随着近年來電商的崛起和線上購物滲透率的快速提升，企業對外部消費者的洞察也越來越精确，精準的數據營銷也成為數據應用的典型場景。

數據助力企業管理

傳統的企業管理更多關注流程管控，缺乏精細化的資源管理和決策依據。在數據時代，員工的表現、企業的生産、銷售都進一步被數據化，企業管理者擁有更多的維度洞察整個企業的人事和過程的管理。

數據助力人機協作

目前我們看到的數據應用大部分還是圍繞着「人」的數據。随着「物聯」越來越普及，機器和設備的數據也被大幅收集，人們可以更加了解機器，人機協作也變得越來越高效和精準。

▲ 數據應用發展史

目前數據在很多行業還處于滲透期，大家更多關注營銷，但并沒有更深入地推進到産品研發、企業經營管理和人機協作領域。随着數據在金融、電信、工業、政務、醫療教育甚至農業等行業應用，個人和企業将被深度數據化，行為和決策受數據驅動，執行過程被數據記錄，勞動成果被數據化衡量，甚至整個社會的運轉都是由數據在背後驅動，這将對數據工具提出新的需求。

03 數據産品發展方向：大衆化、跨雲、架構融合和安全

數據産品的誕生從源頭來看是需求的驅動，從路徑上看需要 IT 基礎設施的助力，包括算法的叠代、硬件性能提升及成本下降，企業 IT 架構的調整。需求和技術的相互促進将帶來更多創新機會。

工具大衆化

人類生産工具的最終目的是提升生産效率。讓複雜的工作變得更簡單，讓機器去負擔最複雜的那部分運算邏輯，讓人關注工作中更具創造性的部分。

上面所列的絕大多數數據處理工具都有較高的技術門檻和使用門檻，但企業最終使用數據的是決策者、運營人員和業務人員。他們并不具備高超的 IT 技能，這就無形中增加了企業使用數據過程中的溝通成本。所以，未來數據工具大衆化也一定是大家追求的目标。國外不少産品用 Excel 的形态來方便業務人員使用數據，降低工具使用的門檻。雖然這種形态無法發揮大數據工具的所有能力，但在用戶體驗上還是更進了一步。

大衆化 UI ( 交互界面 ) 的形态并沒有局限，但如何保證易用性才是問題的關鍵。也隻有産品更加大衆化，才能進一步掃清數據工具持續提升滲透率和用戶基數的障礙。

▲ Sigma 産品用 Excel Spreadsheet 的形态方便用戶使用數據

産品跨雲平台能力

公有雲廠商向來是底層技術實力比較強的企業，其數據類産品當然也并不落下風。Snowflake 能在 AWS 生态繁榮發展的前提也是使用 AWS 的 S3 來存儲。而 AWS 在數據産品中從提取傳輸、存儲、數據處理到消費都有對應的雲産品。

如果公有雲客戶的第一選擇還是考慮雲廠商第一方産品，那第三方産品是不是就完全沒有機會了呢？

▲ AWS 全套數據産品鍊

即使放眼全球，多雲和混合雲架構也是企業的主流選擇。這就給大量獨立的數據工具提供了廣闊的生存空間。跨雲數據産品也将成為未來企業需要考慮的重點。無論是公有雲還是非公有雲，數據産品能兼容于各類異構雲 / 雲原生基礎設施，将成為用戶采用的前提。

▲ 全球 92% 的企業都有多雲戰略

産品架構融合能力

以往我們進行軟件架構設計的時候，硬件成本是重要的考量因素：如何節約内存？如何降低 CPU 消耗？如何平衡 IO 吞吐和讀寫性能？随着摩爾定律的深入和後摩爾定律時代的到來，硬件複雜度提高，能力越來越強，硬件的單位成本也随之下降。

▲ 4Gb 和 8Gb DRAM 價格過去 5 年呈下降趨勢資料來源 :MacroMicro

這時候我們需要考慮如何把更多的事交給硬件去做，而軟件也在擴展自身功能的邊界。以近年來較受關注的概念 HTAP（混合事務型和分析型數據庫）為例，傳統 AP（分析型數據庫）更關注吞吐、TP（交易型數據庫）更關注實時讀寫，但随着硬件 IO 能力的提升，大家開始探讨為什麼不能有一款數據庫可以同時兼容二者的能力呢？

▲ OLAP 和 OLTP 數據庫正在融合

除了 HTAP，在數據庫領域新興的其他趨勢如批流一體、湖倉一體、AI Native（算法 /AI 内生在數據庫産品中）等等，無不體現了硬件能力提升背後軟件功能的邊界越來越寬的趨勢。因此，數據産品應在設計之初就考慮未來産品的可擴展能力，如何逐步拓寬自己的功能邊界，以獲取更大的市場。

前面提到數據類産品未來将在各個行業深入滲透，但行業和行業之間對産品的要求千差萬别。到底是産品本身能力擴展能夠适應絕大多數行業，抑或未來出現行業版産品呢？這也是非常值得探讨的話題。

數據安全

如果不解決安全問題，數據的價值發揮将受到極大的限制。

随着數據價值的不斷提升，數據安全的價值也會越來越大。不久前，工信部等 16 部門聯合發布的《關于促進數據安全産業發展的指導意見》提出，到 2025 年，我國數據安全産業規模超過 1500 億元，年複合增長率超過 30%。要知道，2022 年整個網絡安全的市場規模也不超過 1000 億元，而這裡面還包含了 70 多個産品品類。晨山資本在《數安法》頒布之前就已經布局了數據安全運營、API 安全、隐私計算數據安全新興方向，也從這些企業的發展感受到市場對數據安全需求的快速提升，也就不難理解政策部門對 2025 年數據安全規模的樂觀預期了。

回頭來看，大數據工具的變遷曆史不過短短十餘年，不過天下難事，必作于易，天下大事也必作于細，前路還有很多可能性。2023 年，期待能看到更多充滿生命力的創新湧現，也希望更多數據方向的創業者來和我們一起交流探讨！

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App