圖片來源 @視覺中國
文 | 産業家,作者 | 思杭,編輯 | 皮爺
2023,數據庫格局正在變化,愈演愈烈。
如果說哪個環節是如今國産替代的最火熱環節,那數據庫無疑是最多人選擇的答案,甚至是之一。
2018 年 10 月,張家港農商銀行的企業客戶信息系統(ECIF)數據庫被順利替換爲騰訊分布式數據庫 TDSQL,這是國内第一家進行核心系統遷移的銀行機構。而在接下來的幾年時間裏,各個國有大行都開啓了核心系統遷移的路程,其中數據庫是重中之重。
" 現階段數據庫的替換開始從國有大行向農商行等區域銀行開始遷移,整體投入非常大。" 一位互聯網大廠金融負責人告訴産業家。
如果說芯片上的卡脖子,中國的企業需要幾代人來填補。那麽在數據庫這些軟件測,中國的國産數據庫廠商正在奮起直追,不論是今年阿裏雲和騰訊雲數據庫的先後打榜,再或者是之前達夢、星環科技的上市,以及華爲雲數據庫最近公布的軟硬一體協同,都在昭示着中國的國産數據庫正在盡全力完成對固有 "IOE" 的替換。
如今,戰場不僅銀行,參戰者也不僅單獨的一家。對中國的國産數據庫而言,機會和挑戰都在加速湧來。
2023,國産數據庫遷移潮
據 2022 年 9 月國資委 79 号文件,截止到 2027 年 "2+8+N" 黨政與八大行業完成 100% 國産替代,替換範圍涵蓋芯片、基礎軟件、操作系統、中間件等領域。然而,目前這些行業的國産滲透率隻有 10%。
在所有行業中,金融是國産化進程最快的行業。從 2022 年到 2023 年的數據中就可以看出這一趨勢。
據墨天輪不完全統計,2022 年國産數據庫行業共收到 51 次中标喜訊。其中,金額最大的是中興通訊、OceanBase、亞信 AntDB、萬裏數據庫 4 家聯合中标中國移動 1.45888 億元超級大單。單家中标金額最大的是阿裏雲,其中标廣東移動 2022-2023 年主備式自主可控 OLTP 數據庫,金額達到了 967.28 萬。
從采購單位性質分析,46% 的采購單位集中在金融領域,其次是政府,占比達 18%。這一趨勢也延續到了 2023 年。
根據公開數據,2023 年 1 月 -5 月國産數據庫共中标 15 次,中标最多的行業是金融業,其中銀行的數據庫國産替代進程步伐更快,并且幾乎都是核心業務數據庫的替換。
從替換成果來看,2023 年雲原生數據庫和湖倉一體數據庫的趨勢已經開始顯現。
在國内政策和國際環境的雙重作用下,國産數據庫百花齊放,起步較早的國産數據庫廠商在穩定性和性能上已經可以與國際大廠同台競技。這些國産數據庫在金融、政府、能源等重要行業已經得到多次驗證。
實際上,在所有國産數據庫中,每家數據庫所具有的特性各不相同。不同行業對數據庫的要求也都不同。綜合多方報告來看,OceanBase 是目前國内企業使用頻次最高的國産數據庫,排名第二的是達夢。而其中在各個行業這個指标也是有所不同,比如銀行未來最多計劃使用的是華爲雲 GaussDB,而互聯網行業最多未來計劃使用的國産數據庫是阿裏雲的 PolarDB。
目前看來,Oracle、MySQL 和微軟等海外數據庫在國内部署占比依舊是最高的。
此外,一個最真實的問題是,目前國産數據庫與國外數據庫的是否還有差距?。
首先,在數據層面,有三點考量因素,數據一緻性、數據安全性和代碼安全性,這也是最重要的考量因素。尤其在金融和政府等行業,數據安全永遠排在第一位。
數據一緻性是指交易發生的同時性。比如 A 給 B 轉賬 50 元,A 賬戶上減少 50 元的同時,B 賬戶上也要增加 50 元。這種因素對于銀行和券商極爲重要。
總體來看,相較于國外數據庫,國内數據庫在數據層面的表現欠佳。Oracle、MySQL 和微軟的 SQL Server 都有極強的數據一緻性和安全性。而國内數據庫除了部分廠商表現與國外數據庫相當,其平均水平與國外仍有一段差距。
但值得一提的是,國外數據庫在代碼安全性上表現并不好,整體弱于國内數據庫。其中,阿裏的 OceanBase、南大通用的 Gbase8a 和華爲雲的 GaussDB 這這方面有不錯的參數表現。
第二,在功能層面,包括兼容與遷移能力、事務處理能力和大數據實時處理能力。在這一點上,國内外數據庫表現相當。在此之中,廠商最擔心的因素是兼容性。因爲更換了數據庫後,向下需要擔心服務器、芯片和操作系統的适配性,向上還要考慮 OA、ERP 等應用系統的兼容性。
在效果層面,包括穩定性、可靠性與性價比。其中,穩定性也是廠商和機構在選購時最在意的因素。可以發現,在這些最重要的因素,國外數據庫的表現都非常出色,國内數據庫廠商則良莠不一。
而這些問題在具體的交付過程中,則會被一一顯現出來。
國産替代,長路漫漫
數據庫作爲基礎軟件,需要幾十年如一日的積澱。如今,去 O 的進程在中國已經進行了 15 年,但國内數據庫市場滲透率仍不足 10%。關于 " 國産數據庫真的能替代 Oracle 嗎?" 這一問題,至今還在被持續熱議。
根據艾瑞咨詢 2022 年數據庫使用情況調查結果顯示,在數據遷移難度、數據庫一站式管理、運維與備份複雜度是數據庫用戶遇到最多的幾個難題。
第一,數據庫遷移難度大,占比 19.2%,難點聚焦于遷移過程中的兼容性、數據安全、停機時間、數據校驗和性能保證等。第二,缺乏數據庫的一站式管理,占比 14.8%,當前市場上的一站式管理平台以管控類爲主,主要面向 DBA 等專業技術人員,而對開發、業務、運維等其他角色的門檻偏高。第三,運維與備份的複雜度高,占比 14.3%,随着技術路線的靈活度和複雜度提升,運維與備份和難度勢必增加。
從數據庫廠商的角度分析,國産數據庫的幾大通病聚集在研發、專利和代碼自主化程度上。這些都是經常被人诟病的幾大難點。
首先,國産數據庫廠商研發人數占比過低,超 60% 的廠商研發人員還不過百人,這與國外形成了鮮明對比。其次,在國産數據庫專利方面,所有國産關系型數據庫的專利數加在一起不足 4000 件,而單 Oracle 的專利數就達到了 14000 件。最後,國内目前很多代碼自主化率并不高,大部分國産數據庫都是在現有的開源基礎上進行修改。
此外,根據大部分使用國産數據庫的口碑來看,國産數據庫在性能、功能和可用性方面也存在問題。
首先看性能方面,國産數據庫的性能并不是均衡發展的。與 Oracle 相比,有些國産數據庫 OLTP 的性能較好,有些則是 OLAP 的性能更好。所以,國産數據庫要想克服這一問題,就需要針對不同類型的數據庫,采用不同的解決方案。
其次是功能方面。像 Oracle 等傳統商業數據庫有幾十年的積澱,國内 " 年輕 " 的數據庫還有很長的路要走。在這種情況下,國産數據庫要想實現 " 彎道超車 ",就不能沿着 Oracle 的老路繼續走,而是根據國内的數據需求,制定出一條符合自己的數據庫類型,在保障性能和主要功能的前提下,實現功能上的差異。
最後則是最關鍵的可用性方面。由于 Oracle 數據庫較爲成熟,所謂的 " 成熟 ",具體來說是,其使用率較高,修複的 bug 也較多。而國産數據庫較爲年輕,仍有許多未發現的漏洞。針對這種問題,解決辦法隻能靠所有使用國産數據庫的企業共同努力。
此外,在數據庫國産替代的過程中,企業還會考慮的一個更大的問題是遷移難度和遷移成本,在遷移成本中,也包括兼容性的問題。一般來說,一家企業完成數據庫的國産替代需要花上 2~3 年的時間,在這過程中需要評估改造難度。
比如在國産數據庫選型過程中,會考慮到與上層應用系統的兼容性問題。因爲目前,大部分傳統行業的應用系統仍然使用的國外的系統。像一家大型制造業企業,或者一家傳統銀行,其内部上上下下的應用系統不可能跟着數據庫的更換而更換。一旦兼容性出現問題,損失重大。
但受政策驅動,全行業在 2027 年都要完成 100% 的國産替代,屆時,企業對于兼容性問題的考量也會削弱。
雖然目前國産數據庫的成熟度還不比國外,但在政策和市場需求側多方面影響下,國産數據庫不無 " 彎道超車 " 的可能。
數據庫遷移潮,正在加速到來
2023 年,國産數據庫正在進入「狂飙」時代。在國内對分布式數據庫需求增加,國内傳統行業數字加速轉型,業務複雜度升級的基礎上,傳統數據庫局限性愈加凸顯。
從 2000 年到 2023 年,國内數據庫一路高歌猛進,經曆了非常重要的三個轉折點。
第一個轉折點是 2000 年 BAT 時代的到來。當年,互聯網大廠興起,國内數據庫也迎來了自己的光輝十年。國産數據庫終于可以通過自己的技術力量,不依賴國外高端業務就可以做好。
第二個轉折點是在 2010 年後,當時是 4G 時代。國内互聯網一路演進,在那片土壤下生長出了很多種應用,比如短視頻和微博。這些 App 的興起,讓國内對數據庫的需求不再局限于關系型數據。彼時,國内雲廠商也有了自己的積澱,可以提供适用全場景的數據庫。
第三個轉折點則是今天,2020 年後,随着傳統行業高速發展,Oracle、DB2 局限性越來越明顯。在 BAT 時代和 4G 時代積累的數據庫,也愈加能承載諸如保險公司和能源公司等行業的數據需求和業務複雜度需求。這也爲國産數據庫 " 彎道超車 " 提供了充足的可能性。
除了市場需求的變化,信創也是所有央企國企考慮使用國産數據庫的首要因素。以央企爲例,如果不進行國産數據庫的替換,不僅面臨 Oracle 數據庫被禁止使用的問題,還會遇到許可證費用增加的問題。
首先,中美國際環境在很長一段時間都會處于緊張狀态,貿易戰和科技戰加劇,美國政府不知何時會在未來的某一天,以國家安全等爲由,禁止央企或其他中國企業使用美國廠商研發的數據庫産品和技術。
而 Oracle 在央企占比十分大,并且都是企業經營管理的核心系統。一旦被禁止應用,将将産生不可估量的影響與損失。
其次,近兩年随着傳統行業數字化程度加深,很多央企對 Oracle 數據庫的應用不僅限于應用水平較低的數據存儲。如果應用繼續深入,也會帶來 Oracle 數據庫許可費用的大幅增加。
最後,由于 Oracle 數據庫誕生于三四十年前,其技術架構存在一定局限性,如采用集中式架構無法線性擴展,穩定性、性能強依賴硬件。對于那些越來越多的并發量大、峰值高等帶有互聯網場景的數字化應用系統,Oracle 數據庫将無法支撐。
從市場需求到業務複雜度,從信創要求到技術架構局限性,當下的種種因素都驅使着國産數據庫遷移的加速到來。
國産數據庫,走向何方
從 2023 年國産數據庫的中标情況可以看出,未來國産數據庫有兩大發展趨勢——雲原生、湖倉一體。
首先,雲原生數據庫就是從根本上改變技術架構,讓數據庫實現真正意義上的橫向擴展。因爲雲本身具有彈性、可擴展性的特點,雲原生數據庫可以在全面雲化的基礎設施環境中,按照使用情況進行更細粒度的計費。
對于雲原生數據庫,現在有一種說法,雲原生數據庫已進入 2.0 時代,更強調一個能集成多種引擎的全面數據庫解決方案。簡言之,雲原生數據庫可以充分發揮雲上的優勢,讓每個分區都可以充分享受雲帶來的彈性和高可用能力。
對此,華爲雲給出的解釋是,業務是否 " 生于雲、長于雲 ",決定了企業是否能充分享受到雲原生數據庫帶來的極緻體驗。
這種彈性能力在關鍵時刻就會發揮作用。比如,雙十一場景下,龐大的數據量如果用傳統數據庫,隻能靠硬件堆砌。但雲原生數據庫就可以解決這一瓶頸,利用彈性可用這一優點成爲問題的突破口。
從另一種角度看,雲原生數據庫也是國産數據庫 " 換道超車 " 的一種可能性。
以阿裏雲當年自研數據庫爲例,當時阿裏決定做雙十一,創造了淘寶業務數據量的峰值,加上互聯網業務所需的彈性,Oracle 數據庫集群已無法滿足,将阿裏 " 逼上 " 自研數據庫的這條路。
後來阿裏雲時代,在阿裏雲不斷服務客戶的過程中,積累了如雲數據庫的托管服務 RDS、雲原生數據庫 PolarDB 和分布式版本 PolarDB-X 等豐富的數據庫服務。
過去幾十年,數據庫經曆了從早期的關系型數據庫,到數據倉庫和關系型數據庫配合,OLTP 和 OLAP 兩個領域的細分,再到開源數據庫、NoSQL 數據庫,最後到今天雲原生數據庫的發展曆程。
今天,雲原生之所以成爲未來數據庫的一大發展趨勢,一方面是因爲數據規模爆炸性增長;另一方面是數據的生産和處理的實時化和一體化需求越來越強,對于一站式數據管理與服務的需求也随之增強。第三,用戶處理數據對智能化的要求,也推動雲原生數據庫的發展。
據 Gartner 預測,2022 年,全世界 75% 的數據庫會以雲的方式運行。未來,數據庫領域的核心發展方向是雲原生 + 分布式,以及由此帶來的幾個核心技術布局:安全穩定、自動化與智能化、數據庫大數據一體化、數據倉庫與數據湖、多模數據庫以及軟硬件結合。
另一大趨勢是湖倉一體。
簡單理解湖倉一體是,數據湖 + 數據倉庫的結合。其中,數據湖的特點是存儲非結構化的數據,這些數據往往比較雜亂,但使用起來很方便,可以從中任意挑選數據随意組合。數據湖更适用于前期的開發。
數據倉庫則相反,它主要存儲結構化、經過處理的數據。這些數據的 " 排序 " 非常規範、有序,但用起來卻沒那麽靈活。但兩者各有利弊,如果能将數據湖的靈活與數據倉庫的規範結合到一起,就可以實現讓數據先在數據湖中進行開發,再将整理後的數據在數據倉庫中存儲,讓數據在湖與倉之間自由流動。
湖倉一體的優勢已愈加明顯。從各類做湖倉一體的數據庫廠商來看,各家技術路線各不同,有些選擇自研,有些則基于開源,而有些是自身雲平台的産品組合,但最終目的都是爲了降低數據在不同平台間的流動,比如國内的阿裏雲和華爲雲,會通過各類雲上的工具打通不同産品或組件間的數據流通。
随着業務需求量和複雜度的攀升,未來國産數據庫也會持續進化。目前,國産數據庫在政策和業務環境等多重因素的驅動下,正在一路狂飙。但國産數據庫若想看到 " 爆發點 ",還需要 " 彎道超車 "。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App