作爲支撐 " 雙 11" 背後的自研數據庫,誕生自 2010 年的 OceanBase 正在迎來一次關鍵的發展節點。
2020 年,OceanBase 成立公司、進行商業化探索,當年僅有 18 個客戶。2023 年末,OceanBase 公布其最新商業化進展:服務超過 1000 家行業客戶,客戶數年增長 150%,其中 30% 客戶将其應用于核心系統。
3 月 19 日,螞蟻集團官宣,旗下螞蟻國際、OceanBase 和螞蟻數科已成立董事會,開始獨立面向市場。
近日,OceanBase CEO 楊冰與钛媒體 App 展開了一場獨家對談。
在對談中,楊冰詳解了 OceanBase 爲更好地參與市場競争所作出的組織陣型調整——成立金融 & 政企事業部,集中優勢進一步支持好專有雲客戶;成立公有雲事業部,加大公共雲投入,力求在某些具體方向上打出 1-2 個規模化複制效應;成立國際業務部,探索海外拓展,将外派國内員工與海外本地招的員工合并,成立新的海外團隊。
在發展路線上,楊冰十分強調 " 根自研 " 的價值。自研意味着必須要經曆漫長的發展周期,從 0 到 1 自研三百萬行代碼的持續投入,到開源生态和人才生态的長期培育,再到技術的産品化和商業化的艱巨挑戰,每一步都是穿越無人區的挑戰,也是修煉自己和構築壁壘的過程。楊冰向钛媒體 App 表示," 即便如此,我們對根自研這一大的技術方向非常笃定,而且面向現代應用架構的全新挑戰,我們也沒更好的選擇。"
談架構調整:金融政企是基本盤,投入新增長點
钛媒體 App:獨立運營,對于 OceanBase 來說意味着什麽?
楊冰:獨立運營是 OceanBase 的二次加速,在這之前我們從 0 到 1,未來我們要從 1 到 N,接受市場更強的考驗,實現更高的增長速度。
打個比方,OceanBase 是一輛賽車,已經完成了内圈比賽,跑到了外圈,隻有在外圈這個高速賽道中跑到前幾名才能成爲 F1。
钛媒體 App:此次獨立面向市場,産品或組織架構做出了怎樣的調整?
楊冰:我們做了三個調整。首先,在我們已經具備經驗和優勢的金融、政企領域,将原本的運營商、金融等行業、及對應的交付團隊合并成一個大事業部,集中優勢資源進一步服務好專有雲客戶,最大化利用資源,讓事業部的決策更加高效。
第二,我們戰略投入公共雲,探索 OceanBase 的第二增長曲線。把以公共雲行業爲主的團隊合并,高效地完成在公共雲領域的加速,也幫助某些可以形成規模化複制效應的團隊快速拿到資源。
第三,我們外派國内有拓荒經驗的業務同學,與海外本地團隊合并,成立新的海外團隊,加速複制國内經驗,加速海外拓展進程。
總體來說,公共雲和海外市場是我們新的增長點,而金融、政企仍是我們堅定的基本盤。對于分布式數據庫而言,中國是最好的培育市場,有最大的海量數據場景,同時也面臨大量核心系統數字化升級的契機,先把整個中國市場吃透,具備穩固的一席之地,這是将産品打磨成熟的最快路徑,之後才有可能在世界的舞台上立足。
钛媒體 App:OceanBase獨立面向市場後,勢必要開始追求更大的商業化和市場規模。在這種情況下,你認爲未來的創新将會在哪些方面?
楊冰:創新主要集中在一體化方面。我們将繼續踐行 " 一體化 " 産品戰略,對于具備一定複雜度和規模的系統,對系統的運維和管理人員來,all in one 的統一技術棧将極大簡化運維,也讓系統架構更容易規劃和統一,對應用開發人員來說,通過統一的編程界面或者一套 SDK 就能處理不同業務負載,也會極大提升開發效率,降低團隊協同成本。無論是 TP 和 AP 的融合,還是 NoSQL 和其他數據類型的編程模型的融合,一體化的融合架構和編程界面是我們接下去的發力點。
此外,未來數字化世界的存儲介質将趨于統一,我們的目标是在這個可預見的未來上構建一套一體化的解決方案,實現結構化與非結構化數據存儲的統一,讓 OceanBase 成爲最适合現代應用架構的數據存儲平台。
談自研路線:因爲笃定,因爲别無選擇
钛媒體App:選擇自研技術路線的底氣從哪裏來的?
楊冰:我認爲我們的底氣在于兩個方面。
首先,對技術方向的堅定信念是我們的底氣。十年前,阿裏螞蟻遇到的雙 11 難題,以原有的集中式數據庫、開源技術都無法解決,或者說解決的代價巨大,我們趟出了自研數據庫這一條成功的道路,也爲解決當前市場所面臨的數據庫難題奠定基礎、積累經驗。我們堅信隻有自研才能根本解決數據庫應用到産業裏的核心問題,這種信念也使我們敢于決策并承擔解決問題的責任。
其次,是對場景應用的深刻理解。我們認爲,技術和産品的最大挑戰并非設計或論證的難度,而是是否有合适的場景進行打磨和驗證。幸運的是,我們擁有自己的産品和業務場景,這爲我們的技術開發提供了天然的試驗場。這種獨特的優勢讓我們有信心克服實際應用中的挑戰。
钛媒體App:自研給你們帶來了什麽樣的價值?
楊冰:有兩年我的釘釘簽名是 " 逢山開路遇水搭橋 ",研發就是這麽一個過程,OceanBase 是從 0 到 1 做出來的,我們的人才儲備、我們的工程體系也都是從 0 到 1 量身打造的,整個團隊都積累了非常豐富的數據庫領域的解構複雜問題的能力和很強的創新能力。
幾百人協同開幾百萬行代碼是一個非常複雜的的系統工程,期間會出現大量的 bug,要能将這樣的系統修正穩定,必須要在工程上需要有管控和收斂 bug 的能力。我們有一整套研發流程、測試體系、安全掃描體系來确保高效和高質量的叠代,我們也有内部實際應用的驗證體系來确保生産級可靠。
其次是創新,我們能打破原有的架構設計,從根本上解決問題,包括我們的 LSM-Tree 高壓縮存儲引擎、在 Paxos 實現 2F1A 做到真正三副本、單機分布式一體化等都是基于自研帶來的突破,這些創新其實很難以過去數據庫的經典架構上實現,都隻能推翻重來。但隻有這樣才能以第一性原理的原則去重新設計産品,才能打破常規創造更大價值。
談開源與閉源:很多人對開源有誤解
钛媒體App:關于數據庫開源與閉源路線的差異,如何看待這個差異,如何在借鑒與創新之間找到平衡?
楊冰:我認爲很多人并不完全理解什麽是真正的開源。基于開源但不回饋社區的做法,或者是改完的部分又不開源,我認爲不能稱爲開源。這種做法實際上可能更接近閉源,修改後的産品是一個黑盒。真正的開源,應該是持續貢獻回社區的。不僅是使用開源技術,還要将自己的改進貢獻回社區,這才是對開源精神的真正理解和支持。
基于開源修改的産品還有一個挑戰就是對未來代碼分支的掌控力或者話語權,這需要巨大的投入和社區的影響力,即便是這樣也會存在很多非技術因素導緻的分歧。所以,往往基于開源修改的産品都會進入一個比較糾結的境地,往左走改動比較深,可能會遇到因爲話語權不夠無法把改動回饋到上遊,導緻自己的版本變成孤版的問題。往右走改動的淺一些,雖然是能享受社區叠代發展的紅利,但卻沒法構築太深的競争力,無法回答哪些能力是人無我有的問題。前者會走向另一種 " 自研 ",後者則會變成一個沒有差異化的 " 套殼 "。
OceanBase 是一個自研的數據庫,并且采用了 opencore 的開源模式。我們開源了核心的 300 萬行代碼并與商業版内核采用同一個分支,并持續保持更新。我們享受了沒有曆史代碼包袱和設計約束的好處,也需要承受從 0-1 培育生态的時間代價。這其實是一種選擇,而不是一種平衡。不同的路徑,短期内也許會并行、會交彙、會很相似,但從終點看是不同的。放到世界的曆史舞台上,自研是一條大開大合、需要巨大投入但卻能走的更寬的一條厚積薄發之路。
談金融數據庫:需求集中在兼容性、分布式系統成熟度以及生态适配
钛媒體 App:請談談金融機構在數據庫選型過程中考慮的各方面因素。他們的需求有何變化,以及不同規模機構之間需求的差異?
楊冰:在金融行業,大型機構、中小型機構的需求、關注點是不太一樣的。
大型機構基礎設施比較好,關注點不僅是分布式,還要有完整的單元化分布式解決方案和在分布式架構下如何建立高可用的技術風險體系。此外,由于系統多、數據量大、基礎設施多樣且複雜,大型機構也關注整套方案的安全性和改造成本,也要求數據庫有更高的兼容性。
中小型金融機構,更傾向于一站式、一體化的解決方案,需要數據庫的分布式能力,但在使用上不希望有所感知。重視兼容性和現有問題的快速解決,需要的不僅僅是技術産品,還包括對服務能力和生态系統的要求,尤其是在本地服務支持方面。
钛媒體 App:金融機構在數據庫叠代升級的進程中有什麽新的發展?當前有什麽新的趨勢?
楊冰:金融機構的需求依舊集中在兼容性、分布式系統的成熟度以及生态适配方面。此外,對國産芯片的支持和适配度也是關注的焦點。總的來說,金融機構在數據庫選型和升級過程中,無論是大型還是中小型機構,都在尋求技術上的成熟、服務能力的強大以及生态系統的支持。
談市場競争:免費才是最貴的
钛媒體 App:如何看待數據庫市場的價格戰?
楊冰 : 在一個時期内,數據庫的市場競争非常激烈,有時候會有價格戰的現象。一些大廠商或者雲廠商,可能會打出 " 羊毛出在豬身上 " 的價格戰,數據庫軟件不要錢,但是在别的部分付費。現在市場已經更爲理智,這種免費或低價的現象已經減少。
價格的競争是一個正常的現象,但一家以數據庫爲唯一核心産品的公司和數據庫隻是其中一款非常重要産品的公司,在長期的價格策略上一定是有本質區别的。這是一種選擇,當然我認爲價格也是這個産品在企業中戰略地位的體現和長期可持續發展的基礎。另外,一家以産品爲核心的公司和以整體解決方案和項目爲核心的公司在定價上也會有巨大的差别,最終也會影響産品本身的可持續發展。
對 OceanBase 來說,我們始終專注于通過技術和服務的實力來赢得客戶。事實上,客戶也明白,沒有免費的東西,免費才是最貴的。隻要是企業的核心數據庫、負載關鍵業務的數據庫,貴和免費,都不是最重要的。
談 AI 的沖擊:AI會先沖擊應用層
钛媒體 App:AI 會給數據庫帶來特别大的沖擊嗎?會讓你們去重構架構嗎?
楊冰 : AI 對數據庫的沖擊是間接的,AI 會先對應用層産生沖擊,應用形态的變化才會影響數據庫。
過去十年,互聯網的快速發展推動了對敏捷性、服務化以及雲計算的追求。這些需求促進了特定應用形态和開發模式的演進,進而對分布式系統架構産生了根本性的推動作用。結果是,分布式數據庫得到廣泛發展,并且我相信,未來幾年分布式數據庫将成爲主流。
那麽,AI 原生應用将呈現何種形态呢?在大家的想象中,它可能類似于過去的搜索引擎入口,比如百度搜索框或 Google,也有可能演變爲一個對話框,成爲大多數應用的終極形态。現在 AI 的發展日新月異,還沒有形成一個或者幾個 Pattern,所以對數據存儲軟件的需求到底會産生什麽沖擊還沒法看的很清晰,但對幾個趨勢我自己是比較笃定的:
1. 由于對算力的依賴,AI as Service 是一個必然的形态,所以雲原生會是持續繁榮、深化的趨勢;
2. 非結構化數據(現代應用中以視頻、圖片、音頻爲主)是一種更加直白描述或者是複刻現實世界的數據形态,随着 AI 對非結構化數據的結構、理解能力和準确度有了質的飛躍,未來所謂 AI Native 的應用對結構化和非結構化數據的融合處理會是常态;
3. 随着分布式技術的成熟,目前的存儲對 " 事實 " 類數據的存儲和處理已經沒有大的瓶頸,但對不同數據的二次分析加工,甚至是決策推理會産生更大的需求,而且在數據量、時效性、準确性、智能化等方面的需求會越來越高;
4. 随着分布式技術的瓶頸突破和普及,未來分布式數據庫的底座會像對象存儲 /S3 一樣逐步普及和标準化,在應用開發中,各種數據結構在一套存儲上的支持變得可能,應用開發時的靈活運用也會變得更加容易。開發者不再需要考慮工程上各種複雜問題,包括但不限于運維複雜度、可靠性的要求、擴展上的瓶頸、存儲的成本、對事務和一緻性的要求等等。
我們也對未來 AI Native 的世界充滿期待,也正在爲更好的滿足這些方向的需求而不斷突破創新,期待能趕上時代的大勢,成爲現代應用架構的最佳數據處理平台。(本文首發于钛媒體 APP,作者|蔡鵬程、秦聰慧,編輯|劉洋雪)