作者 | 張超 編輯 | 羅麗娟
出生即 " 準獨角獸 ",手握騰訊投資 、業務合作阿裏雲,到底哪家企業有這個本事?
答案是拓數派(英文名:OpenPie),一家于 2021 年在杭州成立的雲原生數據庫企業。
過去兩年間,這家公司鮮少披露産品或業務進展。但據官方資料,拓數派天使輪就獲得了來自騰訊的投資;9 個月後,公司又獲得了來自元禾重元、東吳證券的 Pre-A 輪加持,身價随之上漲。而資本對公司未來估值預期,可能達到上百億元。
究其原因,與創始團隊核心成員的背景有着密不可分的關系。
據了解,公司創始人、董事長兼 CEO 馮雷曾以浙江物理奧賽銀牌的成績進入北大物理學院,攻讀物理、經濟學雙學位;之後進入全美人工智能專業多次排名第一的卡内基梅隆大學(CMU),攻讀研究生,與前百度首席科學家吳恩達、前百度副董事長陸奇等成爲校友。
拓數派創始人、董事長兼 CEO 馮雷
拓數派合夥人兼 CTO 郭罡則畢業于中國科學技術大學少年班,有超過 18 年底層基礎軟件領域開發經驗;公司合夥人兼 COO 陸公瑜畢業于英國約克大學,有超 15 年産品生态建設和運營管理經驗。
值得注意的是,三人都曾是 GreenPlum 産品及社區的核心成員,馮雷還曾是 Pivotal 中國創始人兼總經理。
衆所周知,Greenplum 是分布式數據庫的全球領導者,原本隸屬于美國 Pivotal 公司,随着 2020 年的一場并購,才成爲 VMware 全新産品和服務組合 VMware Tanzu 的一部分。而 Pivotal 在業内久負盛名,主要提供 PaaS 雲原生應用開發平台及服務。其厲害之處在于,擁有多個在軟件和雲計算領域舉足輕重的開源項目。飛魚研投盤點了一下 Pivotal 旗下的開源項目,包括 Spring、cloud foundry、RabbitMQ、Greenplum 等。
這樣一家企業的核心技術成員創業,獲得資本青睐似乎也就不足爲奇。
閉關鑽研兩年多後,今年 3 月 14 日,拓數派發布了基于新一代雲原生數倉虛拟化技術,打造全新 PieCloudDB" 雲上雲 " 版。
據馮雷介紹,新一代雲原生數倉虛拟化技術,可将多個數倉統一整合到一個高可用的雲虛拟數倉,打通多雲的數據管道,從而讓數據計算資源按需擴縮容,以提升數倉的敏捷性和彈性。
拓數派新一代雲原生數倉虛拟化技術
舉例來說,一家企業有 100 個數倉(數據集群),每個數倉可能要用 100 台服務器,總共需要 10000 台服務器。實際運行時,很多計算資源會閑置,服務器負載可能不到 30%。如果把 100 個物理數倉變成 100 個虛拟數倉,計算的時候啓動,不計算就不啓動,就可以把服務器縮減到 3000 個。
不僅如此,原本 100 個物理數倉之間存在數據隔閡,互相無法訪問,現在把數據放到公有雲上,可以通過授權另一個數倉使用數據。
數倉虛拟化技術的核心價值就在于,能夠數量級降低數倉硬件和維護成本、打開數據計算資源利用空間。
爲了保障數據安全,拓數派還采用了以靈活敏捷、降本增效等特點著稱的 eMPP(Elastic MPP,彈性大規模并行計算)分布式專利架構。
相較于傳統的 MPP 架構,eMPP 架構是基于雲計算平台誕生的,能夠實現存算分離,即在存儲側可單獨進行計算或者存儲資源的擴展,避免了企業對集群進行擴容時,因計算資源和存儲資源的綁定而造成的資源浪費;在計算側可以利用計算節點池,按需擴容和縮容,靈活根據業務和數據量變化來動态調整。
新一代數倉虛拟化技術利用 eMPP 架構,可以實現多集群并發執行任務,讓企業靈活進行擴縮容,随着負載量變化實現彈性伸縮,以應對 PB 級海量數據。
目前,拓數派基于阿裏雲構建的公共雲數據倉庫服務已經正式上線。
數理背景出生的馮雷,一直是個 " 萬物皆數 " 的狂熱擁趸,是圖靈核心思想的踐行者之一,盡管其初衷是爲了證明圖靈理論的錯誤。他癡迷于用數學邏輯解決社會學問題,用邏輯運算和算數運算模型回答萬事萬物的源頭性問題。
在馮雷看來,這套數學模型思維的美妙之處就在于可預測," 使得一切非常可控 ",即便有不可控的部分,也能比别人多一個抓手。
事實上,馮雷算不得一個典型的商人,他并不想讓拓數派成長爲有上萬名員工的大企業,也沒有急着實現業務盈利,更沒有奔着百億估值狂飙。
馮雷是個骨子裏帶着點浪漫色彩的理想主義者。在他看來,拓數派就是自己的一次實踐探索,是其和創始團隊在做的一個無限遊戲。而之所以叫 " 拓數派(OpenPie)",就因爲 π 是一個無理數,可以一直計算下去。
關于數倉虛拟化技術的突破點、拓數派的業務模式、創始人的思維邏輯等更多詳細問題,馮雷近期與全天候科技一一都進行了分享。
以下是對話主要内容(經全天候科技編輯整理):
" 數倉虛拟化技術 " 可能是裏程碑事件
全天候科技:拓數派發布的數倉虛拟化産品,突破性在哪裏?對行業影響有哪些?
馮雷:它可能是我們團隊程碑式的事件。
講産品邏輯可能比較難解釋,用服務器虛拟化打比方,大家都能接受。
以前在服務器虛拟化之前,一個典型的企業裏大概有上千台服務器,每台服務器都有自己的操作系統。
服務器虛拟化就是把這 1000 台服務器變成一個虛拟服務器,然後硬件共享,服務器都沒有本地硬盤,存儲用共享存儲模式。這 1000 台服務器全部虛拟成 1000 個操作系統文件,少數硬件上可能把 1000 台服務器縮減到 300 台,因爲企業裏大部分服務器的負載不到 30%,這意味着 70% 是閑置的。
把物理服務器變成虛拟服務器,硬件可能隻用了 300 台服務器,成本減少是一方面,更大的好處是軟件跟硬件脫離。一旦底層服務器壞了,虛拟服務器很容易從硬件遷移到硬件用戶,中間無感知。
軟件跟硬件分離就是行業突破。
對比數倉虛拟化,就是企業通常有 100 個數倉,可以簡單理解爲 100 個集群,每個數倉可能多到 100 台服務器,總共可能是 10000 台。其中很多計算資源也是閑置的,大部分負載不到 30%。我們把 100 個物理數倉變成 100 個虛拟數倉,計算的時候啓動,不計算就不啓動,就可以把服務器縮減到 3000 個。
成本降低是一方面,對于每一個服務器來說,當其它服務器不用時,這 3000 台服務器可以獨占,可使用計算資源空間會增大。
更重要的是,這 100 個虛拟數倉原本數據之間有隔閡,互相無法訪問,現在把數據放在底下,可以授權另一個數倉,這樣計算空間就會增大、成本縮小。
全天候科技:服務器虛拟化帶來的物理成本減少大概有多少?
馮雷:我們預計可能有兩類場景,一類是大機構,比如銀行、券商等,有 10 個以上集群,我們可以把物理成本減少三分之一,數據計算空間增大 10 倍;
另一類是小企業,我們鼓勵他們上公有雲、跟雲廠商合作,傳統的企業自己在公有雲上租 5 台服務器,一年 20 多萬元,但虛拟數倉不啓動就不算錢。企業假設有 2 個 T 的數據放在公有雲上,費用就隻有幾千塊,虛拟數倉使用的時候再算錢。
全天候科技:這樣會不會影響雲廠商的收入?
馮雷:對于雲廠商而言,我們提供了增值服務。假設帶來 1000 家企業,每家一年存儲 2T 數據,相當于拓數派給阿裏帶來了流量和收入;企業啓用數倉虛拟服務器,我們也會付錢給雲廠商,是雙方共赢的局面。
全天候科技:拓數派和中小企業之間是什麽關系?
馮雷:數倉虛拟服務技術是将存儲和計算分開,實現了技術突破。企業之前沒有使用這款雲原生虛拟倉産品,沒法真正享受數據計算帶來的紅利。現在有了技術,大家都能上雲,企業還能以更低的成本實現存算資源在雲上更靈活的配置,對所有人都有好處。
全天候科技:數倉虛拟化系統服務雲上所有企業的時候,如何滿足差異化需求?
馮雷:拓數派的魅力就是一家基礎軟件公司,數倉虛拟化技術本質上接口是标準的,對所有企業一個樣,屬于基礎設施軟件。不一樣的地方,可能是應用場景的差異。我們跟各行各業打交道,也會形成一些預制方案給到合作夥伴,但行業領導者們還是喜歡自己做。比如,券商核心競争力就是股票定價模型, 它不可能把這個模型給到我們。
全天候科技:數倉虛拟化技術由拓數派首次提出,隻有拓數派可以做嗎?爲什麽不能是其他更有實力背景的企業做出來?技術難點是什麽?
馮雷:我們有自身的特點,人要做自己擅長的事情。
拓數派的團隊背景是來自于 Pivotal,而 Pivotal 是雲原生的提出方,虛拟化是 VMware 的提出方。我們吃這碗飯吃了将近 20 年,熟了。無他,惟手熟爾。我們 CTO 是中科大少年班,團隊清華、北大、奧賽獎牌得主都有。40 多人的研發團隊,這個畫像已經很厲害了。
大公司要做的是雲平台,到每一個項目上人數其實有限;而且大公司不會跟所有人競争,與外部企業永遠是競争與合作的關系。
當初我剛創建 Greenplum 中國的時候,他們創始人就說過一句話," 有錢是一方面,有文化是另外一方面 ",文化傳承很重要。
我跟中國投資人也說,如果錢能解決問題,明天就可以造一個斯坦福出來,但這顯然不行。因爲斯坦福經過了 100 年的叠代,有自己獨一無二的文化,孕育出一代又一代人;我來自 CMU,CMU 在人工智能領域孕育了一代又一代人,背後文化很抽象,但是符合一方水土養一方人。
全天候科技:CMU 帶給你最大的收獲是什麽?
馮雷:CMU 是人工智能誕生地,不僅在理論探索方面有獨創性,理論與實踐組合的體系也比較少見。最早的無人駕駛越野車等項目,CMU 研究團隊都是世界最領先。CMU 不像一些學術機構簡單發一篇論文就結束了,而是真正有實際的産品落地。
全天候科技:純理論教育和理論與實踐結合式教育,對技術突破有什麽不同影響?
馮雷:這是近 20 年發生的比較大變化。很多公司設有專門的研究機構,但今天發現這些研究機構的研發力量還不如一些産品團隊,因爲産品叠代太快、産業叠代太快。一個純粹的學術機構發一篇論文,然後隻能申請贊助;但是産品團隊有創成果,就能得到更多資本認可。
ChatGPT,微軟一共投了 100 億美元,哪個學術機構能跟它 PK?
這也帶來了一個巨大的問題,傳統意義上發明一個物理裝置,推廣到全世界最起碼需要幾年時間;但今天數字世界一秒就可以推廣到全世界,它迅速把紅利回收後能獲得更大投資,輪子越滾越快。
不過數字力量對于财富再分配的問題确實需要進一步探讨,要不然就是赢者通吃。
全天候科技:這個情況已經出現。
馮雷:而且有越滾越快趨勢。
微觀經濟學講,企業的目标就是追求利潤最大化;但今天可能這麽說不對,因爲赢者通吃實在是有問題在裏面。所以,現在機構強調商業化的同時,也強調 ESG。
拓數派成立的第一天,我們就設立了一個平行機構—— 1024 數字産業基金會,它是非盈利機構。
全天候科技:未來在國内或國外,多久可能出現一個類數倉虛拟化技術的産品?
馮雷:其實國外有兩家公司,可能有這個能力。
爲什麽他們不推虛拟數倉的概念?因爲不想強調服務器虛拟化這件事情,但這個概念對中國私有雲用戶已經深入人心了,大家知道服務器虛拟化帶來的所有好處,對大家有百益而無一害。
" 我們的目标是,先把成本固定住 "
全天候科技:拓數派創辦于 2021 年,天使輪就獲得這些有實力背景的投資人支持,核心原因是什麽?
馮雷:其一,是大勢所趨。通過新的基礎計算設施改進來産生深度智能化設施這件事,有些人停留在好奇層次,有些企業在盈利層次,甚至可能是戰略層次。一些有識之士看到這方面需要,就進行了投入和部署。
其二,是稀缺性。能夠承接這個任務、有成功履曆或者證明過成功的團隊,在國内數量非常有限。兩點綜合考量,大家就比較容易促成這件事情。
這次想通過跟國内戰略投資機構和一些 PE 基金合作,嘗試一些前面沒有做過的東西,感覺時間點到了。
全天候科技:當時隻有騰訊找你們聊,阿裏沒有嗎?
馮雷:接觸的都是很有戰略眼光的投資機構或者政府機構。
我們不想花太多時間在這方面讨論,所以當時聊得并不多,隻跟兩三家機構接觸過。大家如果意向上願意做,我們就盡可能把時間放在 " 做 " 這個事情上。
全天候科技:拓數派拿的是騰訊投資,但注冊在杭州。
馮雷:業務方面,我們是跟阿裏雲存儲團隊有戰略合作。國内投資界的視野上升很快,并沒有簡單商業利益上膚淺地切割開。
全天候科技:研發團隊目前是什麽規模?投入有多少?
馮雷:現在總體超過 40 人,碩士比例占 70%,博士比例占 10%。研發投入都是國際水平,已經超過我在 Greenpulm 中國最高時候的投資了。科創闆喜歡研發比例高的企業,我們保證是科創闆裏數一數二的水平,配置實際上相當于研究機構。
全天候科技:拓數派目前的商業模式包括哪些?
馮雷:公有雲部分,就是三方運營的 Pass 服務模式。比如,我們與阿裏雲的合作,把機會給到用戶,阿裏也願意帶我們。這個運營模式相對比較輕,是比較互聯網的商業模式,用戶自己開賬号、自己把數據傳進去、自己計算;我們給用戶計費賬單、收用戶錢,跟阿裏雲結算資源消耗費用。
這必須技術過硬,确保拓數派從阿裏拿過來的資源對用戶有效率提升,否則用戶直接去找雲廠商服務更便宜了。
公有雲上也有大客戶,相對來說是一個長尾市場,但這個市場也令人非常期待;一旦做起來,複購率、市場占有率都會很高。這個市場在中國的公有雲領域做起來還需要時間,但我們需要占位。
目前私有雲部分,是拓數派與大客戶直接合作,收費像傳統的軟件模式,即給到客戶軟件許可後每年收取費用;另一種行業雲,類似 OEM 模式,他們賺錢我們分成。總體來說,就這三類商業模式 。
全天候科技:目前公司整體處于盈利狀态嗎?
馮雷:還沒有。去年 10 月 24 日,拓數派才推出私有雲、行業雲方案;今年 3 月 14 日,推出數倉虛拟化技術。我們的目标是,先把成本固定住。
因爲拓數派是研發非常重的一家公司,市場發展非常依賴合作夥伴,頭部企業還會找事前事後團隊貼身服務。我們盡量以樹立标杆客戶爲目标,标杆起來後,我們會把同一套方法教給合作夥伴,希望這套技術不僅僅讓幾家公司獲利,而是我們的生态合作夥伴都能從中獲利。
全天候科技:拓數派沒有盈利壓力?
馮雷:雖然我們前兩期投資是傳統意義上 VC 階段的投資,但股東主要是産業基金,産業基金是用戰略性的眼光來看企業發展。
但是再往後的投資,最終投資方還是要以上市爲目标。所以,我們去年也開始推進商業化,把商業化當做公司的重點來做。
全天候科技:可能在哪部分客戶上實現盈利?
馮雷:對我們來說,收支平衡并不難。
假設成本固定住,我們每年就隻要花這麽多錢。投資人開玩笑說,我們手裏就像有個印鈔機,因爲用戶自己會傳數據,不需要我們幹什麽,就能生錢。但這個機器是我控制不了的,市場發展的時候,它可能突然運作起來,而且是一個指數級分布增長。
另一方面,我們私有雲的目标客戶畫像很清楚,可以跟他們一起合作。但我們也不太可能把全中國的市場份額都拿下,整個市場大概有 500 多億元,私有雲、公有雲對半開是 250 多億元,我們隻要占個 5%,就差不多 10 個億了。
資本對公司未來估值預期可能是上百億元。
全天候科技:按照你的計劃,2023 年公司整體成本會得到控制?
馮雷:成本我們會控制。商業化去年做了一些,今年收入會繼續增大,希望盡快能看到一個收支平衡的情況。
全天候科技:有一個上市計劃時間表嗎?
馮雷:我們做 Pivotal 這家公司的時候,隻花了 5 年不到就上市。
當然,人家董事長水平高,我們水平稍微差一點(笑)。拓數派已經創業兩年,我想未來三年如果能實現收支平衡,那麽科創闆會比較喜歡(我們)。科創闆本身是允許虧本企業上市的,但我們還是以收支平衡爲目标。
這就是 " 專精特新 " 的一個好例子,我沒有目标把企業做到 1 萬個人,但是希望能影響人工智能整個學科的進展。
" 我和團隊核心人員一直在做無限遊戲 "
全天候科技:爲什麽選擇放棄 Pivotal 高薪職位,從零開始創立拓數派?
馮雷:其實我和團隊核心人員做的事情其實一直沒有中斷,就叫無限遊戲。
我從 CMU 畢業以後就在甲骨文做數據庫,後來回國創建 Pivotal 中國,負責 Greenplum 産品。随着 Greenplum 事業的深入,當時做了很多風控模型、征信模型、推薦模型,我們越來越對數學模型産生興趣,認爲這種探索很有價值。
我們發現雲上有一個新機會,即利用更多的存儲資源、打破數據之間的隔閡,就可以讓運營商有更多計算資源、更多數據,然後這個模型可以想象能産生更好結果。
對我們來說,做這件事不是一個艱難的決定,但需要有突破式創新或者破壞式創新;按照教科書理論,最好是重新設立一個機構來做。
《創新者的窘境》(The Innovator's Dilemma)這本書上有個觀點,如果創新是連續性的,建議待在大公司裏接着做;如果是突破式、破壞式的創新,要推倒很多前面做過的事情,一般鼓勵設立新的機構。可能是個研究機構,可能是家新公司。
我們很自然地捕捉到了新機會,創立一個新機構,所以得到了頭部互聯網産業基金,以及很多國内 PE 資本,甚至國資的支持。
全天候科技:你之前接受采訪時提過,更願意用數學邏輯解決社會學問題,思考源頭性問題。在技術研究上,數學邏輯和符号邏輯解決問題時的差異是什麽?
馮雷:其實不是我說的,是 " 計算機科學與人工智能之父 " 艾倫 · 圖靈說的,一台機器(圖靈機)能模拟人類所能進行的任何思維計算過程,本質上這些思維過程都可以拆解成邏輯運算和算數運算。
人工智能學科就是盡可能把這些定義做成邏輯運算或算數運算的模型。
全天候科技:所以你一直支持圖靈的觀點?
馮雷:我其實是想證明他錯,所有人都想證明他錯,但是給不出一個反例。
全天候科技:你接觸這個理論以前,就一直用數學邏輯思考問題的嗎?
馮雷:我進 CMU 以後才開始這麽思考。确實 CMU 沉浸在人工智能世界裏,也進行了很深層次對人類認知的思考。
全天候科技:數學模型式思考邏輯總是很嚴謹規範,也相對嚴肅刻闆,在處理計算問題可能比較合适。但在解決生活問題、組織管理問題,接觸與人相關的問題時,這套模式能運行得通嗎?你一般怎麽思考這類問題?
馮雷:很對,目前人的行爲或者說人跟人之間的社會行爲是沒有辦法很精準地用 AI 模型來描述。
即使今天的計算機視覺識别有時候也會出錯,臉識别不出來,ChatGPT 也會說錯話。這個過程它就是個無限遊戲,隻能無限逼近它。
但是有沒有一種可能性,在某一個階段點突然打開了另外一扇窗,發現外面有個廣闊世界,這就有很大的好奇心在驅動。
全天候科技:聽下來,你在運用這套思維模式的過程中還沒有遇到難點?
馮雷:它的美妙之處就在于可預測。
比如以一個老闆心情很古怪,你就不願意跟他相處;但好的老闆不在你身邊,你也知道他大體上會怎麽反饋。
數學化物理這套方法使得一切非常可控,說一不二,說一個自由運動的小球在幾秒鍾出現在什麽位置,它就出現了,是不是很神奇?
全天候科技:你怎麽處理不可控的事情?
馮雷:我嘗試着建立一套模型拆解成邏輯和算術運算,然後去讓模型落地。至少從不可控中能找出一些可控,其他不可控就不可控了,我至少比别人多一個抓手,讓不可控變成可控。