投資界(ID:pedaily2012)2 月 28 日消息,「未來速度」日前完成數百萬美元天使輪融資,由耀途資本獨 家投資,融資資金将用于産品研發、用戶體驗改善和雲平台搭建。
未來速度成立于 2022 年,旗下産品 Xorbits 爲分布式數據科學計算框架,旨在加速 Python 生态下大規模數據的處理。團隊主要來自阿裏、華爲、微軟等企業,在大數據及 Python 領域經驗豐富。創始人秦續業畢業于上海交通大學,曾在阿裏雲長期負責 Python 數據和 AI 領域工作,主導并開源 Mars 開源項目。
Python 作爲一門容易上手的編程語言,具有較高的開發效率,同時有 Pandas、Numpy 等豐富的第三方庫幫助簡化操作,是大數據及 AI 領域的标準語言之一。然而,在金融量化分析、生物基因測序、地理空間多維度分析等實際應用中,Python 卻可能面臨運行效率較低、單機運行第三方庫時内存不足等諸多挑戰。
對此,Xorbits 運用多核、異構、分布式等技術,加速執行已有代碼,提高程序運行效率,能夠覆蓋科學計算、數據科學和機器學習等維度。同時,Xorbits 還可兼容 Pandas、Numpy 等現有的 Python 數據科學庫,用戶無需學習新接口即可完成代碼遷移,獲得并行加速效果。
爲了實現加速功能,Xorbits 采用了分而治之的并行計算方式。具體來看,用戶調用 Xorbits 函數時,Xorbits 客戶端将構建相應的計算圖并提交至服務端,計算圖将在服務端被處理成多個小的執行單元,再由調度器分發任務給 worker 執行處理。
目前已有的大數據或并行計算框架的調度方式一般更爲粗放。爲了避免算力浪費,Xorbits 爲細粒度調度引擎,能讓任務細分與調度更加精細,如默認使用深度優先策略以盡早釋放中間結果,減少計算使用的峰值内存等,目的在于以最優解進行調度。此外,Xorbits 還進行了計算圖動态列裁剪、圖融合、支持叠代式 tiling 等優化工作。
相比國外 Dask、Modin 等計算框架,Xorbits 在執行模式上也有其特色。計算框架執行模式主要分爲立即執行與延遲執行兩類。立即執行可在調用框架時立即計算,方便用戶操作,但也壓縮了性能優化的空間;延遲執行則意味着程序構建完成後,用戶需要在一定節點手動調用函數等觸發執行,拉高了使用門檻。而 Xorbit 采用了特殊的推遲執行方式,可以推斷用戶所需并自動将任務提交執行,盡可能減少用戶操作,以此平衡計算框架的性能與易用性。
基于上述設計,在面對 scale factor 100(約 100GB 數據集)和 scale factor 1000(約 1TB 數據集)的基準測試中,Xorbits 相比同類計算框架,運算速度能快 3-7 倍,且體現出更高的性能與 API 兼容性。
xorbits 在性能上比競争對手快 7 倍左右
在具體服務方面,Xorbits 與多個雲廠商展開合作,提供雲上 SaaS 服務,用戶改動相應代碼即可進行雲上運算提速。Xorbits 會根據用戶預算及訴求,衡量性能和性價比,爲用戶選擇合适的方案。此外,由于 Xorbits 是開源平台,用戶能夠共同參與平台維護,并幫助平台進一步完善。
目前,Xorbits 開源産品已正式發布,未來速度計劃将進一步發展其開源社區,吸引更多用戶共同建設平台,同時也将持續推進産品叠代,進一步簡化操作。
耀途資本創始合夥人楊光表示," 數據科學和人工智能(DSML)的崛起背後,是 Python 工程師的崛起。Python native 生态會在未來基礎設施中扮演越來越重要的角色。Python 數據分析、數據科學和機器學習,不應該僅僅停留在單機,我們看好 Xorbits 成爲推動 Python 從單機走向分布式的關鍵力量。"
【本文根據公開消息發布,如有異議,請聯系([email protected])投資界處理。】