來源:獵雲精選;文 / 孫媛
近一年來,數據标注賽道呈現了一些不同。
在企業端,相較年初,相關賽道玩家融資宣發變少了,資本似乎變得更理智;在 " 民工 " 端,數據标注員的工資繼續走低,在 " 月入不過 5000,單價從 5 毛降到 4 分 " 的收入變化下,似乎預示着簡單的數據标注将會被 AI 取代。
投資人 Jerry 說,大家現在已經不單獨談數據标注的概念,而是升級談更火的數據服務。例如,圍繞數據服務新增業務,給大模型公司主動提供數據,或者和大模型公司一起服務于主機廠。
跟随産業發展,不難發現,數據标注的概念和服務内容在升級,玩家們也在複用其原有的管理體系、研發能力等,去解決圍繞數據的行業痛點,結合行業變化來逐步拓寬業務範圍。
事實上,Jerry 所言早有全球數據标注領域的先驅 Scale AI 在踐行。
這家估值 73 億美金獨角獸,成立于 2016 年,核心業務就是數據标注,通過快速捕捉 AI 行業趨勢推新,已從自動駕駛場景起家後切入政府、電商、機器人、大模型等場景,提供各類工具、平台和服務。
而在國内,也有這麽一家先行者,它僅次于 Scale AI 一年後成立,創辦伊始就獲得了水木清華校友基金、老鷹基金、天使灣創投等 5 家機構進行天使輪 " 團購 ",随後青銳創投、華映資本、厚天資本、瑞夏投資更是相繼押注。
它便是以自動化解法切入 AI 數據标注和數據管理服務的星塵數據。
80 後數據科學家回國創業,以自動化做解法
星塵數據掌舵者,是 80 後數據科學家章磊。
星塵數據創始人兼 CEO 章磊
在海外就職期間,章磊先在華爾街做數據量化,後又去矽谷做自動化投資相關的算法工作。期間,他在華爾街工作期間開發的底層風控算法曾被美國聯邦儲蓄局作爲壓測标準,在矽谷開發過世界首款股權投資機器人。
回國後,章磊第一次創業,是以 CTO 的身份做了一家與自動化投資策略相關的公司,該項目需要通過大量 NLP(自然語言處理)的數據來進行投資決策,當時投資年化已做到 100%。
也正是這次創業,讓章磊基于對數據标注的大量需求,與數據堂、龍貓、百度這些數據标注公司打起交道,卻意外發現供給側與需求側的極大 gap。
他看到,自動化投資需要數據側和算法側能夠進行深入交流,即數據策略,僅僅按每人每天進行數據标注并不能解決算法工程師的問題。另外,由于标注工具簡陋不好用,标注員産能也不高,既無法滿足企業的工期需求,也無法提高标注員的個人收入。
當時在供給側端,數據标注公司理念還停留在低認知、低附加性屬性的人力外包模式,更多是在賺取人力差,而算法側本質需求是随時協同叠代,這就導緻商湯曠世百度等高認知的早期 AI 公司隻能内部自建标注、數據生産的管道。
章磊坦言,雖然從人力或銷售端來切入,可以對人力進行标準化的培訓操作上崗,通過職高院校之類的合作來降低人員供給端的成本,但這對于國内數據标注行業來說治标不治本。
當時,他就有一個判斷,這種靠人力差價的生意最終會随着自動化技術發展而因爲純粹靠人力而失去成本優勢,甚至會虧損。
在低進入、高認知的行業門檻特點下,章磊認爲,從長遠考慮,自動化才是更優解。
"Autolabeling 本身是一套組合拳,裏面有很多細節,譬如對感知決策、大模型的任務所需要的自動化完全不一樣,需要有很高的算法認知去用最新的技術來解決問題,并且把它落地産品化,成爲可複制的工具鏈。目前行業内玩家不具備這樣的能力,更多是在銷售端或運營端有一些優勢。"
爲此,逐鹿數據标注再創業,基于團隊的算法以及矽谷背景,章磊決定 " 從甲方出來解決甲方問題 ",從三方面出發。
一,成立一個算法認知的團隊去真正解決行業痛點,具備數據策略專家的能力;二,用工具鏈去做好數據服務,包括數據閉環管理的工具、數據标注、項目管理、數據檢索等輔助功能,打造雲端工廠的概念;三,讓數據處理可以極大被自動化,提高到 50% 至 90% 甚至以上,形成一個高度自動化的數據生産管道的終局。
于是,有别于人力服務型數據标注企業,想在國内走出 Scale AI 之路的星塵數據于 2017 年應運而生。
以 AI 全生命周期的數據閉環爲基座,把數據價值産品化
從 Scale AI 的發展态勢來看,自動化這條路一旦走通,具備領先優勢後可以一招鮮占領生态位,但也并不好走。
算法層面需要根據産品的反饋和用戶實際的人因工程來分析進行優化,除了團隊要具備能力基因外,還需要以最後實際落地成果來進行驗證,譬如其标注的數據策略、工具鏈的優化、産品形态、算法能不能夠跟上等。
星塵的商務和項目團隊每次跟客戶溝通和 pitch 時,都被要求跟客戶認知在同一水平,成爲行業的數據策略專家。
" 特别是大模型的公司,因爲其數據生成面臨着很多不确定性和變化,就需要能夠通過數據策略找到各種問題,并且和客戶反饋并商量去優化最終效果,以模型效果爲目标去發力,提升客戶算法效果。"
過去 6 年,星塵數據在行業從野蠻生長行至盈利爬坡的過程中也沒少踩坑,但也正因此,在服務 50 多家車企和自動駕駛公司、經曆上千個項目打磨後,在點滴中積累了算法和産品的叠代能力,其自動化标注平台 Rosetta 平台現可提供數百個标注功能,支持 4DBEV、圖像、點雲、文本、語音、采集等在内的 100+ 種主流标注場景。
其中,星塵數據的數據閉環解決方案是其 Rosetta3.0 平台的一大亮點。章磊透露,今年年底,星塵數據即将發布全新的 AI 數據管理平台 MorningStar,打通數據落盤、流程編排、數據管理、數據檢索、難例發現、數據送标、算法管理、推理管理等機器學習閉環全鏈路,持續提升算法叠代速度。
在一個完整的數據閉環中,客戶可使用星塵數據提供的離線數據包進行基礎版模型訓練,星塵數據标注系統通過 API 與客戶算法系統進行交互,動态感知客戶模型效果,基于模型各版本叠代,在經曆幾次叠代後,不僅沉澱了有效數據,還節省了數據成本。
同時,星塵數據還可以在海量數據中找到真正有價值的數據幫助客戶訓練模型,并利用自有 Benchmark 數據集評測模型效果。模型上線後,行車數據可用于模型叠代,形成數據閉環。該方案通過打通星塵數據标注系統和客戶算法系統,實現主動學習、分批訓練和動态發掘有價值數據,從而降低數據标注規模,節省标注成本。
星塵數據 AI 數據管理平台 Morningstar
據悉,具備算法認知和叠代能力的産品(簡稱技術叠代能力)的客戶,譬如自動駕駛感知決策賽道上的 Tier1 自動駕駛公司和造車新勢力等頭部技術客戶,以及大模型企業,往往傾向于自研整個數據閉環的工具鏈,把一小部分工作通過找供應商來合作。星塵數據通過技術匹配及形成閉環,就能快速達成合作。
而不具備技術叠代能力的傳統車廠等腰部技術公司,則非常依賴于供應商去合作組建數據生産線。雖然增量很大,但其理念和合作方式上沒 " 整明白 ",導緻數據側和算法側都沒有很好的一個合作方式。
通常情況下,往往技術側 60 分的車廠想要采購 90 分的供應商,價格又得是行業最低,但數據側做到 90 分的前提是技術測也要 90 分,不然又跑不動,這就需要星塵去協同打造數據生命周期管理的數據閉環系統,回歸業務本質來适配以持續創造營收。
章磊透露,目前星塵數據客戶以每年 2 倍增速在發展,主要服務大模型和自動駕駛。感知決策賽道上已服務了 90% 頭部自動駕駛企業,AGI 方向的大客戶也開始增多,目前已經和多家頭部的大模型客戶達成合作。
星塵已經與華爲在 DataOps 系統方面達成了戰略合作,共同服務于感知決策、通用人工智能等領域,爲客戶提供更加完善的數據閉環工具和服務支持。
率先步入下一階段,華映跑來領投 A 輪
近一年來,随着數據标注走熱,VC 開始尋求标的,恺望數據、曼孚科技、整數智能等賽道玩家陸續官宣融資,星塵數據這個老玩家也在資本助力開始了加速賽。
在 2022 年 5000 萬元 A 輪融資中,華映資本則将橄榄枝扔給了章磊。
彼時,華映資本管理合夥人章高男在看了行業若幹個标的後,作爲技術創業出身的投資人,便與同樣有着技術背景的章磊一見如故,甚至表示," 這個行業要投就投星塵,要不就不投了。"
在章高男看來,技術足以區别真正的企業家和生意人,企業家懂得如何将技術用于再生産、将盈利用于投資,能目标明确、通過産品化可複制的方式去把這盤棋做大。
于是,在幾面之緣之下,基于章高男對人的敏銳判斷,華映資本領投了星塵數據 A 輪融資。就在這輪融資中,還有一家 VC 對星塵後續發展助力頗大,那就是小米生态鏈機構厚天資本。
也正是機構方在管理和戰略上的加持,讓章磊帶領的星塵數據專注于既定路線用技術去解決行業的本質問題,在眼下更具備 " 抗補貼 " 的能力。
章磊坦言,随着數據标注賽道微風漸起,市場愈發激烈,甚至今年形成了以價換市 " 打補貼 " 的特殊情況。
" 很多玩家爲拿資本去搶占市場,或者是拿了資本被要求更激進去搶市場。但這有兩個弊端,一是貼錢後,基于價格壓力很難做好服務;二是今後很難跟車廠談價格。"
在這個過程中,章磊看到,車廠也因爲買低入坑,但随後也吃一塹長一智,逐步轉變采購邏輯,客戶端的認知度在市場教育後也有所提高。
星塵數據合作的一家車廠就是如此。
據悉,該車廠想自己搭建數據工具鏈,剛好有數據标注企業免費提供了一款産品,等于爲其省了幾百萬支出。
然而,由于産品中有各種各樣的 bug 需要處理,車廠不得已又投入了數百萬來改造這款工具來實現真正投産。雖然标注成本紙面上還可以,但因爲各種數據出問題導緻工期耽誤,項目暫停又啓動,客戶對效率降低而導緻的隐性成本支出怨聲載道。最後,爲了保證數據的高效生成,這家車廠還是棄而選擇爲可用産品付費買單。
" 車廠們逐步發現,采購零部件那一套不适合放到軟件上。因爲零部件有一些性能指标規範,但軟件特别是數據相關的産品叠代,不可能用一兩個紙面上的指标來評估。星塵跟客戶去做技術匹配和長期合作過程當中,會通過賦能聯合叠代、建模,實現降本增效。"
随着感知決策以及大模型算法達到了需要不斷去以數據爲中心叠代算法和模型的臨界點,章磊認爲數據行業也在迎來一場變革,将出現以下三方面發展态勢。
一是純人力型數據标注公司發展空間縮小,在自動化成本達到了跟人力持平、甚至更便宜的狀态後,整體會面臨比較大的紅海競争。反向要求企業具備研發自動化标注算法的能力和叠代能力。
二是市場亟需數據價值,其不僅在于數據增值和人類反饋,更在于發現指标跟蹤、數據存儲、數據檢索、算法反饋叠代的工具鏈。
三是擁有技術叠代、産品叠代能力的公司,要針對客戶的痛點去解決問題,才能真正立足。同時,玩家們僅靠數據服務做好還不夠,更需要做好工具鏈和自動化算法,星塵數據目前正處于這一階段。
" 我們看到數據服務可能很快會出現一些革命性的産品,或者說已經有一些實驗性的結果在頭部實驗室誕生,可以極大降低數據的成本,快速提高模型跨領域的适配性和魯棒性,這種技術也是數據行業下一階段的趨勢。"
接下來,章磊表示,公司将從 DataOps 全流程進行技術賦能,通過一站式的 AI 數據管理平台和數據策略服務,以及具有自動化能力的工具鏈給客戶帶來整體的價值,提升算法最終效果的上限。
(Jerry 爲化名)