@視覺中國
3 月 1 日,星塵數據在京舉辦春季媒體開放日暨 Rosetta3.0 平台上線發布會。星塵數據創始人、CEO 章磊宣布 Rosetta3.0 平台正式上線。
發布會上,章磊提出了标注行業認知天梯,即初級認知是标注行業是 " 人力工廠 ",服務商用相對初級的标注工具、項目管理和海量人力就能幹活,招标時低價者中标,存在交付風險;中級認知是,對項目管理的難度和标注工具的複雜度有一定認知,投入工具研發和項目管理成本,研發周期長,管理難度大,數據叠代效率低;高級認知是,重視平台的技術實力,使用高度自動化的标注平台,且與數據服務商一起叠代數據閉環和數據策略。
Rosetta 平台全面升級
星塵數據擁有行業内自動化水平最高的标注平台 Rosetta 平台,在算法種類、算法效率、算法接入能力、算法交互能力等方面均具領先優勢,其數據閉環系統打通數據采集标注、數據預處理、自動化質檢、人工質檢、多輪質檢、客戶驗收系統、數據管理、數據檢索、數據可視化、場景挖掘等全鏈路,同時爲客戶提供數據策略專家服務,能夠支持人機交互、主動學習、強化學習等主流數據策略。
Rosetta3.0 提升了算法加持能力,新增 20+ 自研算法,點雲标注效率較純人工标注提升 5 倍 +,支持機器人标注及質檢,支持交互式标注以及算法實時反饋;增強了自動駕駛數據标注能力,3D 渲染 50 幀 / 秒以上,支持超長連續幀 2000+ 流暢标注,支持 2000W 點點雲平滑标注,支持 BEV 标注、3D 重建标注、4D 标注、毫米波标注;增強數據閉環支持能力,打通 DataOps 和 MLOps 鏈路,通過 API 對接實時發現難例,幫助客戶實現主動學習和強化學習;通過架構模式全面升級提升平台能力,采用微服務架構模式,系統具備更高擴展性和可用性,可支持數萬人同時作業,并引入流式計算等大數據技術,提升平台數據實時處理能力;提供面向第三方的開放服務能力,通過 OpenAPI 方式,和客戶建立靈活的數據通路和算法服務通路,加速客戶算法叠代速度;構建 5A 數據安全保障體系,從産品、技術雙層面落地 5A 數據安全架構,實現端到端存儲傳輸使用安全、信息隐私保護、數據隔離等;持續增強全方位、精細化質檢能力,提供上百個行業通用質檢規則服務和自研質檢算法,爲數據質量保駕護航,标注準确率可達 99.9%;強化數據管理能力,支持多源異構數據管理、版本管理、标簽管理、場景管理,支持數據可視化、數據場景挖掘、多模态檢索等。
除 Rosseta 數據标注平台外,星塵數據還爲客戶提供 Rosseta 标注軟件基礎版、Rosseta 标注軟件高級版、Rosseta 标注軟件旗艦版、Rosseta App、Rosseta 獨立标注工具、開放平台 Open API 等衆多産品形态,支持私有化部署和定制化軟件,滿足客戶多樣性需求。
百億美金标注市場規模
近年來,随着人工智能技術的發展,數據标注行業成爲一個新興産業,在短短數年間迎來了爆發式的發展。根據 Grand View Research 的數據,全球數據标注市場未來十年将以年複合增長率約 25% 的速度增長,市場規模将達百億美金。此外,随着 AI+ 垂直場景相結合的趨勢以及垂直行業自身的蓬勃發展,數據标注行業将迎來更大的增量市場空間。2021 年國務院印發的《" 十四五 " 數字經濟發展規劃》明确指出,支持市場主體依法合規開展數據采集,聚焦數據的标注、清洗、脫敏、脫密、聚合、分析等環節,提升數據資源處理能力,培育壯大數據服務産業。
與此同時,數據标注行業也面臨一系列挑戰:标注難度和标注質量要求提升,多場景和複雜化的需求對标注平台和工具要求越來越高;數據量爆發,人力标注無法實現規模化,給标注産能帶來挑戰;行業從一般性數據标注走向難例發現、數據挖掘,需要從海量數據中識别真正有價值的數據;MLOps、DataOps 對平台的端到端閉環能力提出挑戰;4D 融合等前沿标注對大規模标注基礎設施建設提出挑戰;智能汽車數據安全引發公衆擔憂。
2022 年 Tesla AI Day 讓更多人知道了自動化标注的存在,也讓星塵數據這類 " 數據标注行業的技術專家 " 走到台前。星塵數據成立于 2017 年,總部位于北京,2022 年底公布 A 輪融資 5000 萬人民币。星塵橫向服務全場景 AI 數據标注能力,縱向深耕自動駕駛行業,目前覆蓋 90% 頭部自動駕駛客戶,此外還服務智能家居、智慧城市、智能機器人、智慧醫療、智慧教育、智能零售、智能遙感、智慧金融等衆多數據場景。
Autolabeling 讓标注更簡單
星塵數據從創立之初就确立了三個目标:首先,通過自動化标注提高标注效率;其次,通過提供數據策略專家服務,爲客戶創造更多的價值;最後,通過數據閉環讓客模型訓練效果更好,數據标注量更少,提高标注性價比。
基于戰略目标和企業定位,星塵數據推出國内首個自動化标注平台 Rosetta 平台,平台提供數百個标注功能,可支持圖像、點雲、文本、語音、采集等在内的 100+ 種主流标注場景。
Rosetta 命名來源于埃及金字塔旁發現的石碑 Rosetta Stone。這塊石碑刻有古埃及法老托勒密五世诏書的三種不同語言版本,讓近代的考古學家得以有機會對照各語言版本的内容後,解讀出已經失傳千餘年的埃及象形文之意義與結構。星塵數據 Rosetta 平台解決了人類語言和機器語言之間的轉譯鴻溝,讓大規模訓練數據的機器學習成爲可能。
星塵數據開發了上百種輔助标注算法,爲預标注、标注、質檢環節提供多樣化的算法輔助。以激光雷達點雲标注爲例,平台在渲染、自動貼合、自動映射、連續補間等功能上具備行業領先的性能,具備無延時切幀特點。
算法的加入讓平台自動化水平逐年提升,目前平台自動化率達到 60%。高自動化率讓标注效率和标注産能顯著提升,相比其他平台,标注員在 Rosetta 平台能标得更快,獲得更多收入。
算法也讓複雜标注需求得以解決。星塵算法團隊密切關注前沿技術動向,會提前做好技術儲備和産品沉澱。目前平台可支持 BEV、3D 重建、4D 融合等自動駕駛前沿算法的數據标注。
定位 " 數據策略專家 "
傳統的數據标注流程中,算法人員制定數據标注規則,标注公司消化後再提供給标注團隊。然而,執行過程中,算法的思路并不能一次性達到最優化;其次,數據标注人員僅僅是一個 " 幹活兒的 " 角色,并不能幫助更好地叠代算法效果。因此,算法側時常會有一些不合理的規則導緻成本飙升或難度大增導緻難以執行。有些企業提出了不合理的标注規則,例如要求 1/20 的遮擋比例或在沒有基礎模型的前提下提出 " 一個點起标 "。
數據管理也是企業頭痛的問題。例如,數據通過硬盤傳輸,效率低且無法管理。此外,還存在數據批次多、髒數據多、清洗後有效數據少、同類型數據重複标注的問題。同一批數據,雖然 L2 和 L4 模型訓練都用得上,但企業缺乏數據策略意識,數據複用性低,無形中增加了成本。
在服務 90% 頭部自動駕駛客戶、經曆上千個項目打磨後,星塵不僅沉澱出了行業領先的标注平台和工具,還培養出了經驗豐富的數據策略專家。星塵一些資深員工在談到自家工具時十分自信,更讓他們自豪的是,他們能夠基于豐富的項目經驗爲客戶提供更好的建議。
章磊表示,數據策略中涉及大量前沿技術,既包括算法中和數據相關的技術,如領域遷移、時空融合、數據增強、弱監督學習等等,也包括以數據爲中心的反饋叠代技術,如主動學習、強化學習、數據檢索、Human-in-the-loop、數據安全、場景化數據生成、模型測試等。數據策略專家既要了解相關技術也要熟悉産品,以專業性來服務客戶。一個典型的例子是,客戶在感知算法中因爲沒有做運動補償,需要對相機信号和雷達信号逐一進行人工确認。星塵的數據策略專家在和算法溝通後,提出通過 2DOD 算法和 3D 映射聯合計算,通過 IoU 篩選候選樣本的方案,并将多個算法直接以人機交互的方式嵌入标注流程中,節省了 50% 以上的标注時間。
全流程閉環式 AI 數據系統将成主流
在發布會上,章磊介紹了星塵數據的數據閉環解決方案,這是 Rosetta3.0 平台的一大亮點。章磊表示,全流程閉環式 AI 數據系統将成爲主流,星塵數據爲此提早進行研發布局。
在一個完整的數據閉環訓練中,客戶可使用星塵提供的離線數據包進行基礎版模型訓練,星塵标注系統通過 API 與客戶算法系統進行交互,動态感知客戶模型效果,基于模型各版本叠代的效果,動态檢索不确定性最大、信息量最大、損失最大、稀疏場景等有效數據。幾次叠代後,不僅沉澱了有效數據,還節省了數據成本。同時,星塵還可以在海量數據中找到真正有價值的數據幫助客戶訓練模型,并利用自有數據集評測模型效果。模型上線後,行車數據可用于模型叠代,形成數據閉環。
以 ChatGPT 語言模型爲例,通過星塵的 Rosetta3.0 數據标注系統,客戶可以将模型快速接入系統,通過 API 實時将結果顯示在标注平台上,星塵專屬基地的 NLP 标注員可以快速給出反饋。同時,獎勵強化模型實時接收到反饋并進行訓練,可以實現模型的高效訓練并及時發現難例和缺陷。該解決方案目前已進入與某深度客戶的 POC 測試環節。
章磊表示,未來星塵數據将專注 AI 數據服務,通過 Autolabeling 技術、數據策略專家服務和數據閉環系統服務,爲全球人工智能企業特别是自動駕駛行業提供 " 燃料 ",最終實現 AI 的平民化。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App