數據标注,正迎來關鍵洗牌時刻。
大模型時代到來,以數據爲中心的 AI 開發模式加速走向台前,數據的價值從未向今天這樣被充分挖掘——
大模型從訓練到部署應用叠代,AIGC 衆多垂直場景落地,通用智能、具身智能等前沿領域探索,都與高質量、專業化的場景數據密不可分。
作爲底層基礎服務,數據标注也從未像今天這樣受到關注,但與此同時機遇與挑戰随之而來。
數據标注要求從客觀到主觀,标準如何統一?标注人才要求又有什麽樣的新變化?
大模型公司 /AI 企業湧入賽道,專業數據服務廠商如何自處?
合成數據作爲新興賽道,又有怎樣的增長空間?
帶着這些問題,量子位智庫《中國 AIGC 數據标注産業全景報告》由此而來,并嘗試解答。
報告中,量子位智庫将從我國數據标注行業現狀、四大關鍵變化、三大影響要素、行業發展及市場規模等多角度、多方向地全面立體描繪中國數據标注産業全景。
核心觀點如下:
數據标注服務貫穿大模型全生命周期,上下遊合作關系更爲緊密耦合;
大模型範式湧入數據标注,自動化标注效率進一步提升;
标注人才高學曆多領域成硬指标,缺口或達百萬;
産業鏈重構,專業數據服務商更多機會将在垂直領域,幫助企業私有化部署;
傳統依靠渠道人力等因素聚合飛輪效應已失效,數據标注朝着知識密集型轉移;
國内市場規模将達百億量級,合成數據增速最高。
大模型時代下的數據标注
數據标注,是将原始數據進行加工處理,比如分類、拉框、注釋、标記等操作,轉換成機器可識别信息的過程。
國内數據标注廠商,廣義也被叫做基礎數據服務商,通常需要完成數據集結構 / 流程設計、數據處理、數據質檢等工作,爲下遊客戶提供訓練數據集、定制化服務。這也是本次主要研究對象。
大模型時代到來,數據标注受到前所未有的關注。
上市公司股價狂飙,創業代表公司融資加速。
國内唯一一家 AI 數據上市公司海天瑞聲受到 ChatGPT 熱潮,今年 2 月以來股價曾一度狂飙。創業公司也同樣融資進展頻頻,包括像星塵數據、标貝科技、整數智能、柏川數據、曼孚科技、恺望數據等代表公司均獲得新融資。
大模型數據解決方案多處開花,以一站式、定制化服務爲主
圍繞大模型開發全生命周期 ( 包括預訓練、監督微調、RLHF、基準測試等 ) ,專業數據服務商、大模型企業、AI 公司等各方都拿出相關數據解決方案。
大模型範式湧入數據标注,自動化标注⻔檻大幅降低
以「Segment Anything」爲代表的圖像分割模型開源,可通過提示詞對圖像或視頻中任意對象進行分割,并可擴展到任何新任務和新領域,被稱爲是 CV 領域的「GPT-3」時刻,大大降低了圖像領域的标注門檻。
智能駕駛新感知範式,BEV+Transformer 是機遇也是挑戰
作爲最具代表性應用場景,智能駕駛迎來新感知範式——
以 BEV+Transformer 爲代表的四維感知替代掉 2D+CNN 爲代表的二維感知方案,給數據服務廠商帶來更多機遇與挑戰,包括不限于标注場景難度大、數據量産能力要求高等。
四大關鍵變化需求變化:與行業場景強相關,高質量數據需求長期且持續
大模型時代的到來,正加速推動人工智能開發從以模型爲中心朝着以數據爲中心的方向轉變。
△圖源 :Data-centric AI: Perspectives and Challenges
大模型作爲以數據爲中心的産物,數據數量和質量很大程度決定着大模型能力的上限。尤其像訓練流程中的後兩個階段,直接決定了大模型性能好壞——
需要專業人士生成數據或對數據進行改寫或排序,最終形成符合人類标準 ( 比如專業邏輯、核心價值觀等 ) 高質量數據。
處理流程側變化:标準從客觀到主觀,高學曆多領域成人才硬指标
從數據流程上來看,傳統數據标注是以目标任務爲導向,通過拉框、描點、轉寫等方式進行人工或自動化标注,評價标準主要以準确率和效率爲指标。
而大模型數據标注,則是按照階段來劃分,通常對自然語言要求很高,需要更專業的人才參與,标注要求偏主觀,難以形成統一的标準。
數據标注從勞動密集朝着知識密集型轉變。
其中像百度在海口專爲大模型建設的數據标注基地,本科比例 100%,培訓專業人才已達 1000 人。未來五年,數據标注相關專業人才缺口将達百萬量級。
業務變化:合成數據新衍生賽道,潛在市場空間巨大
合成數據作爲新衍生賽道,正受到廣泛關注。所謂合成數據,即是用 AI 生成數據而非真實産生,能夠替代真實數據來訓練、測試和驗證大模型。OpenAI CEO Sam Altman 曾方言:
未來所有數據都将變成合成數據。
除了能降本增效外,它可以補充更多邊緣、長尾場景數據,能有效解決大模型時代下的 " 數據鴻溝 ",并自然規避掉數據隐私安全、合規等方面問題。
像在數據增強、模型驗證、可解釋 AI 等領域,以及自動駕駛、機器人、生物醫藥等領域都有相關應用。
量子位智庫預計,合成數據将成爲未來增速最快賽道,年增⻓率可達 45%。
供應鏈變化:産業鏈重新洗牌,大模型公司 /AI 企業湧入
大模型公司 /AI 企業自建數據處理管線,并對外輸出大模型數據解決方案,産業鏈重新洗牌。
部分廠商還具備雲服務能力,可與數據服務打包輸出,能有效建立起客戶之間的口碑和信任。
三大影響因素:以技術 + 場景聚合的飛輪效應
一看技術能力
作爲 AI 底層服務,數據标注最本質的就是爲下遊客戶降本增效。而技術是降本增效的最優解決路徑,持續叠代技術能力的企業将有機會脫穎而出。
包括不限于以下幾點:數據閉環工具鏈的智能化水平、對大模型 /AI 算法的理解、數據工程化能力、基礎設施建設等。
二看場景資源
場景資源能力主要包括數據和人才兩個層面:高質量的場景數據以及場景人才(領域專家、深度用戶等)
這與行業持續多年的深耕不無關系——企業懂得行業 know-how,能夠根據客戶需求,快速找到并利用與場景最爲貼合的數據和人才資源。
三看飛輪效應
數據标注仍具有飛輪效應。以往靠銷售渠道、人力成本等驅動因素,服務商實現業務量增長,進而赢得市場獲得口碑,獲得新客戶也會越來越容易。
如今在技術和場景資源能力雙重驅動下,數據處理能力越強,大模型标注經驗越豐富,落地案例越來越多,數據處理的可擴展性和靈活性也越高。
這樣一來,新創業公司入局門檻将進一步提高,專業數據服務提供商更多機會将在垂直場景,幫助企業完成私有化部署。
國内基礎數據服務百億市場規模
數據标注行業傳統依靠渠道、人力等形成的低成本優勢将被重塑,數據需求方将更看重數據質量、場景多樣性和可擴展性。基于以上原因,量子位智庫将從數據基礎設施、場景資源兩個方面來分析國内市場分布及現狀。
第一象限:有技術有場景的明星公司
該象限存在兩種情況:
第一種是模型層公司本身有大模型技術範式以及場景落地經驗積累,可快速輸出數據解決方案,與雲服務打包輸出建立信任 ;
第二種則是主要以技術驅動的明星企業,大部分擁有數據閉環工具鏈,再結合幾年來行業經驗,在大模型浪潮下易受到企業用戶⻘睐。
第二象限:有強技術支撐的創業新勢力。
該象限主要聚焦在近兩年創立的創業公司,主要以自動駕駛場景作爲切入點,再覆蓋 到 AIGC 及其他領域。他們飽受資本市場認可,以恺望數據爲例,一年半時間就是完成了三輪融資。
第三象限:包括中小團隊、企業自建數據管線等。
第四象限:場景壁壘更爲深厚的行業玩家
該象限着更爲深厚的行業數據壁壘,可爲下遊用戶提供高質量數據集或擁有大模型數據标注團隊, 以海天瑞聲爲例,不僅是 LIama2 的唯一中國夥伴,還發布超大規模中文多輪對話數據集 DOTS-NLP-216,合作企業超 810 家,覆蓋全球近 200 個主要語種及方言,有近 20 年行業深耕。
量子位智庫認爲,數據标注處于重新洗牌的時期,更高質量、專業化的數據标注成爲剛需。
未來五年,國内 AI 基礎數據服務将達到百億規模,年複合增長率在 27% 左右。
以下爲我國值得關注的仿生機器人行業代表機構 TOP20:
具體報告詳情以及代表玩家案例集可在底下評論區獲取。