海天瑞聲CEO王曉東：大模型時代來臨，數據服務市場将重新洗牌

文｜林炜鑫

編輯｜鄧詠儀

5 月 26 日，海天瑞聲在北京召開媒體見面會，分享了在多模态數據、數據标注平台方面的新進展。另外，CEO 王曉東宣布品牌升級戰略，公司保留中文名稱 " 海天瑞聲 "，英文名則更改爲 "Dataocean AI"。

海天瑞聲是國内 AI 訓練數據專業提供商，緻力于爲 AI 産業鏈的各類機構提供 AI 算法模型開發所需的專業數據。

王曉東表示，海天瑞聲靠語音數據業務起家，逐步擴大業務範圍，現在已經實現了語音、圖像、文本全覆蓋，公司的目标是爲客戶提供高質量數據。" 現在叫數據時代，需要新基建，" 王曉東說，" 我們公司提供高質量水泥，數據時代新基建建設的基礎，都需要數據。"

同時，海天瑞聲也将首次免費開放 DOTS-MM-0526 多模态數據集，包括音頻、視頻、文本等信息，希望借此爲中國人工智能開放生态建設貢獻力量。

海天瑞聲 CTO 黃宇凱介紹了公司自研的專爲自動駕駛設計的數據标注平台 "DOTS-AD 自動駕駛标注平台 "。該标注平台全面支持 2D、3D、4D 電暈或圖像數據标注；支持自動化标注，數據标注效率将提升 8 倍；智能化管理數據，确保客戶的商業數據安全合規。

眼下大模型勢頭正盛，衆多科技公司紛紛布局大模型。王曉東認爲，由于大模型的出現，" 整個數據服務市場将重新洗牌，集中度也将進一步提升。" 市場将逐步淘汰研發弱、資源差的一些中小玩家。

面對多家巨頭下場的激烈競争，海天瑞聲擁有自身的技術壁壘。王曉東以語音數據爲例，公司有專門的團隊在全球采集各種語言數據，" 我們有我們的語言專家，有大量的資源 "。王曉東表示，目前公司擁有 190 多種語言數據。

大模型也将進一步影響相關的數據服務。黃宇凱告訴 36 氪，大模型的訓練主要分爲兩個階段，第一階段叫預訓練，對數據采集和數據清洗有很高的要求，" 不是越多越好 "；第二階段叫微調或對齊階段，需要高質量的 prompt（指令），" 非常難寫 "，prompt 決定了訓練效果，因此标注人員的自身素質也很重要。大模型時代，技術更新叠代的速度很快，黃宇凱說，" 我們非常激動，當然這裏面也有很多機會。"