文|林炜鑫
編輯|鄧詠儀
5 月 26 日,海天瑞聲在北京召開媒體見面會,分享了在多模态數據、數據标注平台方面的新進展。另外,CEO 王曉東宣布品牌升級戰略,公司保留中文名稱 " 海天瑞聲 ",英文名則更改爲 "Dataocean AI"。
海天瑞聲是國内 AI 訓練數據專業提供商,緻力于爲 AI 産業鏈的各類機構提供 AI 算法模型開發所需的專業數據。
王曉東表示,海天瑞聲靠語音數據業務起家,逐步擴大業務範圍,現在已經實現了語音、圖像、文本全覆蓋,公司的目标是爲客戶提供高質量數據。" 現在叫數據時代,需要新基建," 王曉東說," 我們公司提供高質量水泥,數據時代新基建建設的基礎,都需要數據。"
同時,海天瑞聲也将首次免費開放 DOTS-MM-0526 多模态數據集,包括音頻、視頻、文本等信息,希望借此爲中國人工智能開放生态建設貢獻力量。
海天瑞聲 CTO 黃宇凱介紹了公司自研的專爲自動駕駛設計的數據标注平台 "DOTS-AD 自動駕駛标注平台 "。該标注平台全面支持 2D、3D、4D 電暈或圖像數據标注;支持自動化标注,數據标注效率将提升 8 倍;智能化管理數據,确保客戶的商業數據安全合規。
眼下大模型勢頭正盛,衆多科技公司紛紛布局大模型。王曉東認爲,由于大模型的出現," 整個數據服務市場将重新洗牌,集中度也将進一步提升。" 市場将逐步淘汰研發弱、資源差的一些中小玩家。
面對多家巨頭下場的激烈競争,海天瑞聲擁有自身的技術壁壘。王曉東以語音數據爲例,公司有專門的團隊在全球采集各種語言數據," 我們有我們的語言專家,有大量的資源 "。王曉東表示,目前公司擁有 190 多種語言數據。
大模型也将進一步影響相關的數據服務。黃宇凱告訴 36 氪,大模型的訓練主要分爲兩個階段,第一階段叫預訓練,對數據采集和數據清洗有很高的要求," 不是越多越好 ";第二階段叫微調或對齊階段,需要高質量的 prompt(指令)," 非常難寫 ",prompt 決定了訓練效果,因此标注人員的自身素質也很重要。大模型時代,技術更新叠代的速度很快,黃宇凱說," 我們非常激動,當然這裏面也有很多機會。"