作 者丨江月
編 輯丨陶力
圖 源丨視覺中國
人工智能産業發展催生了 " 新流水線工人 ",時薪介于 10 元至 30 元之間,它時髦的新名字叫 " 數據标注員 "。
人工智能大模型給人們帶來強烈的智慧沖擊,令人驚歎于它前沿的神經網絡研究、精密的計算機設備和光鮮亮麗的精英人才結構。然而,這種智慧背後還有極緻枯燥的工作。
近期,南方财經全媒體記者留意到,全國多地數據标注招聘市場火熱、相關創業模式也不斷湧現。提升數據質量成爲人工智能開發商 " 彎道超車 " 的一記策略,但爲相關勞動者提升工作價值,也是長遠發展中不容忽視的問題。
數據标注市場需求大增
"10 元 -30 元 / 小時(與項目難度呈正相關,3D 類 > 語音類 >2D 類 > 普通拉框轉寫類、打碼類)。"4 月 13 日,南方财經全媒體記者在招聘 App"Boss 直聘 " 上看到一則招聘廣告中如是寫道。在 AI 産業中,這類崗位令人聯想起電子廠的 " 流水線 " 工作。
2023 年春天,市場的關注度被 " 大模型 " 吸走了一大半,但有一批公司正轉移到 " 數據端 " 另辟蹊徑,這是他們抓住這波 AI 浪潮的機遇。
算力、算法、數據,是人工智能的 " 三駕馬車 "。一位從事計算視覺的程序員告訴南方财經全媒體記者:" 對某些公司而言,算力、算法提優,遠遠沒有數據提優的效益大。"
眼下,算力和算法的賽道上,頭部公司最爲耀眼。無論是微軟、谷歌、OpenAI,還是華爲、阿裏、百度,對大模型斥下的資金成本令其他公司望塵莫及,購買芯片動辄上千萬元,高薪聘請(或 " 挖角 ")人才更不計代價。
不過變革席卷全行業," 幕後英雄 " 也浮出水面。4 月初在複旦大學舉行的一場研讨會上,計算機科學技術學院教授、MOSS 系統負責人邱錫鵬提到,OpenAI 的成功不止來自大家津津樂道的模型、微軟提供的昂貴算力,也得益于外包的專業數據清洗公司。
美國某高校數據分析碩士專業畢業生李夢(化名)告訴南方财經全媒體記者,她目前正在一家生物醫藥公司實習,所做的工作正是優化數據标注程序。
" 大模型依賴數據訓練,但要先做好數據采集、清洗、标注和質檢。" 李夢介紹。
數據标注領域知名學術人物李飛飛,在 2009 年發布了 ImageNet 數據集的論文,激起一場算法競賽。依托 ImageNet 海量得到标注的圖片,算法公司展開了圖像識别的競賽,最低錯誤率者獲勝。直到現在,很多人将 ImageNet 視爲本輪人工智能浪潮的催化劑。
如今,數據标注依然如此重要,且有更大需求量。人工智能在哪個行業施展拳腳,就需要哪個行業給模型大量 " 喂料 ",這不局限于城市安防、物聯網、交通、生物制藥。
數據标注的 " 顆粒度 " 也在提升。4 月 5 日,Meta 人工智能實驗室發表了有關 Segment Anything 這一計算視覺模型和數據集的論文。論文中提到,需要人工标記的圖片高達 12 萬張,平均每張圖片有 44 個圖層,每個圖層的标注時間需要 14 秒。總體計算之下,人工标注的時間需要 20533 個小時。如果聘用一個百人團隊每天工作 9 個小時,這需要 23 天。
枯燥無味的流水線工作
" 如果數據量太大,一般公司會雇外包公司承擔。" 李夢向記者指出。外包公司将數據标注變成了算計件工分的一種工作。
按照前述 Boss 直聘 App 上的廣告,時薪價格依據工作内容不等。時薪能達到 30 元檔的是指 3D 類工作,一般是對實際場景中的特定事物進行标注,例如對一條道路上的雷達車道線、雷達目标拉框。接着是語音類,是指對音轉文、方言轉寫、喚醒助手等進行标注。
2D 類被認爲更簡單,是指對平面圖像、文字段落進行标注,或者是 OCR(文字識别)轉寫,例如對交通違規圖片裏的人和車、紅綠燈、交通标示進行識别。
價格最低的打碼類,是指驗證碼裏的計算題、哪些圖片中含有火車這類工作。
" 數據标注十分枯燥無味,純體力活,每标注 200 個就有一種想吐的感覺。" 正在浙江某高校讀研的小何對南方财經全媒體記者表示。
以此謀生的數據标注師,工作強度可能更爲難忍,除了需要耐心在電腦前面坐上幾小時、耗盡眼力,可能還要面對原始數據裏的限制級内容,涉及性、暴力、仇恨言論等。
數據标注産業正在持續爆發。早在 2021 年,人社部就發布了《人工智能訓練師》國家職業技能标準,覆蓋數據标注員、人工智能算法測試員兩個工種,反映當時相關産業已經成勢。這份标準将人工智能訓練師分爲 5 個等級,從初級工到高級技師。
數據标注看似 " 無腦 ",但卻因實際落地需要而需要嚴謹的工作态度。比方說,如果對自動駕駛領域的标注缺乏質量把控,那麽相關軟件就無法令汽車安全地行駛在道路上。
然而,圍繞着數據标注員的低薪、長期伏案、内容重複和精神壓力,社會輿論也正圍繞着相關職業保護而發酵。如果無法改善數據标注師的工作環境、提升價值,這種職業的長久性仍令人存疑。
市場前景看漲
近期,南方财經全媒體記者從數個招聘渠道了解到,從北京、上海、廣州到陝西榆林市清澗縣、" 大數據之城 " 貴陽市的惠水縣百鳥河數字小鎮,數據标注公司正在市場上急迫地發出招聘廣告。與此對應的是,數據标識公司本身也被視爲利益潛力大增的投資标的。
記者發現,數據标識行業 " 個體戶 " 正大量湧現。在百度貼吧上,大量項目正在召集所謂 " 團隊 " 接标,從發帖内容可以看出,隻要有一個相對固定人數、固定工作時長的團隊,就可以接下大公司分發下來的項目标。有從業者介紹,刨去場地租賃、電腦和桌椅配置、每月水電費、人工開支,這種個體分包商賺取的是中間差價。
不過,這個行業當然也正向着規模化、公司化的方向發展。行内有兩種類型的公司,一種是大型互聯網公司的内部部門、一種是外包公司。後者正成爲資本市場上的 " 香饽饽 "。
2021 年登陸科創闆的海天瑞聲,今年股價從 1 月初的 60 元水平一度暴漲至超過 200 元。該公司從事語音識别、語音合成、自然語言處理、計算機視覺等數據集技術開發。2022 年,該公司收入達到 2.63 億元,和 2021 年相比僅增長 27.3%,淨利潤則微跌 6.56% 至 2953 萬元。盡管如此,按照 4 月 12 日收盤價每股 187 元計算,該公司市值已經達到 80 億元,動态市盈率爲 326 倍。
未上市的公司也獲得了更多的資本青睐。2022 年 12 月,星塵數據完成 A 輪融資 5000 萬元,相距上一次 2018 年 6 月獲得融資已經時隔 4 年半。這也反映,資本市場可能正重新關注這個新興領域。
" 由于‘廉價勞動力’常常是數據标注公司的招牌,緻使其無法獲得足夠的重視。" 星塵數據在其官方一篇新聞稿中這樣寫道。該公司稱,正通過自動化來提升标注效率。
人工智能的飛輪滾動,數據還在海量增長。數據公司 Exploding Topics 的數據顯示,2023 年全球新增數據或将達到 120ZB,2025 年近一步達到 181ZB。其中,美國、德國、英國、中國是排名前四的數據産生大國。
不過,業内正在争議 " 以數據爲中心的人工智能 " 是否将取代 " 以模型爲中心的人工智能 "。知名人工智能學者吳恩達(Andrew Ng)是前一論點的持有者,他曾多次強調,有标注的高質量數據才能釋放人工智能的價值,如果業界将更多精力放在數據質量上,人工智能的發展會更快。
基于原始數據增長而産生的數據标注,因此也仍繼續擴大,并将市場需求而價值波動。華經産業研究院在近期的一份報告中預測,到 2029 年中國數據标注市場規模将達到 204.3 億元。這和 2019 年的 43.3 億元相比,增長了大約 3.7 倍。
數據标注行業能否在未來去除 " 人力工廠 " 的标簽,又将如何用自動化和技術手段提升數據策略、融入 AI 更高階的發展浪潮中?人們拭目以待。
SFC
本期編輯 黎雨桐 實習生 餘心雨
21 君薦讀