于 2022 年 11 月發布,ChatGPT 被譽為當年最具創新性的人工智能工具之一。這項強大的 AI 聊天機器人幾乎可以生成任何問題的文本,從莎士比亞的十四行詩,到用 5 歲孩子都能理解語言描述的複雜數學問題,可謂 " 無所不能 "。
瑞銀此前發布的一份研究報告顯示,ChatGPT 的月活躍用戶在今年 1 月份預計達到了 1 億,這距離其推出隻有 2 個月時間,成為史上增長最快的消費者應用。
然而,在 ChatGPT 掀起的這場人工智能 " 革命 " 和資本市場狂歡的背後,有一個被邊緣化的、被遺忘的卻又至關重要的群體,值得所有人關注,他們就是數據标注員。
據美國《時代周刊》上月中旬的報道,為了訓練 ChatGPT,OpenAI 雇傭了時薪不到 2 美元的肯尼亞外包勞工,他們所負責的工作就是對龐大的數據庫手動進行數據标注。
時薪1.32~2 美元
每小時或标注超 2 萬個單詞
從當下看來,OpenAI 已經成為 " 生成式人工智能 " 行業無可争議的領頭羊。
最樂觀的投資者認為,計算機生成的文本、圖像、視頻和音頻将改變無數行業的經營方式,從創意藝術到法律,再到計算機編程,該技術都将提高人類的工作效率。
然而,數據标簽員工的工作條件揭示了行業背後 " 黑暗 " 的部分:盡管人工智能魅力無限,但它往往依賴于全球最廉價的勞動力,他們往往被大幅剝削。盡管他們為數十億美元的産業作出了傑出貢獻,但這些幾乎 " 隐形 " 的工人仍然處于最邊緣的地帶。
《時代周刊》查閱的文件顯示,OpenAI 在 2021 年底與 Sama 簽署了三份總價值約 20 萬美元的合同,為數據庫中有害的内容進行标記。
Sama 是一家總部位于美國舊金山的公司,該公司雇傭了肯尼亞、烏幹達和印度的外包員工。
大約 30 多名工作人員被分成三個小組,每個小組都專注于一個主題。三名員工對《時代周刊》表示,他們每 9 個小時要閱讀和标注 150~200 段文字。這些段落的範圍從 100 個單詞到 1000 多個單詞不等。如此計算,平均每小時他們最多要閱讀和标注超 2 萬個單詞。
接受《時代周刊》采訪的四名員工都表示,這份工作給他們留下了持久的心理創傷。盡管他們有權參加健康咨詢師課程,但四人都表示,由于對工作效率的要求很高,他們隻能選擇參加小組會議。其中還有一人表示,他們要求以一對一的方式與心理咨詢師會面的請求被 Sama 管理層多次拒絕。
Sama 官網截圖
合同規定,OpenAI 将為該項目向 Sama 支付每小時 12.50 美元的報酬,這是該項目員工時薪的 6~9 倍。
《時代周刊》稱,其查閱了數百頁 Sama 和 OpenAI 的内部文件(包括工人工資單),并采訪了 Sama 四名參與該項目的員工,驚人的内幕顯示,Sama 為 OpenAI 雇傭的數據标簽員工支付的時薪在 1.32 美元 ~2 美元之間(約 8.99 元 ~13.62 元),具體取決于資曆和表現。
據 Sama 員工透露," 代理商 " 是三個小組中最初級的數據标簽人員,他們的基本工資為每月 2.1 萬肯尼亞先令(約 170 美元或者約 1158 元)。此外,他們每月還能獲得約 70 美元(約 477 元)的獎金,如果達到準确性和速度等關鍵績效指标,他們還可以獲得傭金。
按此計算,一名每天工作 9 小時的員工預計稅後時薪至少能拿 1.32 美元,如果超額完成所有目标,則最高可達到 1.44 美元。質量分析師是資曆更深的數據标簽員工,他們的工作是檢查 " 代理商 " 的工作,如果他們達到了所有績效目标,時薪可以拿到 2 美元。
公開資料顯示,肯尼亞并沒有統一的最低工資标準,但當這些外包員工受雇時,肯尼亞首都内羅畢的最低時薪是 1.52 美元。
據《時代周刊》報道,Sama 的一名發言人在一份聲明中稱,公司對工人的要求是在 9 小時的工作中标注 70 段文字,而非 200 段。此外,工人們的稅後時薪是 1.46 美元 ~3.74 美元,不過這位發言人拒絕透露哪類崗位會達到其所述時薪區間的上限。
OpenAI 的一位發言人則在另一份聲明中稱,該公司沒有發布任何的業績目标,且外包員工的工資和心理健康由 Sama 的管理層負責。
2022 年 2 月,Sama 開始為 OpenAI 的另一個項目進行試點工作,但工作内容根據美國的法律是非法的。盡管這項試點工作似乎與 ChatGPT 無關,但僅僅在幾周之内,Sama 便叫停了與 OpenAI 的所有項目,比合同中約定的時間提前了 8 個月。
Sama 當時在一份聲明中稱,其為 OpenAI 收集的圖像協議中不包括任何涉及非法的内容,直到相關工作開始後,OpenAI 才發來 " 附加指示 ",提到了 " 一些非法的類别 ",随後肯尼亞團隊的高管立即提出了擔憂并結束了該項目。
Sama曾向多家矽谷大廠提供類似服務
自稱是 " 有道德的人工智能公司 "
訓練 ChatGPT 對 OpenAI 來說至關重要。
ChatGPT 的前身 GPT-3 已經展示了非常強大的語句串聯的能力。然而,當時的 GPT-3 卻存在很多弊端,例如内容容易出現暴力、性别歧視等言論。之所以會出現這樣的不足之處,是因為 AI 工具從互聯網抓取了數千億個單詞來訓練,這也是一把雙刃劍——由于互聯網的詞彙有不少帶有偏見及負面的詞彙,因此單純憑借學習能力無法來清除這些訓練數據。
《時代周刊》的報道顯示,即使是一個由數百人組成的團體,也需要幾十年的時間才能手動搜索龐大的數據庫。OpenAI 隻能通過建立一個額外的、AI 驅動的安全機制,才能控制上述弊端,創造出适合人們日常使用的聊天機器人。
《時代周刊》報道截圖
據報道,為了建立這個安全系統,OpenAI 借鑒了 Facebook(現 Meta)等社交媒體公司的做法。此前,Facebook 已經證明其可以構建能夠檢測仇恨言論等的 AI 工具,并将這些内容從其平台上移除。這項工作也很簡單:給 AI 提供标有暴力、仇恨語言等标簽,AI 工具就可以學會檢測這些内容。目前類似的工具已經内置到 ChatGPT 當中,以檢測它是否與訓練數據的内容相呼應,并在它觸及到用戶之前将不良内容過濾掉。
《時代周刊》報道稱,為了獲得這些有害内容的标簽,OpenAI 從 2021 年 11 月開始便向一家外包公司發送了數萬條文本片段。其中大部分文字似乎都是從互聯網 " 最黑暗的角落 " 挖掘出來的。
據報道,OpenAI 發言人曾在一份聲明中證實,Sama 在肯尼亞的員工為該公司正在開發的監測有害内容的工具作出了貢獻,該工具最終被内置到 ChatGPT 中。
除了 OpenAI,Sama 還為谷歌、Mate 和微軟等矽谷科技巨頭标注數據。此外,Sama 還标榜其是一家 " 有道德的人工智能公司 ",并稱其已經幫助 5 萬多人脫貧。
人工智能組織聯盟 Partnership on AI 表示," 盡管這些豐富數據的專業人士發揮了基礎作用,但越來越多的研究表明,這些工人都面臨着不穩定的工作條件。這可能是慶祝技術效率提升的同時,試圖掩蓋人工智能對龐大勞動力依賴的結果。"
記者 |蔡鼎
編輯 |段煉 高涵 杜波
校對 |盧祥勇
|每日經濟新聞 nbdnews 原創文章|
未經許可禁止轉載、摘編、複制及鏡像等使用
每日經濟新聞