騰訊科技訊 在建設人工智能大語言模型的語料庫方面,數據注釋員發揮着越來越重要的作用。然而,他們獲得的報酬卻非常少,而這種不公平現象在全球數據産業中幾乎成爲常态。爲了改變現狀,印度初創企業 Karya 正努力提高數據注釋員的薪酬标準,希望幫助改善印度乃至全球貧困。
圖 1:印度卡納塔克邦阿加拉村,Karya 公司員工普裏埃蒂在家工作
三天賺了以往月收入的四倍還多
普裏埃蒂 (Preethi P.)住在印度卡納塔克邦西南方名爲阿加拉的小村子裏,距離班加羅爾市中心大約有三個小時的車程。她的家裏隻有一個房間,周圍是稻田和花生田,家中最值錢的家俱是一台縫紉機。通常情況下,普裏埃蒂會花幾個小時縫補衣服,平均每天可以賺到近 1 美元的報酬。然而,突然有一天,她用母語卡納達語對着手機上的某個應用讀了一句話。她停頓了一下,然後又讀了一遍。
普裏埃蒂隻有一個名字,這在阿加拉附近很常見。除了縫補衣服,她還是一家名爲 Karya 的初創公司的員工,該公司在阿加拉及其鄰近村莊雇傭了 70 多人,他們負責收集印度當地語言的文本、語音和圖像數據。普裏埃蒂是一個龐大的、隐形勞動力大軍中的一員,他們在印度、肯尼亞和菲律賓等國家開展業務,收集和标記人工智能(AI)聊天機器人和虛拟助手所依賴的數據,以幫助生成相關的回應。然而,與許多其他數據承包商不同的是,普裏埃蒂的付出得到了豐厚的報酬,至少以當地标準來看是這樣。
在 Karya 僅工作了三天,普裏埃蒂就賺了 4500 印度盧比(約合 395 元人民币),這比這位 22 歲的高中畢業生作爲裁縫時 1 個月收入的四倍還多。她說,這筆錢足以幫她支付當月的分期貸款。這筆錢被用來修複搖搖欲墜的泥牆,這些泥牆如今已經用五顔六色的紗麗仔細地修補好了。而這一切,普裏埃蒂 " 隻需要一部手機和能夠連網 "。
圖 2:Karya 聯合創始人馬努 · 喬普拉在印度卡納塔克邦的農村
微軟、谷歌都是大客戶
Karya 成立于 2021 年,當時人工智能聊天機器人 ChatGPT 還沒有崛起,但今年對生成式人工智能的狂熱隻會增加科技公司對數據永不滿足的需求。印度科技行業貿易機構 Nasscom 的數據顯示,預計到 2030 年,僅印度就将擁有近 100 萬名數據注釋員。Karya 與其他數據供應商的不同之處在于,它向承包商(主要是女性,而且大多住在農村)提供的工資是該行業最低工資的 20 倍,并承諾提供質量更好的印度語數據,而科技公司也願意支付更高的價格來獲得這些數據。
這家創業公司的老闆、27 歲的計算機工程師馬努 · 喬普拉(Manu Chopra)在接受采訪時表示:" 每年,大型科技公司都要花費數十億美元爲他們的人工智能和機器學習模型收集訓練數據。而目前收集和注釋類工作的報酬卻太低,這應該被視爲一個行業的失敗。"
如果說微薄的工資是一個行業的失敗,那麽矽谷對此負有一定的責任。多年來,科技公司始終将數據标記和内容審核等任務外包給成本更低的海外承包商。但現在,矽谷許多最知名的公司正求助于 Karya,以解決其人工智能産品面臨的最大挑戰之一,即尋找高質量的數據,以構建能夠更好地爲數十億潛在非英語用戶服務的工具。這種合作關系可能代表着數據行業經濟以及矽谷與數據提供商關系的重大轉變。
微軟已經聘請 Karya 爲其人工智能産品收集本地語音數據。比爾及梅琳達 · 蓋茨基金會也在與 Karya 合作,以減少輸入大語言模型培訓數據中的性别偏見,大語言模型是人工智能聊天機器人的基礎技術。谷歌也在依靠 Karya 和其他當地合作夥伴收集 85 個印度地區的語音數據。谷歌計劃擴展到每個地區,将大多數人說的語言或方言包括在内,并爲 125 種印度方言建立一個生成式人工智能模型。
圖 3:Karya 創始人馬努 · 喬普拉在印度西南部卡納塔克邦與當地員工互動
許多人工智能服務都是根據英文互聯網數據開發的,比如文章、書籍和社交媒體帖子。因此,對于其他國家的互聯網用戶來說,這些人工智能模型很難代表語言的多樣性,因爲他們使用人工智能智能手機和應用程序的速度比學習英語的速度還要快。僅在印度就有近 10 億這樣的潛在用戶,因爲該國政府正在推動從醫療保健、教育到金融服務的各個領域推廣人工智能工具。
谷歌研究院在印度的負責人馬尼什 · 古普塔(Manish Gupta)說:" 印度是我們第一個在非西方國家開展這項業務的國家,我們正在用九種印度語言測試聊天機器人巴德(Bard)。超過 100 萬人使用的 70 多種印度語言都沒有數字語料庫,我們面對的挑戰十分嚴峻。"
古普塔列舉了人工智能公司爲服務印度互聯網用戶而需要解決的一系列問題,比如非英語數據集的質量低得令人沮喪,幾乎沒有印地語和其他印度語言的對話數據,印度語書籍和報紙的數字化内容非常有限。
當測試南亞語言時,人們發現有些大語言模型在構成單詞和基本語法方面存在困難。還有人擔心,這些人工智能服務可能反映出對其他文化更扭曲的看法。斯坦福大學計算機科學系教授梅蘭 · 薩哈米(Mehran Sahami)說,訓練數據的廣泛代表性至關重要,包括非英語數據,這樣人工智能系統才 " 不會延續有害的刻闆印象,産生仇恨言論,也不會産生錯誤信息 "。
圖 4:Karya 的員工正收集印度本土語言的文本、聲音和圖像數據
緻力于用技術消除貧困
Karya 的總部位于班加羅爾,該公司已經凸顯出巨大的社會影響力。在得到政府的資助後,它能夠擴大語言庫,部分原因是它專門針對農村地區的工人,否則這些人不可能會從事這類工作。Karya 的應用可以在沒有互聯網的情況下工作,它還爲那些讀寫能力有限的人提供語音支持。在印度,超過 3.2 萬名衆包工人登錄了 Karya 的應用程序,完成了 4000 萬項付費數字任務,如圖像識别、輪廓對齊、視頻注釋和語音注釋等。
對于喬普拉來說,目标不僅僅是改善數據的供應,還要消除貧困。這位 Karya 創始人在西德裏一個叫 Shakur Basti 的貧困社區長大。他獲得了獎學金,去了一所精英學校學習,但他在那裏受到欺負,因爲他的同學說他 " 聞起來很窮 "。随後,喬普拉又前往斯坦福大學學習計算機科學,但他意識到自己讨厭在那裏遇到的 " 如何賺到 10 億美元 " 的心态。
2017 年畢業後,喬普拉開始緻力于自己長期以來的興趣,即利用技術解決貧困問題。喬普拉說:" 隻要存 1500 美元,印度人就有資格進入中産階級。但窮人可能需要 200 年才能達到這樣的儲蓄水平。"
圖 5:卡納塔克邦的 Karya 培訓中心
喬普拉了解到,微軟始終在爲收集語音數據(盡管質量很差)支付巨額費用,以用于支持其人工智能系統和研究。例如,2017 年,盡管馬拉地語(孟買及其西印度地區使用的)有 100 萬小時的數字化語音數據,但隻有 165 小時可供購買。此後,他的創業公司爲微軟的人工智能服務收集了 1 萬小時的馬拉地語語音數據,由來自五個不同地區的男性和女性朗讀。
喬普拉說:" 科技公司想要數據、口音和所有東西。就連你的咳嗽聲,也代表了某種自然語言,他們希望在講話中出現這類聲音。"
微軟印度研究院研究數據收集倫理的研究員賽卡特 · 古哈(Saikat Guha)說,他還利用 Karya 提供的數據開展了一個項目,幫助視力障礙者找工作。古哈表示:" 這些數據的質量遠遠好于我使用過的任何其他來源。如果你給員工公平的薪酬,他們會将更多精力投入到工作中,最終的結果是提供更好的數據。"
與此同時,超過 3 萬名受過教育的年輕印度女性正在與 Karya 合作,幫助用六種印度語言爲比爾及梅林達 · 蓋茨基金會收集 " 性别意識 " 數據集,比如醫生或老闆并不總是男性。這是印度語領域最大的同類項目,将作爲構建數據集的語料庫,以減少大語言模型中與性别相關的偏見。
Karya 不會止步于印度。該公司表示,正在洽談将其平台作爲服務出售給非洲和南美的公司,這些組織也将開展類似的工作。
圖 6:香巴維在 Karya 培訓中心接受培訓
目前,班加羅爾西南另一個村莊耶蘭杜爾(Yelandur)的女性們熱切地等待着 Karya 的下一個項目:幫助轉錄卡納達語的錄音。25 歲的香巴維 ( Shambhavi S. ) 就是其中之一,她在給公婆喂完晚飯、哄孩子睡覺後,在家裏安靜地工作,從之前的一項任務中賺了幾千盧比。
香巴維說:" 我不知道人工智能是什麽,也從來沒聽說過。但我想賺錢爲我的孩子提供教育機會,這樣他們就能學會如何使用它。"(文 / 金鹿)