中國的“ChatGPT們”，尋找高質量數據“養分”

文 / 半月

編輯 / 周雄飛

ChatGPT 火爆來襲，各路創業者們正趕着上車。

有着大模型儲備的大廠，紛紛下場布局。上月底，在 360 科技 2023 年數字安全與發展高峰論壇上，其官方正式發布大語言模型 360 AI。

而在更早以前，作爲國内率先對人工智能領域布局的百度，也推出了旗下多模态大模型應用——文心一言，據百度 CEO 李彥宏介紹，該模型具備文學創作、商業文案創作、數理推算、中文理解、多模态生成五個使用場景的綜合能力。

與此同時，阿裏，美團等大廠的一大批高管，看準機會相繼宣布創業，拿出大部分身家，隻爲做出中國版的 ChatGPT。

先是在今年 2 月，原美團聯合創始人王慧文在社交媒體上宣布出資 5000 萬美元，設立北京光年之外科技有限公司，并表示 75% 的股份用于邀請頂級研發人才，打造中國 OpenAI。另據最新消息，光年之外近期已啓動新一輪融資。

次月，阿裏前技術副總裁賈揚清也透露了他下一步的創業打算，據他介紹其目标是 AI 大模型底層技術相關，目前融資已基本到位。

一大批創業者們前赴後繼，"ChatGPT 們 " 正加速狂飙，這背後少不了多個行業 " 保駕護航 "。

要建立 ChatGPT 這樣的大模型應用，少不了算法、算力和數據三大行業的支持，簡單說，應用要高效運行起來，就需要強大算力的支持，而要讓應用背後的算法更爲聰明，則需要源源不斷地向其 " 投喂 " 高質量數據。

由此可見，算法大模型想要實現升級和叠代，最爲關鍵的就是需要大量數據的訓練，而要保證這些數據的質量，就需要對數據進行清洗、标注、質檢等多個步驟，要完成這一目标，少不了标貝科技、海天瑞聲爲代表的一批數據标注提供商的助力。

現階段，數據标注廠商們已耕耘多年，且各有 " 兩把刷子 "。

标貝科技，作爲多年紮根在數據标注領域的企業，專注于智能語音交互與 AI 數據服務，并通過精細化的定制服務打出自己在行業中的優勢。截止目前，标貝科技服務項目累計超過 1000 項。

除此之外，海天瑞聲、Scale.AI、Appen 等玩家，同樣是專注于數據标注的廠商，具備全套的産品與服務，在語音、計算機視覺、自然語言理解等領域皆有布局。

随着 GPT-4 等大模型的進一步發展，對于訓練數據質量的要求必将更爲苛刻，擺在數據标注廠商們面前的，是無限機會與挑戰。

ChatGPT 創業潮來了，

高質量數據成 " 剛需 "

ChatGPT 正爲交互領域帶來 " 劃時代 " 的改變。

随着 1946 年，世界第一台現代計算機 EDVAC 誕生，交互 1.0 時代正式開啓。人們用打孔紙，通過輸入 0、1 二進制的機器語言與計算機進行交互，直到上世紀 70 年代，人機交互迎來一次新的蛻變。

當時，随着首台個人計算機的問世，相比于此前用打孔交互不同，人們可以通過鼠标、鍵盤向計算機傳達任務：即通過點擊電腦圖标、以及用鍵盤輸入指令向計算機下達命令，從而讓計算機做出反饋，自此，計算機開始 " 飛入更多尋常百姓家 "。

這之後，雖然出現了 Windows 等多款操作系統，并且這些操作系統自身也持續不斷地進行着更新，但從本質将人機交互依然是通過編碼和解碼後的機器語言來進行。

直到 2022 年，OpenAI 帶着 ChatGPT 的到來，讓交互領域再度迎來 "iPhone" 時刻：人們能夠直接用自然語言流暢地與計算機進行交流，并且計算機能夠直接理解自然語言并與用戶進行反饋和對話。

之所以說是 ChatGPT 開啓了新的交互時代，是因爲相較于以往的對話模型，ChatGPT 有着質的飛躍。

經過連線 Insight 體驗，ChatGPT 能夠從中國詩詞歌賦聊到西方人生哲學，并在最後進行總結；而以往的對話模型隻能表達一首簡短的中文詩。也就是說 ChatGPT 能夠實現多輪及結合上下文的不間斷聊天，且能記住以往指令，同時用各國語言溝通無障礙。

而 ChatGPT 背後的大模型還在不斷叠代：從 2022 年底的 GPT-3.5 到 2023 年初的 GPT-4，性能又得到了全方位的提升。

GPT-4 較于 GPT-3.5 的性能提升，圖源 OpenAI

當看到 ChatGPT 在人機交互上跨時代的表現後，很快，各行各業都向 ChatGPT 們發出邀約。

最爲聲勢浩大的莫過于微軟，在 2020 年，微軟下了血本投資 OpenAI 10 億美元，在 2023 年，微軟迎來摘果子時刻：微軟正在将自家生态逐步和 GPT 進行結合，從而形成全新的 AI 生态。

上月 17 日，微軟發布融合 GPT-4 能力的 Microsoft 365 Copilot。據了解，Copilot 将會被内置到 Word、Excel、PowerPoint、Outlook、Teams 等應用之中。

簡單來說，用戶隻需要對 Office 下一個編輯的指令，Word、PPT、Excel 等就會自動 " 幹活 "。例如，在制作 PPT 時，Copilot 可以基于用戶的輸入内容自動生成 PPT 頁面，并提供字體、顔色、背景等設計風格建議，并且 Copilot 還可以自動檢測演示文稿中的錯誤和重複内容。

就當微軟在 ChatGPT 領域落子的同時，國内科技公司百度也率先站出來，發布了它的類 ChatGPT 産品——文心一言。據連線 Insight 測試，文心一言同樣具備 ChatGPT 的衆多能力，比如對于提問做出及時、準确的回應，以及可以結合上下文進行不間斷的交流和應答。

看到文心一言的能力後，國内各個行業的企業們紛紛響應，争相成爲該産品的合作夥伴。比如汽車行業的集度、長城，媒體行業的澎湃新聞、大衆日報，家電行業的海信、美的等企業，紛紛接入百度文心一言。截止目前，已有 650+ 公司，等待着百度文心一言的支持。

OpenAI、微軟和百度引領之後，有更多的科技公司參與到類 ChatGPT 大模型的争奪中來。

上月底，在 360 科技 2023 年數字安全與發展高峰論壇上，其官方正式發布其大語言模型 360 AI。目前 360 的構想是，在 To C 端，基于搜索場景推出人工智能個人助理類産品；在 To SME 端，将基于生成式大模型推出 SaaS 化垂直應用，如結合生成式 AI 的 " 企業即時通訊工具 - 推推 " 等。

除此之外，網易、科大訊飛等科技公司的産品也在孵化之中：2 月 8 日，網易有道對外表示，該公司未來或将推出 ChatGPT 同源技術産品，應用場景圍繞在線教育；2 月 9 日，科大訊飛表示，其 Al 學習機将成爲公司類 ChatGPT 技術率先落地的産品，并于今年 5 月發布。

随着越來越多科技大廠布局類 ChatGPT 大模型，行業内外對于 GPT-4 等大模型也提出越來越多樣的要求：既要其懂得駕駛語言，賦能智能座艙甚至是自動駕駛；又要求其博覽群書，并給出群書中的關鍵論點；還要會塑造虛拟人物，懂得人類的喜怒哀樂等等。

這也意味着，行業内外對于大模型必備的 " 三件套 "（算力、算法、數據），正提出更高的要求。

對于大模型 " 世界 " 來說，算法是 " 生産關系 "，是處理數據信息的規則與方式；算力是 " 生産力 "，能夠提高數據處理、算法訓練的速度與規模；而數據是 " 生産資料 "，高質量的數據是驅動算法持續叠代的養分。

基于這一重要性，目前對于算力的持續投注已是行業共識，政府也開始出手。

先是部分地方政府開放算力資源促進地方産業發展。今年 1 月，成都出台《成都市圍繞超算智算加快算力産業發展的政策措施》，政策表明，成都每年将發放總額不超過 1000 萬元的 " 算力券 "，用于支持算力中介服務機構、科技型中小微企業、科研機構、高校等使用國家超算成都中心、成都智算中心算力資源。

再到次月，國家發布算力交易平台，促進算力的流通。東數西算一體化算力服務平台在甯夏銀川在當月正式上線發布。據悉，東數西算一體化算力服務平台将瞄準目前最稀缺、剛需迫切的 ChatGPT 運算能力，以支撐中國人工智能運算平台急需的大算力服務。

需要注意的是，如果沒有高質量數據，算力再充足也無濟于事。參考 ChatGPT，其高質量數據是其在有效場景下采集到的原料數據，經過數據清洗、數據标注、質檢等環節後産生的。

高質量數據對于 ChatGPT 改進的重要性，可從以下案例中，窺見一二。根據 InstructGPT 實驗發現，随着模型參數量的增加，模型性能均得到不同程度的提高。

模型參數量與模型性能變化情況，圖源 InstructGPT

通過強化學習— PPO（近端策略優化）生成的模型，比 100 倍參數規模無監督的 GPT 模型效果更好。這裏的 PPO，便是 2017 年由 OpenAI 提出的一種基于随機策略的 DRL 算法，通過對策略的更新與監督來提高策略的效率。

可以說，有監督的标注數據是大模型應用成功的關鍵之一，且标注數據貴不在數量而在質量。在 GPT-4 等大模型高速、高質量發展中，高質量數據是 " 卡脖子 " 的存在。

現如今，各行各業紛紛向 ChatGPT 們發來邀約，ChatGPT 們急需補充養分。而若想要真正提高 ChatGPT 的競争力，高質量數據必不可少。

數據标注，乃 " 兵家 " 重地

從 GPT-3 到 ChatGPT，大模型經曆了 5 次叠代。

據東方證券研報顯示，在這幾次叠代中，最明顯的變化是，在訓練方式上增加了 RLHF，即讓智能體通過接收來自人類用戶或專家的反饋來調整自己的行爲的方法，同時用上了起碼 7.7 萬人工标注的語料庫。

從 GPT-3 到 ChatGPT 的叠代過程，圖源東方證券、未來智庫

也就是說，經過 RLHF 的多輪磨練、大量人工标注數據的修正，2020 年發布的語言理解能力較弱、名不見經傳的 GPT-3，才成功蛻變成爲有着多輪對話能力、史上月活用戶數量最快破億應用的 ChatGPT。

在這一過程中，數據标注廠商們功不可沒。

目前，國内大部分數據标注服務商提供文本、語音、圖像、視頻等各類型數據标注，服務應用領域涵蓋安防、智能駕駛、醫療、教育、金融等多個領域，主要客戶包括科技公司、人工智能企業、傳統企業、政府部門和科研機構等。

數據服務方面，分爲數據集産品和數據資源定制服務。數據集産品按用途劃分，有訓練集、驗證集、測試集等。而數據資源定制服務，即根據客戶業務特點，專門提供定制化的基礎數據全流程服務，數據内容以語音、圖像、NLP、OCR 爲主。

目前，玩家們根據行業局勢、技術優勢，" 各有所好 "：

作爲較早進入數據标注行業的玩家，标貝科技在能力上具備全面性，同時也更專注于智能語音交互。目前，标貝基于 AI+SaaS 開放平台，提供語料庫建設與标注、指令微調服務、基于人工反饋的強化學習标注三大服務模塊，與微軟、百度、阿裏、科大訊飛等國内外百餘家企業客戶建立合作，涵蓋汽車、教育、客服、零售、閱讀、智能硬件等多個領域。

标貝科技 ChatGPT 标注平台操作頁面，圖源标貝科技

其中，基于人工反饋的強化學習标注便是 ChatGPT 背後的秘密武器。簡單來說，就是用人工标注的方式，不斷地将結果去反饋給模型：回答好的給出正反饋，回答不好的，就通過加分機制的方式讓模型進一步的自我叠代，并進行不斷的調優，直到回答正确。

在數據标注行業中，除了标貝之外，也有其他玩家共同推動行業發展。

比如數據服務商 Appen，主營業務包括數據采集、數據預處理與模型評價三大類，業務類型齊全。又或者是國内的廠商海天瑞聲，已然形成文字、圖片、音頻、視頻等多模态标注布局，可在全球進行 190 種語言、方言的采集，多場景圖像、視頻采集以及多行業領域文本語料制作。

但就能力來看，标貝在圖文、音視頻領域有着更爲全方位的布局，因此其在智能語音大模型數據标注上，有着絕對話語權。

對比各家官網發現，标貝在智能語音标注層面提供的工具、産品以及解決方案是最全的，除此之外，标貝推出多語種語音識别數據庫，覆蓋美式英語、英式英語、韓語、法語、西班牙語、俄語、阿拉伯語等多語種，解決多語種識别訓練語料稀缺的難題。

同時，标貝所打造的模型更爲高效、所提供的服務也更爲全面。

在對話大模型優化數據設計方案上，除了最基本的數據采集和清洗技術外，标貝科技還擁有一系列高效處理數據、優化模型的技術。

例如，模型微調技術，相對于從頭開始訓練 ( Training a model from scratch ) ，微調技術能夠省去大量計算資源和計算時間，提高計算效率的同時提高準确率。

又或者是終身學習技術，能夠讓模型在不同的任務上依次訓練，并能夠勝任所有任務，而不是像傳統的機器學習那樣，一個網絡隻能勝任一個任務。基于此，模型能夠舉一反三，同樣能夠省去大量計算資源和計算時間。

全面的服務，體現在标貝能夠在模型運作的各個階段持續助力。

基于更高效的技術以及多個場景的磨練，在中小模型落地過程中，标貝能夠提供 " 保姆級服務 "。在早期，标貝基于常年經驗積累，能夠幫助客戶快速理清項目的技術難點和解決方案，能夠幫助 " 初來乍到 " 的客戶快速摸清項目脈絡。

中期，标貝能夠快速驗證自身的數據設計和标注方案在不同開源模型規模、模型風格上的效果，從而可以預覽和優化最終客戶的成品模型水平，也就是說，能在項目成型之前，把偏差扼殺在搖籃裏。

據标貝官方介紹，近期，其與一家大型智能 AI 公司合作中，在 " 對話大模型優化推理鏈（Chain of Thoughts）的數據集 " 項目上，标貝科技在數據方案設計階段之前便和該客戶共同驗證了多個版本的設計方案在開源中小模型中的效果，叠代和修正了之前無法預估的偏置錯誤。

數據标注行業，玩家無數。在這之中，有着過硬技術實力、能夠提供定制化、" 保姆級 " 服務能力的廠商自然會脫穎而出。但想要讓這條賽道越走越寬，還需要更多力量的支持。

GPT-4 們嗷嗷待哺，合作乃是最優解

據國務院《新一代人工智能發展規劃》預測，2025 年我國人工智能核心産業規模将超過 4000 億元，帶動産業規模或超 5 萬億元。

人工智能本就火熱，現如今再疊加 ChatGPT 推動作用，以及有标貝等高質量數據标注商的助力，讓這條賽道的未來更加令人期待。但不能否認的是，目前也存在着一個殘酷的事實——用于大模型的高質量數據不夠用了。

據 Epoch AI Research 研究人員預測，大模型所需的高質量語言數據存量将在 2026 年耗盡，低質量的語言數據和圖像數據的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。

如果數據效率沒有顯著提高或有新的數據源可用，那麽到 2040 年，大模型的規模增長或許将會放緩。

不同數據類型的消耗趨勢和耗盡日期，圖源 Epoch AI Research

這就意味着，市場急需标貝科技等數據标注廠商高效率地産出高質量數據，爲 ChatGPT 們補充養分。

但就目前來看，國内的數據标注行業，仍然稚嫩。

其中較大的問題是，數據标注行業缺乏 " 條條框框 " 的約束：例如行業标準的制定，商業模式的敲定等等。某 AI 數據标注訓練師對連線 Insight 表示，如今的數據标注公司之間一味地拼低價亂象叢生，最終拿到項目的乙方往往沒有能力承接。

與此同時，數據标注行業中的一些玩家也處于毛利率、營收持續走低的困境中。

根據海天瑞聲 2019-2021 年财報顯示，其毛利率從 2019 年的 70.25% 下滑至 2021 年的 64.01%，營收方面也從 2019 年的 2.38 億元，下滑至 2021 年的 2.06 億元。

2019-2021 年海天瑞聲營收、毛利率情況，數據來源于同花順，連線 Insight 制圖

更爲重要的是，随着大模型的迅速發展，供大模型訓練所需的語料量，非一家能夠滿足。

當前大模型訓練需要的語料量非常龐大，但由于曆史原因，語料在不同語言之間存在局部的不均勻性問題。

一個典型的例子是，絕大多數源代碼是用英語書寫的，但代碼語法本身是基于英文單詞設計。這導緻不少模型即使參數量很大，卻無法準确地捕捉到中文術語和源代碼的對應規律，無法在中文用戶的提示下寫出同等質量的代碼。

高質量數據需求迫在眉睫，現有語料庫質量堪憂，而國内數據标注行業還似一盤散沙，标貝針對該困局，提出了自己的解法。

根據标貝官方消息，其将公開一系列數據集，旨在解決這類局部不均勻性的問題。

标貝的思路是，将代碼中的備注内容替換成了高質量的、符合表達規律的中文漢字。之後，還會按照實際業務需求和國内開源大模型的發展情況，定期設計和公開類似的數據集。

在這之中，标貝将更好地利用存量代碼進行數據增強處理，以提高大模型在書寫代碼、專業長篇讨論時處理中文文本的能力。同時，标貝也呼籲更多的數據标注廠商能夠參與進來，共同提高 GPT-4 等大模型語料庫的數據質量。

在業内看來，GPT-4 等大模型潛力無限，标貝科技也有能力把好數據标注的關，使得大模型能夠産出更高質量的數據。同時，數據标注行業仍需更多數據标注廠商共同合作，豐富數據集，改善語料庫質量，共商行業标準，厘清商業模式，高效率地産出高質量數據。

正如地平線創始人餘凱爲《深度學習革命》一書寫的序言 " 人工智能領域能得到快速發展，關鍵在于有着衆多的合作者來推動這項事業 "。而作爲技術底座的數據标注行業，更是如此。

連線 Insight 旗下矩陣号「連線出行」歡迎關注