大模型落地垂直行業,數據已打響第一槍。
現在,專門面向垂直大模型的數據解決方案來了——
直接幫助通用大模型産業落地那種。
背後是将交付精度标準拉到 99.99%,在業内連續霸榜的雲測數據。
高質量數據,作爲大模型時代下的關鍵 " 燃料 ",直接決定着大模型效果的好壞。
不少業内大佬包括張勇、李彥宏、周鴻祎等在内都曾談到大模型産業落地中數據的價值和意義。
但從大模型訓練流程、行業數據的稀缺性,又決定着數據生産處理并非易事。
既然如此,雲測數據又是如何解決的呢?
劍指垂直大模型
首先,不同于傳統數據服務方案基于任務劃分的維度,整套垂直大模型數據解決方案按階段劃分,分爲三個階段:
持續預訓練
下遊任務微調
灰度發布聯調
這種模塊化設計,一方面交付更爲高效,大模型企業可根據自身需求選擇特定的服務内容;另一方面這恰好也是雲測數據所認爲從通用大模型到行業大模型所需要的" 三段論 "。
首先,持續預訓練階段,需要往通用大模型中注入垂直行業知識。一方面,需要場景化數據的采集和處理能力;另一方面,還要保證數據質量的穩定性和持續性。
随着大模型構建之後還有後續的持續叠代,所以需要長期、穩定的高質量行業數據輸送。
其次,下遊任務微調階段,也就是根據企業需要去進行任務端到端定制。
據介紹,雲測數據的數據标注平台集成了既有像語音分類、語音撰寫、文生圖、視頻标注等傳統标注工具支持,也有像問答對編寫、Prompt 編寫、多輪對話等大模型特定标注工具。這一階段需要人機協同來運作。
完成微調之後,也就是最後的灰度發布聯調階段,邀請比如像保險、金融、智駕等特定垂直領域人員和專家的評測評估;還有基于特定環境要求,搭建真實還原的使用場景。
遇到一些 bad case 就将數據通過平台回流到最初清洗标注,以及調優階段,以此來形成數據閉環。
總結來看,整套方案主要體現了兩大特點:持續訂閱、專業定制。
前者是大模型持續叠代升級、滿足時效性的共性,企業需要數據持續高質量地輸入;後者則是在保證高效高質的前提下,大模型垂直場景落地所必備的特性。
爲此,雲測數據特别在下遊任務微調、灰度發布聯調兩個階段,他們有着特定領域專家池,裏面都是了解場景的深度用戶,去評估有效的交互内容。
以電商中文案生成這一典型場景爲例。
據雲測數據總經理賈宇航介紹,首先是持續預訓練環節,雲測數據基于已有的數據集積累,比如不同産品信息、 商家評分、用戶評論等各類型數據,進行一個持續數據提供。
微調環節,則是進一步結合企業實際使用需求去生成相關文案,包括像品類特點、内容風格、客戶畫像等維度的定制。
至于聯調評測階段,一方面是公司專業的功能測試專家去整合系統進行評測;另一方面,是專業标注人員去對生成内容去進行評價和評分。
除了電商之外,雲測數據在保險、智駕、智能家居領域都已經有了相關大模型合作落地。
爲什麽是雲測?爲什麽是垂直大模型?
現在,通用大模型浪潮已經趨于冷靜,各領域企業都在思考如何應用大模型來降本增效。
雲測數據率先給出垂直大模型的數據解決方案,并明确表示" 大模型應走向行業 "。
爲什麽會是雲測數據?而這解決方案背後又是基于什麽考量?
在與雲測數據交談之中,談及最多的定位是數據生産者和處理商——
基于 AI 數據處理的經驗以及行業經驗,持續輸出相應的方案和标準。巧合的是,每年服貿會都成爲了雲測數據階段性的成果展示平台。
2020 年雲測數據代表行業首次對外宣布:項目最高交付精準度達到 99.99%;
2021 年,雲測數據先後發布雲測數據标注平台、AI 數據集管理系統等技術成果,率先形成 AI 訓練數據的" 采、标、管、存 "一站式服務,實現從 " 數據原料 " 到最後的 " 數據成品 " 全鏈條打通,輸出完整的數據價值。
又經過一年的打磨和完善後,應對 AI 工程化演進趨勢,雲測數據在 2022 年發布了面向 AI 工程化的新一代數據解決方案。方案不僅包括标注數據、管理數據所需的平台工具,還涉及管理體系以及數據安全。
其中數據處理工作台支持持續任務處理、人機協作,同時以标準 API 接口與各類系統對接,将AI 數據訓練過程中的綜合效率提升 200%。
今年大模型時代來臨,在雲測數據看來,行業數據之所以稀缺,核心是因爲現有數據不夠 clean,需要做清洗處理。
有業内機構表示,大模型數據清洗率,即清洗出來正确的數據占原數據百分比,不到 10%。
而解決方案以工具鏈集成的方式,能夠幫助企業根據自身需求,快速本地部署處理數據。這樣還能保證數據不出外網,保障數據資産的安全性。
事實上細心一點發現,這一輪輪方案看似是面向不同趨勢和場景,實際上都是基于已有方案基礎上的叠代。
賈宇航對此回應,都是基于數據底座集成。
經過數年 AI 數據處理經驗的累積,這也正是雲測數據「以不變應萬變」的方式應對 AI 技術趨勢。
至于選擇垂直大模型部署,這則是與行業經驗有關。
一來,多年來在汽車、安防、手機、家居、金融、教育、新零售、地産等行業多場景的優勢,能滿足大模型高質量、多樣性、時效性的數據需求。
二來,雲測數據本身也能結合自身優勢,将公司在軟件測試業務上 10 多年 ToB 服務經驗也遷移沉澱至雲測數據的 AI 數據服務中,提質增效的作用十分顯著。
于是乎,憑借在産品、服務、技術研發等方面的綜合實踐,雲測數據已連續四年被評爲行業第一,被認定具備豐富的研發及産業化服務經驗。
數據之于大模型時代
大模型,正在加速讓人工智能朝着以數據爲中心的方向轉變。數據的價值也在這一進程中來到了前所未有的高度。
從大模型預訓練、監督微調、強化學習,再到叠代、應用,數據可以說是貫穿整個流程。如何清洗處理高質量數據,利用數據去提高模型性能,在産學研界仍然在積極探索之中。
至少從各家招聘網站上看到,數據标注人才成爲剛需,市場十分火熱:基本平均本科以上,各領域專業人才都有涉及。
甚至有公司在招物理學博士來做标注了。
既然如此,身處于浪潮之中的數據服務公司,又在卷什麽往什麽方向卷呢?
一來,技術能力。數據作爲 AI 算法的底層設施,降本增效成爲數據行業中的首要目的和第一标準。
以往談到數據行業,無非是勞動密集型,隻需靠人力堆積,将各維度數據轉化爲結構化數據。
随着之後模型規模增大, 數據量與模型性能成正相關成爲普遍共識時,單靠人力無法提高效率,一體化的數據處理平台、算法工具鏈開始發展起來。
尤其是以自動駕駛爲典型場景,它不僅涉及各種交通路況的複雜長尾場景,還有在感知層面就涉及激光雷達、相機等多維數據的融合,這就需要自動化工具、多模态、甚至多種算法來提高效率。
現在以 ChatGPT 爲代表的大模型,對數據的需求不再隻是參數規模,還在于更高維度的——高質量、多領域和多模态;這也就需要 AI 數據服務公司更高效的技術實力來響應。
二來,場景化數據。大模型的技術路徑已經清晰,落地垂直領域也已經成爲必經之勢。而在行業場景中多年深耕,掌握核心行業資源和用戶,就能快速享受到紅利。
而且現在越來越多開源通用大模型問世,大模型的訓練門檻也就逐漸降低,更多工程化、系統化難題在後續叠代和應用的部署上。
垂直企業想要用上大模型,就需要專業 AI 數據服務商持續性地、緊密地合作,獲取行業知識數據。
如果說,自動駕駛讓數據标注告别人力走向了工具 / 平台标注,那麽大模型将數據标注重新迎來了洗牌時刻——
真正從勞動密集型變爲知識密集型、技術密集型。
隻有掌握行業 Know-how,持續技術創新的 AI 數據公司能站到最後,你覺得呢?
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~