圖片來源 @視覺中國
文 | 腦極體
這兩天 AI 圈最熱鬧的消息,應該就 OpenAI 高層内讧,标志性人物、原 CEO Sam Altman 被董事會解雇,數位科學家和高層離職。
關于 " 政變 " 的原因,坊間有很多傳言,比如商業化和非營利原則的矛盾。總之,事件相關者在輿論場拉扯,吃瓜群衆則瞪大了眼睛看戲。這場風波會給全球 AI 研發,尤其是大模型帶來什麽影響,還是未知數。
有人做了一個梗圖,大模型廠商亂成一鍋粥,隻有賣卡的英偉達穩坐釣魚台。
任它天邊雲卷雲舒,可以肯定的是,中國的 AI 大模型在取得廣泛成就的基礎上,會繼續向前發展,釋放産業價值,并且不會一味照搬海外,尤其是 OpenAI 的模式。
帶着這份淡定,我們将目光聚焦在國産大模型,會發現 " 百模大戰 " 熱潮中,還缺乏對各類大模型全面、分層、真實的能力評估。
通用大模型、行業大模型,都在比拼參數規模,但訓練數據質量不确定,僅憑參數,行業客戶和用戶也難以選對适合的大模型。
那麽看榜單呢?基準測試 benchmark 和标準化數據集,可以針對性調優,榜單無法反映實際應用效果差距。
而且大模型在不同任務場景下,表現的區分度很大。一位開發者說," 現在就是告訴你都有哪些大模型,實際效果還是得靠自己測測看 "。
據中國信通院的數據顯示,目前的大模型測試方法和數據集已有 200 多個。想要一個個測過來,會給用戶帶來非常繁重的工作量。
" 百模大戰 " 亂花漸欲迷人眼,那麽,除了 " 跑分 " 打榜和參數 " 碾壓 ",還有什麽辦法來真實且有效地評判一個大模型的水平呢?
有必要來聊聊," 百模大戰 ",不同賽道都在戰什麽?
大模型,不看高分看高能
所謂 " 百模大戰 ",并不是每個大模型都在做着同樣的事。其中,既有想做基座模型 basemodle 的通用大模型,如百度的文心、阿裏的通義、騰訊的混元、華爲的盤古、訊飛的星火、智譜的 ChatGLM 等,也有面向行業、場景的垂直大模型,目前在金融、教育、工業、傳媒、政務等多個領域都大量湧現。
不同賽道的大模型,其核心競争力也不一樣。比如一味拼算法的打榜,對于行業大模型來說,可以作爲一種宣傳手段和 " 炫技 ",但實際效果才是用戶最關注的。
目前不少開發者反映,各類大模型都存在各自的問題。
1. 基座模型,本身能力有限制。
提到通用大模型,大家可能第一時間想到的就是推理能力,這也是大模型基準測試的主要指标。但在實際應用中,尤其是文科類型任務,大家不會沒事出 " 腦筋急轉彎 " 來測試通用大模型的邏輯推理能力,而是更希望大模型在複雜任務和上下文長度上,有更可靠的表現。
比如寫一篇演講文稿,篇幅一長就開始胡說八道或泛泛而談,文本的采用率下降;爲 AIGC 配字幕,不能整篇生成,還需要人工将文案切割成片;編寫一個程序,半路開始 network error ……這些都是實際應用中,大家比較關注的通用大模型的能力。
2. 行業大模型,領域壁壘難翻越。
" 百模大戰 " 進行到當下,很多行業開發者和企業都意識到,獨有的數據和場景,才是自己的護城河,開始打造定制化的大模型,而領域知識不夠,難以形成滿足某一領域需求的行業向産品。
比如大模型與行業知識不匹配、許多行業 know-how 還沒有知識化、傳統的知識圖譜與大模型的協同設計等,知識計算的能力不夠強,就無法真正撼動領域壁壘,讓大模型解決實際的業務問題。
3. 有用性,ROI 是個謎。
大模型的實際應用效果難以評估,其中一個主要原因,就是模型生成結果的有用性(采用率、可用率等指标),涉及大量多模态數據。
金融、醫藥、交通、城市等産業中,存在着大量多模态信息,比如客服電話的語音、醫學影像圖片、傳感器數據等,大語言模型必須具備多模态理解能力,将多模态信息與語言進行綜合分析處理,才能保證較高質量的輸出。
在實際任務中,上述三種問題可能會同時存在,要同時解決。
一位醫藥專家告訴我,在研發醫學影像的算法時,就需要基座大模型在預訓練階段就具備多模态理解能力、醫學影像知識,可以執行通用任務。同時,行業側還需要根據知識設計目标函數,在特征抽取、相似性度量、叠代優化算法等,都要貢獻好各自的知識,才可能訓練出一個對醫務工作者友好的領域大模型,不需要專業知識,也不需要建模,就能上手使用。
就像工業革命的開始,是因爲瓦特改良了蒸汽機。在此之前,蒸汽機早已被發明出來了,但一直沒有解決大規模高可用的問題,大模型也是如此。
大模型産業化,必須從基準測試的 " 跑高分 ",向可信賴的 " 高能力 " 進化。
百模大戰究竟在戰哪些能力?
從高分到高能,讓大模型具有與行業結合的可行性,也讓 " 百模大戰 " 正在進入新的階段。
從産業實際需求來看,可用且有效的大模型,至少應該具備幾個核心能力:
1. 長文能力。
大語言模型的技術特點,被認爲是 " 鹦鹉學舌 ",将輸入信号拼湊成有一定語法結構的句子,也就是文本補全能力。而大模型都有 " 幻覺 ",上下文窗口的長度增加,邏輯幻覺就可能越嚴重," 鹦鹉學舌 " 開始變得吃力。
在很多垂直行業應用中,如金融、法律、财務、營銷等,長文檔的分析處理和生成能力是剛需。
在長文中保持邏輯的連貫性、合理性,考驗着大模型的綜合能力,比如對複雜語句的理解及記憶能力,生成的可靠性,這也是大模型走向産業化的核心。
目前,無論開源、閉源大模型,都将長文能力作爲一個核心競争力。比如流行的開源大模型 Llama 2,就将上下文長度擴展至 128k,而基于 LLaMA 架構的零一萬物的 Yi 系列大模型,此前曾宣稱拿下了全球最長上下文窗口寶座,達到 200K,可直接處理 40 萬漢字超長文本輸入。閉源大模型中,GPT-4 Turbo 支持了比 ChatGPT 更長的上下文(128k tokens),百度的文心大模型通過對話增強,提升上下文理解能力。
2. 知識能力。
大模型 " 大力出奇迹 " 的模式,忽略了模型準确感知和理解注入知識的能力,目前已經凸顯了很多問題。比如不理解領域知識,在實際業務中表現不佳,無法滿足 ToB 用戶的需求。因此,當歐美科技公司依然在執着追求更大參數時,百度、華爲等國内大模型廠商,開始轉向了行業場景,将強業務知識引入文心、盤古的行業大模型之中,來提升大模型在行業任務中的應用效果。
具體是怎麽做的呢?以 " 行業知識增強 " 爲核心特色的文心,是在預訓練大模型的基礎上,進一步融合大規模知識圖譜,挖掘行業應用場景中大量存在的行業特色數據與知識,再結合行業專家的知識,從大規模知識和海量數據中融合學習,把知識内化至模型參數中。
當用戶輸入問題時,文心 4.0 會拆解回答問題所需的知識點,進而在搜索引擎、知識圖譜、數據庫中查找準确知識,再将知識組裝進 Prompt 送入大模型。另一方面,大模型還将對輸出結果進行反思,從生成結果總結知識點,進而通過以上方式進行确認驗證,對結果差錯進行修正。
目前來看,在同等參數規模下,知識增強的深度語意理解,效果大幅超越了純粹用深度學習的方法,推理效率更高,并且可解釋性更強,更符合産業對可信 AI 的需求。
目前,知識 + 大模型還有許多細節有待解決,比如知識體系的構建,知識的持續獲取,知識應用和推理等,這些問題的攻克都會給行業認知智能帶來重大機會。
3. 多模态能力。
2022 年我參加華爲雲 AI 院長峰會,一位科學家提到,大模型有一個問題,就是有很多符号領域,大模型根本就不理解。他認爲,大模型是數據與知識雙輪驅動的,雙輪驅動是未來人工智能發展的重要模式。
前面我們說了知識能力的重要性,那麽 " 數據 " 究竟拼的是什麽呢?就是多模态能力。
把大模型應用到領域的時候,會發現問題非常多,根本達不到預期的效果。一個主要原因,大語言模型完全是基于語言的,而真實世界的複雜任務,有大量的數值、圖表、語音、視頻等多模态數據,數據的多模态特性增加了模型處理、建模和推理的複雜性。
一位醫療模型的開發者告訴我,醫療任務分析非常繁雜,數量級很多,有不同模态、病種,每一種模态有不同的診療任務,要把文本、圖像等多模态包容過來,而醫療領域非常缺少多模态的預訓練模型。
大模型要在實際業務中達到與人更接近的能力,也需要跨模态建立統一認知。
舉個例子,AIGC 生成營銷活動物料,根據文字描述生成圖像、視頻,既要精确理解提示詞的語義,還要符合領域規範,不能出現不合規的素材,同時要控制生成内容的質量,保持跨模态的語義一緻性。
國産大模型在多模态領域也做了很多差異化探索,除了大家熟悉的以文生圖,在醫療影像、遙感、抗體藥物、交通等領域,跨模态技術融合也在快速開展,未來會是基座大模型和行業大模型的亮點。
從這些産業需要的能力來看,大模型的産業屬性和價值已經清晰展露了出來。
大模型,絕不是聊聊天、搞怪圖片那麽膚淺,技術覆蓋區域是很廣闊的,技術應用價值已經足夠具有說服力。
但也必須承認,目前,絕大多數産業所獲取的技術能力和技術深度,都還遠遠不夠。一方面受限于上遊的基座大模型能力,同時也缺乏深度定制化的中遊服務商,導緻用戶大多隻能調用簡單化、标準化的 API,而難以将領域知識、多模态數據與大模型深度結合。
未來,從高分到高能,國産大模型一定會依靠自身的差異化技術路線,以及中國豐富多樣的産業需求,從懵懂走向成熟,甚至先于歐美,走向千行百業