衡宇 發自 凹非寺
量子位 | 公衆号 QbitAI
走月更路線的百川智能,在年前猛地加速,變成了半月更:
發布了超千億參數的最新版本大模型 Baichuan 3,是百川智能基礎模型第三代——就在 20 天前,這家由王小川創辦的大模型公司,剛剛發布過角色大模型 Baichuan-NPC。
更具标志性的是,百川智能這次模型更新,重點展示了模型在醫療場景的能力。
這既是商用落地的方向性揭示,還是王小川一直以來的技術健康理想,更在客觀上表明了領先性,因爲醫療領域,也被業内類比爲 " 大語言模型皇冠上的明珠 "。
大模型落地醫療領域,既需要豐富的醫療知識、合适的 Prompt,還需要模型本身的推理能力過硬。
當然,醫療能力都秀了,更何況文學創作。Baichuan 3 也秀了一把文學創作的能力,據說背後是在強化學習方面狠狠下了一番功夫。
具體怎麽樣?一起前排來康康。
Baichuan 3 的能力怎麽樣?
Baichuan 3 是百川智能發布的基礎模型第三代版本,對比 9 月推出的 Baichuan 2,各方面性能有了大幅提升。
話不多說,來看看 Baichuan 3 的測試成績。
首先是對基礎榜單的一系列刷新。
包括 MMLU、CMMLU、GAOKAO、AGI-Eval、ARC 等業内榜單,都成了百川智能秀新肌肉的背景闆。
在 MMLU 測試集上,Baichuan 3 最終成績爲 81.69,達到 GPT-4 94.55% 的水平。而在 CMMLU 和 GAOKAO 這兩個中文任務評測中,Baichuan 3 甚至超越了 GPT-4。
可以看到除 ARC-Easy(含 3 年級到 9 年級科學考試内容的多選題問答數據集)以外,Baichuan 3 在各個主流榜單上的能力都大幅超越 GPT-3.5,達到接近 GPT-4 的水平。
一般來說,千億參數以上大模型通常還會 " 闖關 " 數學和編程能力,以展現自身的深層次邏輯思考能力和問題解決技能。
Baichuan 3 在這方面也表現出衆。
可以看到,評測數學能力的 GSM8K 和 MATH 上,Baichuan 3 均達到了 GPT-4 九成以上的能力;而 HumanEval 和 MBPP 這類鑒别編程能力的評測集,Baichuan 3 的表現超過了 GPT-4。
至于對齊能力方面,Baichuan 3 在 MT-Bench 和 IFEval 評測中,僅低于 GPT-4。
其中,MT-Bench(Multi-turn Benchmark)專門評估大模型多輪對話任務表現,由 80 個多輪對話問題組成,涵蓋了寫作、角色扮演、推理、數學、編碼、知識(STEM)和人文社會科學等多個領域。
而 IFEval(Instruction-Following Eval)則專注評估大模型遵循指令的能力,包含關鍵詞檢測、标點控制、輸出格式要求等 25 種任務。
開篇我們提到,百川智能的這一代超千億大模型,開始嘗試挑戰醫療場景。
看看其在醫療相關評測任務中取得的結果,也确實拿得出手:中文相關評測任務超過 GPT-4 水準,英文相關評測任務中,也大大縮短了與 SOTA 的距離。
爲了防止官方進行 "Cherry-Pick"(從大量數據集中精選出符合某特定标準的某些部分或個體),我們在體驗過程中,随機驗證了一道醫療問診題目:
Fine,淺試了一下,專業度可以。
再來看 Baichuan 3 頗引以爲傲的文學創作能力,在極高難度的唐詩宋詞創作方面,Baichuan 3 對唐詩宋詞的語義理解和生成能力大幅提升。
那就丢它一個 " 命題作文 ",試試寫首詞,主題是奧特曼在 OpenAI 的《甄嬛傳》事件,詞牌名就選《定風波》。
笑不活了,Baichuan 3 反饋回來的作品居然還是雙語的,句式、對仗完全 OK:
同樣的題目,丢給 ChatGPT 試試?
它懂了咱要它寫詞,但沒完全懂。大概 ChatGPT 還沒學明白 " 定風波 " 不是整個事件的定論,是句式、聲韻、對仗有特别規律的詞牌名。
後來又試了試别的,發現不是 Baichuan 3 運氣好,這家夥應該是真的懂詞牌名。
來看這首《滿江紅》:
後來的測試過程,我們又蹭了蹭農曆新年的熱度,順便在文學創作能力的基礎上,加點多輪對話的能力。
結果 ChatGPT 還是出現了 " 不懂詞爲何物 " 的 bug。
至于詞的内容怎麽樣,要是有愛好文學的小夥伴,可以在評論區分别品鑒一下:
百川智能新模型解析
從各項數據和具體效果來看,Baichuan 3 已經完成了全方位升級,在中文能力有超越 GPT 的表現。
它是如何做到的?技術上做了哪些創新和叠代?
關于 Baichuan 3,百川方面并未公布模型具體參數,但明确表示了參數量超千億。
也就是說,整體來看,百川智能的路線和 OpenAI 的路線一緻,即業内認可的暴力美學,參數出湧現。
然而衆所周知的是,即使有百億甚至幾百億級别模型的訓練基礎,對此前的 " 小 " 大模型,千億參數大模型的訓練也會面臨不少新的問題。
比如數據制備、參數矩陣初始化方法的選擇、優化方法選擇,或者是讓人頭疼不已的梯度爆炸、Loss 跑飛、模型不收斂等。
百川智能的解決策略,從訓練初期就開始切入。
首先,針對超千億大模訓練初期模型不穩定性增強的情況,百川智能提出了一個漸進式初始化方法,叫 " 重要度保持 "(Salience-Consistency)。
訓練過程中,團隊還通過細粒度監控、" 異步 CheckPoint 存儲 " 機制等措施,保證 Baichuan 3 的穩定訓練至少在一個月之上。
如果臨時出了問題,也能在 10 分鍾内完成故障修複。
其次,Baichuan 3 對訓練框架進行了優化,實現了減少同步開銷、減少通信延時、減少流水并行分段數量,并且降低了空泡率。
第三,爲了提高模型最後的收斂效果,訓練過程中,百川智能團隊不僅監控梯度、loss 等指标,還引入了參數 " 有效秩 ",保證盡快發現訓練過程出現的問題。
話到這裏就多提兩句,千億模型的訓練,動辄要幾千卡訓練 N 個月,因此訓練過程的監控需要格外重視。
據團隊介紹,爲了确保訓練的超大模型遵循 "Scaling Law",百川智能依靠小模型以及訓練的不同 FLOPS 時期對大模型的 Loss 進行預測。
實驗表明,大模型完美複刻了團隊預期的 loss。
再者說,百川智能在數據的優化和采樣方面也有所創新。
團隊提出了一套基于因果采樣的方法在模型訓練過程中動态地選擇訓練數據的方案。
詳細流程如下圖所示:
也就是說,訓練千億模型時在穩定性、收斂性、并行方式等多個層面可能面臨的問題,Baichuan 3 逐個擊破,進行優化,這才有了評測集上的亮眼成績。
至于 Baichuan 3 能在中文醫療場景的表現能超過 GPT,秘方也被我們打聽了個底朝天。
得到的答案是,大模型在醫療領域落地,需要具備三方面的能力:
第一點,模型需要具備足夠的醫療領域知識;
第二點,模型需要具備很強的邏輯推理能力;
第三點,需要精心調教合适的 Prompt,讓模型能夠激發出相關的知識、結合合适的推理。
用一句話概括,就是需要大模型具備足夠的醫療知識,然後利用自身邏輯能力進行症狀預測,并結合 Prompt 調優,作出适當取舍,然後完成問診過程。
Baichuan 3 能當個不錯的中文醫生,原因在于模型預訓練階段彙集了達到千億 Token 的醫療相關數據,同時構建了一個含數十萬條記錄的醫療微調數據集。
同時,爲了讓整體模型相關能力得到更好地激發,百川智能在模型推理階段針對 Prompt 做了系統性的研究和調優。
簡單來說,百川智能在醫療領域的秘訣 = 基礎模型能力 + 準确描述任務 + 恰當的示例樣本。
而 Baichuan 3 能寫唐詩、能仿宋詞,也是有苦功夫在背後,招式主要有三。
一方面,百川智能團隊自研了訓練推理雙引擎融合、多模型并行調度的 PPO 訓練框架,支持千億模型,效率比業界主流框架提升 400%。
又将傳統強化學習中的多種穩定訓練的方法以及超參數調優的策略引入,實現連續穩定的 Reward 提升的訓練過程。
另一方面,團隊結合 RLHF 與 RLAIF,也就是既要人類反饋,也要大模型自己反饋,然後生成高質量優質偏序數據,平衡數據質量和數據成本。
做到這兩點後,Baichuan 3 實現了叠代式強化學習(Iterative RLHF&RLAIF)。
模型通過多次的強化學習版本爬坡,大大緩解原先強化學習起點模型(SFT 後的模型)無法探索到優質結果限制效果的問題。
下一站,多模态和 Agent
王小川曾公開表達過對大模型開發的看法,在他眼中,這個階段離不開算力、财力和智力的支持。
縱觀目前國内外的大模型創業賽道,百川智能的确是擁有着這三樣硬實力的玩家。
在這樣的條件基礎上,百川智能從去年 4 月公開亮相後,一直實際地向前推進。
并且節奏風格非常鮮明:平均每個月都有一款新模型對外面世。
對關注大模型賽道的人來說,每個月追更一次百川智能的大模型,變成了和翻一頁新的月曆一樣的平常事。
這次還打破自身常規地突然卷了一把,在新一年的第一個月尾緊急加更,甩出了 Baichuan 3 這一超千億版本,驚喜來得猝不及防。
量子位還打探到,多模态和 Agent,是團隊未來會有更多探索的兩個方向。
而這應該就直接與明牌 " 超級應用 " 有關了。
從成立到現在 9 個月的時間裏,百川智能有技術、有實力、有答卷、備受期望,毋庸置疑是技術性的一年。
而或許從現在開始,百川智能将要展現的另一面,就是有産品、有落地、有商用,實現技術模型到商用模型的飛輪閉環。
這或許也是爲什麽 2024 年剛開年,就有如此規模的基座模型叠代亮相。
百川智能要提速,技術勢能和産品動能要合體了。