百川智能發布超千億參數大模型Baichuan 3，醫療能力逼近GPT-4

圖片來源：視覺中國

1 月 29 日，中國人工智能創業公司百川智能發布超千億參數的大語言模型 Baichuan 3。在多個權威通用能力評測如 CMMLU、GAOKAO 和 AGI-Eval 中，Baichuan 3 都展現了出色的能力。而在 CMMLU、GAOKAO、HumanEval 和 MBPP 等多個中文評測榜單上，更是超越 GPT-4 展現了其在中文任務上的優勢。

與百億、幾百億級别參數模型訓練不同，超千億參數模型在訓練過程中對高質量數據，訓練穩定性、訓練效率的要求都高出幾個量級。爲更好解決相關問題，百川智能在訓練過程中針對性地提出了 " 動态數據選擇 "、" 重要度保持 " 以及 " 異步 CheckPoint 存儲 " 等多種創新技術手段及方案，有效提升了 Baicuan 3 的各項能力。

高質量數據方面，傳統的數據篩選依靠人工定義，通過濾重篩選、質量打分、Textbook 篩選等方法過濾數據。而百川智能認爲，數據的優化和采樣是一個動态過程，應該随着模型本身的訓練過程優化，而非單純依靠人工先驗進行數據的采樣和篩選。爲全面提升數據質量，百川智能設計了一套基于因果采樣的動态訓練數據選擇方案，該方案能夠在模型訓練過程中動态地選擇訓練數據，極大提升數據質量。

百川智能的醫療知識水平也有突破。Baichuan3 的醫療數據集 Token 數超千億，醫療能力逼近 GPT-4。爲了給 Baichuan3 注入豐富的醫療知識，百川智能在模型預訓練階段構建了超過千億 Token 的醫療數據集，包括醫學研究文獻、真實的電子病曆資料、醫學領域的專業書籍和知識庫資源、針對醫療問題的問答資料等。該數據集涵蓋了從理論到實際操作，從基礎理論到臨床應用等各個方面的醫學知識。

目前，百川智能沒有透露模型參數量，隻是公布 Baichuan3 是超千億參數的大模型。相比之下，GPT-3.5 是 1750 億參數。

百川智能由王小川和茹立雲聯合創立，成立于 2023 年 4 月，以搜狗團隊爲基礎。據報道，公司成立之初就已獲得 5000 萬美元啓動資金。

百川智能的速度一直很快。百川智能成立不到 100 天，便發布了 Baichuan-7B、Baichuan-13B 兩款開源可免費商用的中文大模型。從 Baichuan 1.0 到如今 3.0，隻用了 9 個月。

就在一個月前，2023 年 12 月 19 日，百川智能宣布開放基于搜索增強的 Baichuan2-Turbo 系列 API，包含 Baichuan2-Turbo-192K 及 Baichuan2-Turbo，在支持 192K 上下文窗口的基礎上，還增加了搜索增強知識庫的能力。

相比于 Baichuan2-192K，Baichuan3 的允許輸入文本長度有縮水。Baichuan2-192K 上線時，允許用戶輸入文本最長達 35 萬字，宣稱可以一次讀完一本《三體 2》，是全球處理上下文窗口長度最長的大模型。目前 Baichuan3 允許輸入不超過 4096 個字符的文本，相當于 2000 個漢字或者 3000 個英文單詞。

在過去一年的大模型創業中，通過行業數據訓練行業垂直大模型，被認爲是大模型在 B 端落地的主要路徑。但百川智能選了另一條方向，據甲子光年報道，百川智能将向量數據庫升級爲搜索增強知識庫，提升了大模型獲取外部知識的能力；把搜索增強知識庫和超長上下文窗口結合，讓模型可以連接全部企業知識庫以及全網信息。

去年年底的媒體溝通會上，王小川透露，百川智能的 C 端産品第一重心是醫療方向，産品預計會在 2024 年上線。