6 月 15 日,大模型明星初創公司百川智能 CEO 王小川證實,其公司發展到了 " 第一個裏程碑 "。據悉,百川智能今日在 Hugging Face、Github 和 Model Scope 等平台上正式發布 70 億參數中英文大模型 baichuan-7B,這是王小川宣布入局大模型創業以來,首次公布産品進展。
據 Github 網站上的介紹,baichuan-7B 是由百川智能開發的一個開源可商用的大規模預訓練語言模型。基于 Transformer 結構,在大約 1.2 萬億 tokens 上訓練的 70 億參數模型,支持中英雙語,上下文窗口長度爲 4096。在标準的中文和英文權威 benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
兩個多月前的 4 月 10 日,搜狗公司創始人王小川攜 5000 萬美元啓動資金,和前搜狗 COO 茹立雲聯合創立人工智能公司百川智能式殺入大模型領域,旨在開發中國版的 OpenAI 基礎大模型及颠覆性上層應用。
兩個月來,百川智能四處招兵買馬,研發團隊已擁有包括前搜狗、百度、華爲、微軟、字節、騰訊等知名科技公司以及其他創業公司核心成員在内的數十位頂尖 AI 人才。如今首款大模型産品終于亮相,baichuan-7B 一出現便以 70 億參數量霸榜。
據了解,百川智能在萬億優質中英文數據的基礎上,爲了更好地提升訓練效率,baichuan-7B 深度整合了模型算子來加快計算流程,并針對任務負載和集群配置,自适應優化了模型并行策略以及重計算策略。通過高效的訓練過程調度通信,baichuan-7B 實現了計算與通信的高效重疊,進而達到了超線性的訓練加速,在千卡集群上訓練吞吐達到 180+Tflops 的水平。
baichuan-7B 首次亮相便展現出不凡的能力,在 C-Eval、AGIEval 和 Gaokao 中文權威評測中超過了 ChatGLM-6B 等其他大模型,成爲同等參數規模下中文表現最優秀的原生預訓練模型,在 MMLU 英文權威評測榜單上,也大幅領先 LLaMA-7B。
目前,北京大學和清華大學已率先使用 baichuan-7B 模型推進相關研究工作,并計劃在未來與百川智能深入合作,共同推動 baichuan-7B 模型的應用和發展。