整個開源大模型戰場,打得亂成一鍋粥了!
最新加入戰事的是王小川創業的 AI 公司百川智能,宣布推出 70 億中英文預訓練大模型baichuan-7B。
速度不慢——此時距離百川智能在 4 月中旬官宣創業,開始訓練大模型,隻過去了 2 個月時間。
而且在 3 個中文評估基準 C-Eval、AGIEval 和 Gaokao 上,均拿下 SOTA。
據官方消息,baichuan-7B 代碼采用更爲寬松的開源協議,隻需簡單登記,就能免費商用。
目前,baichuan-7B 大模型已在抱抱臉、Github 和魔搭發布,開源内容包含推理代碼、INT4 量化實現、微調代碼,以及預訓練模型的權重。
而且北大和清華已經率先成爲 baichuan-7B 的入幕之賓,開始使用其推進相關研究工作。
萬億 token 中英文大模型
baichuan-7B,采用了 LLaMA 一樣的模型設計。
作爲 70 億參數的底座模型,尚未經過監督微調(supervised fine-tuning)和 RLHF。
可用于文本生成、文本分類、問答系統、機器翻譯等多個領域。
作爲中英雙語模型,主要以高質量中文語料爲基礎,同時融合優質英文數據。
在數據質量方面,通過質量模型對數據進行打分,對原始數據集進行篇章級和句子級的精确篩選。
在内容多樣性方面,利用自研超大規模局部敏感哈希聚類系統和語義聚類系統,對數據進行了多層次多粒度的聚類,最終構建的預訓練數據包含1.2 萬億 token,兼顧質量和多樣性。
相較于其他同參數規模的開源中文預訓練模型,數據量提高了 50% 以上。
以萬億 token 爲基礎,爲了更好地提升訓練效率,baichuan-7B 深度整合模型算子,以加快計算流程。
還針對任務負載和集群配置,自适應優化了模型并行策略以及重計算策略。
通過高效的訓練過程調度通信,baichuan-7B 成功實現了計算與通信的高效重疊,進而達到超線性的訓練加速,在千卡集群上訓練吞吐達到 180+Tflops。
目前開源模型窗口的普遍行情是,長度在 2K 以内。
這樣的處理長度對長文本建模任務,如需要引入外部知識做搜索增強的場景,産生了較大的限制。
爲了訓練與推理階段捕獲越多的上下文信息,baichuan-7B 基于 attention 算子優化,實現了萬級别超長動态窗口的擴張能力,開放了 4K 上下文窗口。
此外,baichuan-7B 還對模型訓練流程進行了深度優化,提升了模型收斂速度。
與同等參數規模的模型相比,baichuan-7B 在困惑度(PPL)和訓練損失(training loss)等關鍵性能指标上表現更加優秀。
爲了驗證模型的各項能力,baichuan-7B 在 C-Eval、AGIEval 和 Gaokao三個中文評估基準進行了綜合評估,均獲得優異成績。
(Gaokao 是複旦大學研究團隊創建的評測框架,以高考題爲數據集,拿來測試大模型在中文語言理解和邏輯推理能力方面的表現。)
在英文評估基準MMLU 的評測中,baichuan-7B 綜合評分達 42.5 分,領先英文開源預訓練模型 LLaMA-7B。
500 億參數版本推進 ing
從 2 月王小川宣布加入大模型占據已在 " 籌備之中 ",到 4 月中旬官宣新公司百川智能名稱,正式加入混戰,到現在 baichuan-7B 的推出,用時大約 4 個月。
難怪乎試用網友們除了對 baichuan-7B 進行人肉體驗外,不少人還對研發速度進行點贊:
目前,北京大學和清華大學已率先使用baichuan-7B 推進相關研究工作,并計劃在未來與百川智能深入合作。
動作迅速的百川智能,背後是怎麽樣的團隊班底?
除了牽頭人王小川,前搜狗 COO茹立雲是已經對外公布的合夥人。
團隊方面,以此前搜狗團隊爲基礎,加上來自百度華爲微軟字節騰訊等公司的人才。
目前,公司還傳出對外招聘大模型實習算法工程師的消息。
公司旨在打造中國版的 OpenAI 基礎大模型及颠覆性上層應用,瞄準搜索、多模态、教育、醫療等領域。
于今年 2 月啓動籌辦後,迅速獲得5000 萬美元(約人民币 3.4 億元)啓動資金,王小川自掏腰包一部分,還有來自業内好友的個人支持。
4 月正式旗幟鮮明地進入大模型之戰時,王小川曾對量子位透露,百川智能的大模型已經在訓練,年中就會有第一版發布,希望年底追平 GPT-3.5。
不過,與當初的說法略有出入,現在與大家見面的模型是 70 億參數,而非當時所說的 "500 億參數版本 "。
Why??
王小川對此的解釋是:
原定計劃沒有變,仍在順利推進中。
辣麽,也就是說今年夏天,百川智能還會丢出一枚大模型。
到時候已經亂成一鍋粥的開源大模型賽事,會有更猛烈的紛飛炮火吧?
開源地址:
Hugging Face:https://huggingface.co/baichuan-inc/baichuan-7B
Github:https://github.com/baichuan-inc/baichuan-7B
Model Scope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary
— 聯系作者 —