王小川公布最新大模型，号稱全球最長上下文，是GPT-4的14倍

搜狗創始人、百川智能創始人兼 CEO 王小川

國内大模型技術競争加速，繼訊飛星火、智譜推出最新産品之後，百川也迎來了新的大模型成果。

钛媒體獲悉，10 月 30 日上午，王小川創立的 AI 大模型公司 " 百川智能 " 宣布，推出 Baichuan2-192K 大模型，其上下文窗口長度高達 192K，能夠處理約 35 萬個漢字。

百川智能稱，Baichuan2-192K 是目前全球最長的上下文窗口，也是目前支持長上下文窗口最優秀大模型 Claude2（支持 100K 上下文窗口，實測約 8 萬字）的 4.4 倍，更是 GPT-4（支持 32K 上下文窗口，實測約 2.5 萬字）的 14 倍（1400%）。這不僅在上下文窗口長度上超越 Claude2，在長窗口文本生成質量、長上下文理解以及長文本問答、摘要等方面的表現也全面領先 Claude2。

據悉，Baichuan2-192K 将以 API 調用和私有化部署的方式提供給企業用戶。目前百川智能已經啓動該大模型的 API 内測，并開放給法律、媒體、金融等行業的核心合作夥伴。

據悉，百川智能成立于 2023 年 4 月 10 日，由搜狗公司創始人、前 CEO 王小川創立。其核心團隊由來自搜狗、Google、騰訊、百度、華爲、微軟、字節等知名科技公司的 AI 頂尖人才組成。目前，百川智能的團隊規模 170 餘人，其中碩士及碩士以上學曆員工占比近 70%，研發人員占比超 80%。

過去 200 多天，百川智能平均每 28 天發布一款大模型，已連續 Baichuan-7B/13B，Baichuan2-7B/13B 四款開源可免費商用大模型及 Baichuan-53B、Baichuan2-53B 兩款閉源大模型，在寫作、文本創作等領域能力已達到行業較好水平。目前，Baichuan-7B/13B 兩款開源大模型在多個權威評測榜單均名列前茅，累積下載量超過 600 萬次。

對于建立 AI 大模型公司，王小川曾表示，其團隊已有的技術工具可以用來建造大模型，公司的競争對手就是大公司的開源方案。王小川還認爲，整個團隊不用太大，百人足夠。

8 月 31 日，百川智能率先通過國家《生成式人工智能服務管理暫行辦法》備案，是首批八家公司中唯一一家今年成立的大模型初創公司，并于 9 月 25 日開放 Baichuan2-53B API 接口，正式進軍 To B 企業端領域，開啓商業化進程。

10 月 17 日，百川智能宣布已完成 A1 輪 3 億美元的戰略融資，阿裏、騰訊、小米等科技巨頭及多家頂級投資機構均參投了本輪。加上天使輪的 5000 萬美元，百川智能累計融資額已達 3.5 億美元（約合人民币 25.43 億元）。

百川智能未透露當前具體估值，僅表示本輪融資後，公司跻身于科技獨角獸行列。根據一般定義，獨角獸估值超過 10 億美元（約合人民币 72.66 億元）。

此次發布的 Baichuan2-192K，百川智能表示在 Dureader、NarrativeQA、LSHT、TriviaQA 等 10 項中英文長文本問答、摘要的評測集上表現優異，有 7 項取得 SOTA，顯著超過其他長窗口模型，全面領先 Claude2。

百川方面指出，擴大上下文窗口能有效提升大模型性能是人工智能行業的共識，但是超長上下文窗口意味着更高的算力需求和更大的顯存壓力。目前，業内有很多提升上下文窗口長度的方式，包括滑動窗口、降采樣、小模型等。這些方式雖然能提升上下文窗口長度，但對模型性能均有不同程度的損害，換言之都是通過犧牲模型其他方面的性能來換取更長的上下文窗口。而本次百川發布的 Baichuan2-192K 通過算法和工程的優化，實現了窗口長度和模型性能之間的平衡，做到了窗口長度和模型性能的同步提升。

算法方面，百川智能提出了一種針對 RoPE 和 ALiBi 動态位置編碼的外推方案，在保證分辨率的同時增強了模型對長序列依賴的建模能力，而且當窗口長度擴大，Baichuan2-192K 的序列建模能力持續增強；工程方面，在自主開發的分布式訓練框架基礎上，百川智能整合優化多個技術，獨創了一套全面的 4D 并行分布式方案，能夠根據模型具體的負載情況，自動尋找最适合的分布式策略，極大降低了長窗口訓練和推理過程中的顯存占用。

Baichuan2-192K 便能夠與更多的垂直場景深度結合，真正在人們的工作、生活、學習中發揮作用，助力行業用戶更好的降本增效。比如它可以幫助基金經理總結和解釋财務報表，分析公司的風險和機遇；幫助律師識别多個法律文件中的風險，審核合同和法律文件；幫助技術人員閱讀數百頁的開發文檔，并回答技術問題；還能幫助科員人員快速浏覽大量論文，總結最新的前沿進展等。

目前，Baichuan2-192K 以 API 調用的方式開放給百川智能的核心合作夥伴，已經與财經類媒體及律師事務所等機構達成了合作，稱不久後将全面開放。

王小川團隊表示，百川智能 Baichuan2-192K 在算法和工程上針對長上下文窗口進行創新，驗證了長上下文窗口的可行性，爲大模型性能提升開拓出了新的科研路徑。同時，其更長的上下文還将爲行業探索 Agent、多模态應用等前沿領域打下良好技術基礎。

（本文首發钛媒體 App，作者｜林志佳）