圖片來源 @視覺中國
文 | 光錐智能,作者 | 郝鑫,編輯 | 劉雨琦
6 月初,外媒曾發出了 " 誰是中國的 OpenAI" 的拷問,經曆了大模型創業潮之後,大浪淘沙,最終留下的不過寥寥數人。
清華大學幾個十字路口外的搜狐大廈,二層是明星創業者王小川的百川智能,七層到十一層是學院派出身的智譜 AI。二者在經曆了市場的檢驗後,成爲了最有希望的兩個候選人。
同一棟樓裏的争奪戰,似乎已經悄然打響了。
從融資上看,智譜 AI 和百川智能都在今年,完成了多輪大額融資。
(光錐智能制圖:根據公開資料整理)
今年,智譜 AI 累計總融資金額超 25 億元人民币,百川智能總融資金額達到 3.5 億美元 ( 約 23 億人民币)。公開信息顯示,智譜 AI 最新估值已經超 100 億人民币,最高或達 150 億,是國内估值最快超過百億人民币的公司之一;最新一輪融資後,百川智能估值已經超過 10 億美金(約 66 億人民币)。
從團隊構成上看,智譜 AI 和百川智能師出同門,智譜 AI 總裁王紹蘭與搜狗創始人王小川,同爲清華系創業團隊。
從技術追趕速度來看,二者也不分伯仲。 智譜 AI 的 GLM-130B 剛問世就打敗了 GPT-3,而最新發布的 Baichuan 2 在各維度領先 Llama 2,開拓了中國開源生态發展。
種種迹象顯示,智譜 AI 和百川智能已經成爲了中國大模型賽道沖出的 " 黑馬 ",激烈的角逐下,究竟鹿死誰手?
OpenAI 的信徒:智譜 AI
智譜 AI 與 OpenAI 的淵源可以追溯到 2020 年,那一年被智譜 AI CEO 張鵬視爲心中真正的 "AI 大語言模型元年 "。
智譜 AI 周年慶日的當天,喜悅的空氣氛圍中,時不時能嗅到 GPT-3 出世帶來的些許焦慮。達到 1750 億個參數的 GPT-3 是嚴格意義上的第一個大語言模型。
彼時,張鵬既震驚于 GPT-3 的湧現能力,也陷入了 " 要不要跟随 " 的思考之中,不管是當時還是現在,All in 超大規模參數大模型方向都是一件極其冒險的事情。權衡過後,智譜 AI 決定把 OpenAI 作爲自己的對标對象,投入到超大規模預訓練模型的研發當中。
光錐智能制圖:根據公開資料整理
在技術路徑選擇上,智譜 AI 與 OpenAI 具有同樣的獨立思考性。
當時存在 BERT、GPT 和 T5 幾種大模型預訓練框架。三種路徑,在訓練目标、模型結構、訓練數據來源、模型大小幾方面都各有優劣。
假如把大模型訓練過程比作一場英文考試,BERT 擅長通過詞句之間關系來做題,通過理解去考試,其複習資料主要源于課本和維基百科;GPT 擅長通過預測下一個詞來做題,通過大量寫作練習來準備考試,其複習資料主要來自各種各樣的網頁;T5 則采取了一種将題目形式化的策略,先把題目翻譯成漢語再去解題,在複習時,不僅閱讀課本,還刷了大量題庫。
衆所周知,谷歌選擇了 BERT,OpenAI 選擇了 GPT,智譜 AI 沒有盲目跟從,在這兩種路線基礎上提出了 GLM(General Language Model)算法框架。該框架實則實現了 BERT、GPT 優劣互補," 既能在理解的同時,還能完成續寫和填空 "。
GLM 由此成爲了智譜 AI 追逐 OpenAI 最大的底氣,在此框架之下陸續長出了 GLM-130B、ChatGLM-6B、ChatGLM2-6B 等 GLM 系列大模型。實驗數據顯示,GLM 系列大模型在語言理解精度、推理速度、内存占比和大模型适配應用方面都優于 GPT。
(圖源:網絡)
OpenAI 是當前國外能提供基礎模型服務最爲完備的機構,其商業化主要分爲兩類,一類是 API 調取收費,一類是 ChatGPT 訂閱制收費。在商業化方面,智譜 AI 也遵循了大緻的思路,處于國内大模型商業化較爲成熟的企業梯隊。
據光錐智能梳理發現,結合中國企業的落地情況,智譜 AI 的商業模式分爲 API 調取收費和私有化收費模式。
總體提供的模型種類分别有語言大模型、超拟人大模型、向量大模型與代碼大模型,在每個大模型選項下包括了标準定價、雲端私有化定價和本地私有化定價。對比 OpenAI,智譜 AI 缺乏了語音、圖像大模型服務的提供,但增加了超拟人大模型,這也迎合了中國數字人、智能 NPC 等行業的需求。
光錐智能向開發者了解到," 目前,百度文心千帆平台的特點是完善,通義千問的特點是靈活,智譜 AI 則是市場主流廠商中 API 收費最便宜的公司之一 "。
智譜 AI 的 ChaGLM-Pro 的收費爲 0.01 元 / 千 tokens,并贈送 18 元的免費額度,ChaGLM-Lite 收費降至 0.002 元 / 千 tokens。作爲參考,OpenAI GPT-3.5 收費爲 0.014 元 / 千 tokens,阿裏通義千問 -turbo 收費爲 0.012 元 / 千 tokens,百度文心一言 emie-bot-turbo 的收費标準爲 0.008 元 / 千 tokens。
正如張鵬所言,智譜 AI 也正在經曆以 OpenAI 爲目标到 " 不再追随 OpenAI" 的新階段。
産品業務方面,不同于 OpenAI 隻專注于 ChatGPT 的升級打造,智譜 AI 選擇了三面出擊。
據其官網顯示,當前智譜 AI 的業務主要分爲了三大塊,分别爲大模型 MaaS 平台、AMiner 科技情報平台和認知數字人。由此形成了三大 AI 産品矩陣,大模型産品、AMiner 産品以及數字人産品。其中,大模型産品不僅涵蓋了基本對話機器人,還有編程、寫作、繪畫垂類的機器人劃分。
(圖源:智譜 AI 官網)
與此同時,智譜 AI 還在通過投資的方式繼續向應用側上探。截至目前,智譜 AI 對外投資了聆心智能和畫壁智能,并于今年九月份再次增持了聆心智能股份。
聆心智能同樣孵化自清華大學計算機系,雖系出同源,但聆心智能更偏向于應用,其開發出的 AiU 興趣互動社區就是基于智譜 AI 的超拟人大模型。其産品的開發思路類似于國外的 Character AI,通過創造不同性格與人設的 AI 角色,與之進行互動聊天,更加偏向于 C 端應用,強調娛樂的屬性。
從 OpenAI 轉向 LIama:百川智能
LIama:光錐智能發現,相比于 OpenAI,百川更像 Llama。
光錐智能發現, 相比于 OpenAI,百川智能更像 Llama。
首先是站在原有的技術、經驗基礎之上,發布和叠代速度非常快。
百川智能成立半年,便接連發布了 baichuan-7B/13B,Baichuan2-7B/13B 四款開源可免費商用大模型及 Baichuan-53B、Baichuan2-53B 兩款閉源大模型。截至 9 月 25 日開放 Baichuan2-53B API 接口,過去的 168 天裏,百川智能平均以月爲單位的速度發布一款大模型。
Meta 靠 LLama2 重新赢回 AI 陣地,百川智能則憑借 Baichuan2 系列開源模型打敗 LLama2 名聲大噪。
據測試結果表明,Baichuan2-7B-Base 和 Baichuan2-13B-Base,在 MMLU、CMMLU、GSM8K 等幾大權威評估基準中,以絕對優勢領先 LLaMA2,相比其他同等參數量大模型,表現也十分亮眼,性能大幅度優于 LLaMA2 等同尺寸模型競品。
事實證明,百川智能大模型也的确經得過考驗。據官方數據,Baichuan 在開源社區總下載量已經超過 500 萬次,月下載量達到 300 多萬次。
光錐智能發現,百川智能系列模型在 Hugging Face 開源社區的最高下載量有 11 萬多,在中外開源大模型中仍具有競争力。
(圖源:Hugging Face 官網)
其開源之所以具有優勢與其較強的兼容性也有關系,百川智能曾在公開場合介紹,其整個大模型底座結構更加接近 Meta 的 LLAMA 的結構,故而從開源設計上就對企業和廠商很友好。
" 開源之後,生态會圍繞 LLaMA 去構建,在國外有很多開源項目是跟着 LLaMA 去推動的,這也是我們的結構爲什麽跟 LLaMA 更加接近。" 王小川道。
據光錐智能了解到,百川智能在架構設計上采用了熱插拔 ( Hot-pluggable ) ,可支持百川模型與 LLAMA 模型、百川模型不同模塊之間的随意切換,比如用 LLAMA 訓練一個模型後,無需修改,就直接能把這個模型放到百川中使用。這也解釋了現在多數互聯網大廠使用百川模型,和雲廠商引入百川系列模型的原因。
曆史走過的路,既通向過去,也通向未來,王小川的大模型創業便是如此。
源于搜狗創始人的身份和搜索技術經驗,創業初期,王小川獲得了不少人這樣的評價," 小川,是最适合搞大模型的啊 "。
在搜索經驗和框架中構建大模型成爲了百川智能的底色。
百川智能技術聯創陳炜鵬曾表示,搜索研發與大模型開發有許多類似之處," 百川智能将搜索的經驗快速遷移到大模型的研發中,這就類似一個 ' 造火箭 ' 系統化工程,将複雜的系統做拆解,通過過程評估來推動團隊的協同,提升團隊的效果 "。
王小川也在發布會現場談道:" 因爲百川智能之前有搜索基因,因此天然懂得如何從萬億網頁中間去精選最好的頁面,可以做到去重、反垃圾。在數據處理中,百川智能也借鑒了之前搜索的經驗,能小時級完成千億數據的清洗和去重工作 "。
其大模型搜索的内核在 Baichuan-53B 中展現得淋漓盡緻。在處理大模型 " 幻覺 " 問題上,結合搜索技術沉澱,百川智能在信息獲取、提升數據質量、搜索增強等方面做了優化。
在提升數據質量上,百川智能的核心思路是 " 始終取優 ",以低質、優質爲标準将數據進行分類,确保 Baichuan2-53B 始終使用優質數據進行預訓練;在信息獲取方面,Baichuan2-53B 對多個模塊進行了升級,包括指令意圖理解、智能搜索和結果增強等關鍵組件,通過深入理解用戶指令,精确驅動查詢詞的搜索,最終結合大語言模型技術,優化模型結果生成的可靠性。
盡管以開源爲始,但百川智能已經開始探索商業化路徑。官方資料顯示,百川智能的目标有兩個方向,橫向維度的目标是 " 構建中國最好的大模型底座 ",縱向維度的目标是在搜索、多模态、教育、醫療等領域增強。
如今的商業化,集中在了 Baichuan2-53B,官網顯示,該模型的 API 調取采用了分時段收費标準。0:00-8:00 收費爲 0.01 元 / 千 tokens,8:00-24:00 收費爲 0.02 元 / 千 token,相比較之下,白天的收費價格要高于晚上。
(圖源:百川智能官網)
結尾
争論誰是中國的 OpenAI 這一問題,在大模型發展的早期沒有太大的意義。智譜 AI、百川智能等諸多初創公司已經意識到盲目跟随 OpenAI 的腳步并不可取,例如智譜 AI 已經明确了 " 不做中國 GPT" 的技術路徑。再者,在開源蔚然成風,正在形成包圍之勢的當下,OpenAI 的絕對技術優勢地位似乎也并不是牢不可破。
智譜 AI、百川智能曾不約而同地提到,超級應用才是更廣闊的市場,也是中國大模型企業的舒适區,不再停留原地,比如一位接近智譜 AI 人士曾向媒體爆料,智譜 AI 團隊已經堅定 2B 路線,瞄準信創市場,并在 5 個月裏,快速擴張團隊,從 200 人增至 500 人,以爲後續的 2B 業務儲備人力。
而百川智能在商業化路徑上,則選擇了參照 Llama2 的開源生态,也已經開始小步叠代。
肉眼可見的是,僅半年時間,百川智能和智譜 AI 就已經走過了技術無人區,來到了面向産業落地的商業化階段。對比 AI1.0 的創業熱潮,技術打磨期長達 3 年(2016-2019 年),而正是由于在商業落地上受阻,才導緻了一大批 AI 公司在 2022 年集體走向沒落,倒在了黎明前。
吸取了上一階段的教訓,同時也源于大模型技術的通用性更便于落地,以百川智能和智譜 AI 爲代表的創業公司,正養兵秣馬,爲下一階段做好技術、産品和人才儲備。
不過,場馬拉松也才聽到第一聲槍響,言結果爲時尚早。但至少對賽道的第一階段分解已經完成,目标明确後,比拼的更是耐心和毅力。這一點,無論對于百川智能、智譜 AI 還是 OpenAI,都一樣。