說起現在世界上頂級大模型和生成式 AI 的締造者,除了 OpenAI、谷歌、Meta、Anthropic 這些名字,如果隻把目光投向矽谷,那知識庫可能真的該更新了。
最近在法國巴黎,一家成立才半年,僅有 22 名員工的 AI 初創公司異軍突起,宣布完成 3.85 億歐元(合 4.15 億美元)A 輪融資,投資方包括 a16z、光速創投、Salesforce 和法國巴黎銀行等著名機構。它的估值也因此在短短六個月内增長了七倍多,突破 20 億美元,輕松跻身獨角獸行列,創下開源公司史上最快融資記錄。
這家公司的名字就是 Mistral AI,今年 5 月由 Meta 和 Google DeepMind 前員工創立。專注于開發生成式 AI 技術,特别是用于構建在線聊天機器人、搜索引擎和其他人工智能驅動産品。
值得一提的是,成立僅一個月,還沒有公布産品、彼時隻有 6 名員工的 Mistral AI,就曾憑借 7 頁 PPT" 神話 " 般拿下 1.13 億美元種子輪融資,轟動整個歐洲 AI 行業。
作爲目前最炙手可熱的業界新星,Mistral AI 被認爲是少數幾家能與 OpenAI 技術相媲美的 AI 公司之一。但與 OpenAI 并不 ‘ Open ’相反,Mistral AI 一直堅持推廣開源軟件方法,允許用戶自由複制、修改和再利用其計算機代碼,爲外部開發者提供他們需要的一切。以 " 引領開放模型革命 " 爲公司使命,正面對抗 OpenAI、谷歌等走閉源路線的 AI 巨頭。
而規模這麽小的 Mistral AI,是如何用其高效能的強大 AI 模型征服十幾家頭部 VC,又如何踐行開源理念,赢得廣大開發者社區潮水般的支持和肯定?這些都與公司的創始團隊有分不開的聯系。
世界級技術專家聯手打造歐洲 " 開源版 OpenAI"
Mistral AI 的三位聯合創始人中,首席執行官 Arthur Mensch(中)曾任 Google DeepMind 的研究員,參與了包括 Flamingo、Chinchilla、Gopher 在内的多個 DeepMind 經典模型,也是 Flamingo 和 Chinchilla 的核心貢獻者,對多模态、RAG、算法優化等技術有深刻理解。
首席技術官 Timoth é e Lacroix(右)和首席科學家 Guillaume Lample(左)此前都是 Meta 巴黎人工智能實驗室的核心研究人員,兩人對模型推理、預訓練和模型嵌入有深入研究,是 Llama 和 Llama2 的核心技術貢獻者,并發表過多篇重要學術論文。他們的前東家 Meta 也恰恰是鼓勵開源的代表公司之一。
公司員工喜歡開玩笑說,創始人姓氏的首字母連起來是「L.L.M.」,正是大型語言模型的縮寫,仿佛預示了 Mistral 的誕生與宿命。
而這支年輕的團隊本身也具備了頂尖 AI 公司人才的典型特質:以科學家爲主、研究能力強、技術棧互補且全面。其中 7 人來自 Meta(4 位是 Llama 參與者),3 人來自 Hugging Face,2 人來 Deepmind,大部分都參與過知名大語言模型項目開發。
此外,還有曾在麥肯錫任職 12 年、并幫助法國 SaaS 獨角獸 Mirakl 從 B 輪成長到 E 輪的首席商務官 Florian Bressand、前法國數字事務國務秘書的顧問 C é dric O 爲這個科學家主導的公司保駕護航。
團隊精幹高效、配合緊密,在各個環節上都有擅長的專家。這種清晰的團隊構成和技術爲先的實幹型科學家屬性也映射到了 Mistral AI 的行事風格和産品上。
一條 " 直給式 " 磁力鏈接,帶來開源模型新王者
兩周前,Mistral AI 就在沒有預告、沒有官方博客、沒有 Demo 的情況下,在社交平台 X 甩出一條磁力鏈接,發布了引爆開源社區的首個 MoE 開源模型 Mixtral 8x7B。
沒有 OpenAI 一貫的暧昧戲碼和花式推拉、也沒有 Google 發布 Gemini 時精心剪輯的 " 特效視頻 ",甚至連一句介紹語都沒有。Mistral AI 的官宣方式如此樸實無華,簡單粗暴。秉持着 " 能幹成一件事兒就絕不跟你多廢話一個字 " 的作風,成爲 AI 圈特立獨行的 " 一股清流 "。
網友心說這種新品發布方式也太獨特了,下次不得直接隔空投送?還有人都有點看不下去:" 你們搞錯了,應該先發一個長博客,别帶模型 ",這是順帶把誰家也反諷了一把。
當然更多的開發者是興奮,當即表示自己的周末 " 毀了 ",因爲迫不及待要馬上去下載來運行試試。
這裏簡單解釋一下 MoE,全稱爲 Mixture of Experts(混合專家模型),就是把複雜的分析預測任務分割成一系列更小、更容易處理的子任務,每個子任務由符合該特定領域的 " 專家 " 負責。MoE 架構不僅能提高模型處理信息的效率,還降低了運行成本。
據說 OpenAI 從去年開始就在用這種方法來訓練 GPT-4, Mistral AI 則正是緻力于爲企業提供一種 " 無限接近 "GPT-4 的開源選擇。
具體到鏈接裏的 Mixtral 8x7B,總參數爲 46.7B,但每個令牌隻使用 12.9B。因此,它以與 12.9B 模型相同的速度和成本處理輸入并生成輸出。Mistral 8x7B 擁有 32k Tokens 上下文長度,支持英語、法語、意大利語、德語和西班牙語。在代碼生成方面表現出色,還支持微調爲指令跟随模型,并采用 Apache 2.0 許可證開源商用。
性能方面,Mixtral 8x7B 在大多數基準測試上都超越了 700 億參數的 Llama 2 70B,推理速度提高 6 倍。在模拟真實世界對話場景、評估大語言連貫性和信息豐富的 MT-Bench 測試中,它達到了 8.30 的分數,其性能可與 GPT3.5 媲美,成爲最好的開源模型。
商業和科技網站 ReadMultiplex 創始人、著名科學家 Brian Roemmele 在推特稱 Mixtral 8x7B 的開源是 " 自 Meta 首次發布 LaMMA 以來最重要的時刻之一 ",是 " 令人震驚和裏程碑式創新 "。
并且已經有人基于它微調了一個完全自由和開放的模型 dolphin-2.5-mixtral-8x7。會 " 回應所有用戶的指令,不會帶有任何評判性。不會對你施加任何道德标準,并會展現互聯網上的所有可用信息。" 再也不會遇到 " 作爲一個 AI 助手,我不能… " 的問題。
網友們更是爲 Mistral AI 各種花式打 call,盛贊 Mistral AI 是 " 地球上最真誠和忠于初心的團隊 ",真正爲開發者辦實事,令 "Open"AI 終于變成了現實。
一條簡單到不能再簡單的磁力鏈接就這樣點燃整個 AI 社區。而返回去看 Mistral AI 的 X 賬号頁面,你會發現整個官推沒有圖片、沒有視頻,自注冊以來總共就發布了三條内容。上一條還是團隊 9 月份推出的開源模型 Mistral 7B,同樣隻甩出了異曲同工的磁力鏈接。
這個由團隊短短 3 個月内打造出的 Mistral 7B,至今仍被業界認爲是 7-13B 小模型中的佼佼者。它在幾乎所有基準測試中都比 Llama 2 13B 更優秀,還在代碼、數學和推理方面赢過 LLaMA-1 34B。并且公司并非通過 API 開放 Mistral 7B 的訪問權限,而是免費下載,使得開發者可以在自己的設備和服務器上運行它。
在第一條自報家門的推文中,Mistral AI 依舊無心 PR,畫風是說不出的特别:" 這是 Mistral AI 的官方賬戶,由 @GuillaumeLample、@arthurmensch 和 @tlacroix6 新近創建的公司…我們的身份在推上已經被盜用了,這個才是真的 : ) 。"
這種專注搞技術的耿直風一下子就把網友們拿捏了。見慣了各種 AI 公司華麗的營銷和侃侃而談的自我包裝,光是 Mistral AI 這個看上去用 word 制作出來的 logo 就圈粉無數。
也有人對 Mistral AI 喊話說,等你們有錢了,去雇一個厲害點兒的美工吧!
很顯然,Mistral AI 現在完全不差錢了。但作爲一家從最開始就決心遵循開源發展的創業公司,它長遠的盈利之路能跑通嗎 ? 他們自己又是怎樣看待技術發展上集中與去中心化的博弈?
堅持開源," 是過去更是未來 "
在官網的公司介紹頁面上,Mistral AI 稱這是一個行動迅速、高工作強度和透明度的團隊,使命是将強大的生成式 AI 技術帶給最廣泛的軟件開發者和企業用戶社區,以應用爲驅動,讓模型真正對現實世界有所幫助。并希望成爲開放式 AI 社區的領先支持者,将開源模型帶到最先進的性能水平。
許多像 OpenAI 和谷歌這樣的競争公司認爲,讓大模型算法開源是危險的,底層技術可能被濫用來傳播虛假信息、仇恨言論和制造其它有害事物。他們隻能在花費數月時間設置數字護欄後,以在線聊天機器人的形式向公衆發布。
而 Mistral AI 則認爲,引領生成式 AI 革命必須開源。社區支持的模型開發才是接受嚴格審查和抗擊偏見的最佳路徑。通過訓練和公開發布優越的模型,讓開發者社區力量和更多成功的開源項目彼此驅動和優化,可以構建一個可信的替代方案,對抗新興的 AI 寡頭。
CEO Arthur Mensch 在 Greylock 合夥人 Sarah Guo 的博客中表示,如果有人爲了實現某些有害行爲去做信息收集的話,可能反而是傳統搜索引擎而不是 LLM 更容易實現這件事。禁止小公司開源,确實會令大公司更受益,但是這并不利于 AI 生态的整體發展。
同時 Mensch 也提到,在過去十幾年間,計算機技術的重大變革——從網頁浏覽器、操作系統、編程語言到數據庫——大多都得益于開源解決方案。事實上,直至 2020 年(GPT-3 發布之前),幾乎所有大型語言模型的研究都是公開且透明的。然而自 2020 年開始,随着某些公司在這一領域取得領先并意識到價值,情況就随之改變了。
" 我們認爲過早進入閉源階段對科學發展是有害的 ",Arthur Mensch 說," 在一個不透明的環境中,大家可能會同時在一個任務上做投入,因爲不能共享而導緻大量資源浪費。" 他也稱開放權重模型可以精細地适應和解決各個行業垂直領域中的核心業務,開發者可以自定義他們想要的護欄和編輯語氣,生成的内容也不再依賴 API 提供者的選擇和偏見,而這些都是黑盒模型無法匹敵的。
這種開源共享精神,也自然在如今 AI 行業巨頭壟斷、小公司掙紮求生存的時代背景下,獲得廣大開發者的擁戴。人們表達着見證開源模型迅速趕上閉源模型的興奮,認爲 " 用更少做更多 " 正是開源生态系統最鼓舞人心的地方,并希望 Mistral AI 能随着新資金的注入加速開源領域創新。
" 我們希望通過更開放地分享我們的技術,引導社區朝着更好、更安全的方向前進。我們的真正目标是占據領導地位,并改變遊戲規則,因爲當前的發展方向并不正确 ",Arthur Mensch 說道。
能不能既開源又 " 搞錢 "?
據悉,Mistral AI 還沒開始盈利。而 " 開源 " 和 " 商業化 " 之間,似乎總存在着一定的張力。如何把兩者有效融合,是把開源 LLM 公司做長遠不能略過的問題。
目前 Mistral AI 已基于其自研模型推出了 "La Plateforme" 托管平台測試版,提供 Mistral Tiny,Mistral Small 和 Mistral Medium 三個模型類别。
其中 Mistral 7B 和 Mixtral 8x7B 分别屬于 Mistral Tiny 和 Mistral Small,可供用戶免費下載,而 Mistral Medium 還未開源。後期這個性能更強大的模型也許會以 API 調用的形式收費,或是爲企業提供模型微調、RAG、定制化服務等。
另外說到市場,與 OpenAI 們瞄準美國和全球不同,Mistral AI 将施展拳腳的舞台定位在了歐洲。
這裏彙聚的大量世界财富 500 強公司不愁付費能力。相較于美國,歐洲多是傳統行業,對新興技術有着更迫切的需求。同時,歐洲對新技術的數據監管更加嚴格,對解決方案的開放透明度有着更高的要求,十分适合 Mistral AI 的開源策略。
除此之外,創始人 Arthur Mensch 也認爲,歐洲在 AI 人才儲備上具有獨特優勢," 這邊非常擅長培養數學家,而數學家在 AI 研究中扮演着至關重要的角色。這些人多數更适應歐洲的生活,并不一定非得去美國。"
" 因爲 DeepMind 的原因,倫敦的 AI 生态肉眼可見地崛起了,緊接着會是巴黎。現在巴黎已經有幾百家初創公司,雖然離矽谷還差得遠,但我相信類似于灣區的那種飛輪也會在法國出現。"
他還在法國國家廣播電台透露, Mistral AI 明年将會發布一個開源的 GPT-4 級别模型。
在地理和氣候學中,"Mistral" 是指吹過法國南部和地中海西北部的一種強勁、持久的寒冷北風。通常在冬季和早春期間吹拂,對當地的氣候和環境有顯著影響,有時會帶來非常低的溫度和晴朗的天空。
Mistral AI 或許希望自己能像這股淩冽的寒風,在發展速度一日千裏的人工智能時代,帶來新鮮的思想、革命性的引領和強大的影響力。而一個全新的 AI 王者在距離矽谷上萬公裏以外的歐洲大陸崛起,也正是全球開發者喜聞樂見的。