Mistral 的多模态大模型來了!
Pixtral 12B正式發布,同時具備語言和視覺處理能力。
它建立在文本模型Nemo 12B基礎上,包含一個專門的視覺編碼器。
大概 24GB,原生支持任意數量和尺寸的圖像,大約有 40 層神經網絡、14,336 個隐藏維度大小和 32 個注意力頭,以及一個專用的視覺編碼器,支持高分辨率圖像(1024 × 1024)處理。
發布形式還是簡單直接一個種子鏈接。
Mistral 的開發主管表示,後續也會在 Chatbot 上接入模型,并提供 API 服務。
超越 Qwen、LLaVA 等
雖然目前模型的訓練數據、細節都未公開,但是通過模型代碼網友們發現了更多細節。
1、先進架構:40 層網絡、14336 隐藏維度大小、32 個注意力頭。
2、視覺能力:專用視覺編碼器,支持 1024x1024 圖像大小和 24 個隐藏層,用于高級圖像處理。
3、更大詞彙量:131072tokens,支持更細緻語言理解和 生成。
4、使用 GeLU ( 用于視覺适配器 ) 和 2D RoPE ( 用于視覺編碼器 ) 。
5、Patch 大小:16 × 16 像素。
6、在 mistral_common 中支持 tokenizer。
7、模型權重 bf16。
與此同時,還有人在放出了 Mistral 發布會上公布的模型基準情況。
Pixtral 12B 和 Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision 做了對比。
多模态知識和推理、QA 等方面都表現不錯。
歐洲版 OpenAI 估值達 60 億美元
最近幾個月 Mistral 的動作還是非常密集的。
今年 6 月,他們通過股權債務融資完成約 6.4 億美元 B 輪融資。估值已達 60 億美元(折合人民币約 420 億)。
完成融資後,他們便發布了 Mistral Large 2 旗艦模型、SMoE 模型 Mistral 8 × 22B 以及開源模型 Codestral 等。
目前,微軟、AWS、Snowflake 等巨頭均投資 Mistral。尤其是微軟的入股,使得 Mistral 成爲 OpenAI 以外,微軟 Azure 第二個商業閉源模型供應商。這也進一步夯實了 Mistral" 歐洲版 OpenAI" 的地位。
參考鏈接:
[ 1 ] https://x.com/_philschmid/status/1833954941624615151
[ 2 ] https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/
[ 3 ] https://x.com/theresanaiforit/status/1833784474342977627