據海外媒體報道,今年 6 月,剛剛成立了一個月的法國初創公司 Mistral AI 在種子輪融資中籌集到了 1.05 億歐元的資金。而當時,這家由一名 DeepMind 前員工和兩名 Meta 前員工創辦的初創公司還沒有任何可發布的産品。人們最初聽到 Mistral 的融資新聞時,隻是在感慨風投公司對處于爆發階段的生成式 AI 領域過于大方。
事實證明,Mistral 公司其實有很多亮點,而這些亮點說服了光速創投、法國億萬富翁 Xavier Niel 和谷歌前首席執行官 Eric Schmidt 向他們投資。
一周前,Mistral 發布了一個 73 億參數的模型,旨在與 Meta 的 Llama 2(一個 130 億參數的大型語言模型)競争。這家法國公司宣稱,它是目前大型語言模型領域中功能最強大的語言模型。
這款名爲 Mistral 7B 的基礎模型是專爲快速推理和處理較長語句而設計的 transformer 模型。它利用 utilizing grouped-query attention 和 sliding-window attention 來實現這一目标。utilizing grouped-query attention 結合了多次查詢和多頭注意力機制,以平衡輸出質量和速度。sliding-window attention 通過調整窗口大小來擴展上下文長度。Mistral 7B 的上下文長度爲 8000 個 token,與更大的模型相比,具有低延遲、高吞吐量和高性能的特點。
如今這款 Mistral 7B 模型已經被集成到谷歌的 Vertex AI Notebooks 中,這一集成使谷歌雲客戶能夠深入了解全面的端到端工作流程,使他們能夠在 Vertex AI Notebooks 上對 Mistral-7B 及其變體進行實驗、微調和部署。
Mistral AI 用戶可以使用高效的大語言模型服務框架 vLLM 優化他們的模型。通過使用 Vertex AI 筆記本,用戶可以在 Vertex AI 端點上部署由 Model Garden 維護的 vLLM 映像,以進行推理,從而确保簡化模型部署。
這項合作的一個關鍵功能是 Vertex AI 模型注冊中心,它是一個中央存儲庫,使用戶能夠管理 Mistral AI 模型及其微調模型的生命周期。通過該注冊中心,用戶可以全面了解其模型的增強組織和跟蹤能力。
從該公司的推介會上可以看出,Mistral 公司巧妙地将自己定位爲一個重要的潛在參與者。它将幫助歐洲成爲建立基礎人工智能模型的 " 有力競争者 ",并在 " 地緣政治問題上發揮重要作用 "。
在美國,主推 AI 産品的初創企業主要由谷歌和微軟等大企業支持。Mistral 稱這種 " 封閉的技術方式 " 讓大公司賺到了更多的錢,但并沒有真正形成一個開放的社區。
與 OpenAI 的 GPT 模型(其代碼細節仍處于保密狀态,隻能通過 API 獲取)不同,這家總部位于巴黎的公司以 Apache 2.0 許可在 GitHub 上開源了自己的模型,供所有人免費使用。
Mistral 将目标瞄準了 Meta 的 Llama,而 Mistral 聲稱他們的大模型産品比 Llama 2 更強。
Mistral 的模型與 Llama 2 的對比
Mistral 在一份報告中表示,Mistral 7B 在多項基準測試中輕松擊敗了 Llama 2 的 70 億和 130 億參數兩個模型。
在涵蓋數學、曆史、法律和其他科目的大規模多任務語言理解測試中,Mistral 的模型準确率達到 60.1%,而 Llama 2 模型 70 億參數和 130 億參數兩個版本的準确率分别爲 44% 和 55%。
在常識推理和閱讀理解基準測試中,Mistral 的表現也優于 Llama 2 的模型。
隻有在編碼方面 Mistral 落後于 Meta 。Mistral 7B 在 "Humaneval " 和 "MBPP " 兩項基準測試中的準确率分别爲 30.5% 和 47.5%,而 Llama 2 的 70 億模式的準确率分别爲 31.1% 和 52.5%。
除了性能之外,Mistral 還聲稱比 Llama 2 使用了更少的計算量。在 MMLU 基準測試中,Mistral 模型的輸出的結果是同規模下的 Llama 2 的三倍多。如果與 ChatGPT 做比較,根據 medium 的計算,Mistral AI 的使用成本要比 GPT 4 便宜約 187 倍,比 GPT 3.5 模型便宜約 9 倍。
如何約束大模型?這是個問題
不過 Mistral 也表示,有一些用戶抱怨它缺乏 ChatGPT、Bard 和 Llama 所擁有的安全防護措施。曾有用戶向 Mistral 的指令模型詢問如何制造炸彈或自殘,聊天機器人也給出了詳細的指導。
Paul Rottger 是一名人工智能安全研究員,此前曾緻力于在 GPT-4 發布前爲其設置防護功能,他在一條推文中對 Mistral 7B 缺乏安全性表示 " 震驚 "。" 如今很少能看到一個新模型如此輕易地回複哪怕是最惡意的指令。我對開源大模型的出現感到非常興奮,但這種情況不應該出現!" 他說。
這些批評促使 Mistral 對模型進行了微調,并對此進行了解釋。"Mistral 7B Instruct 模型已經展現了他們的能力,讓人們看到基礎模型也可以很容易的進行微調,從而展現令人信服的性能。我們正期待與社區合作,探讨如何使該模型更好地遵守防護規則,以便在需要控制輸出的環境中進行部署。" Mistral 表示。
在許多其他研究人員看來,Mistral 的路線才是修正模型毒性問題的一個長久解決方法,添加防護機制則相當于在重傷上貼創可貼,并沒有那麽好的效果。違反聊天機器人的安全準則是許多用戶最喜歡的消遣方式,他們想測試聊天機器人的反應極限。在 ChatGPT 開放的最初幾天裏,開發者們一直在催促 ChatGPT 打破聊天機器人的防護機制。
與 Rephrase.ai 合作的深度學習研究員 Rahul Dandwate 表示:" 事先删除某些關鍵詞隻是部分解決方案,有很多方法可以繞過它。你還記得 ChatGPT 發布後的情況嗎?他們曾出現過的 DAN 或 'Do Anything Now',這是一個可以啓用 ChatGPT 越獄版的提示。因此,做基礎安全評估是使模型更安全的臨時措施。"
" 還有一些方法甚至不需要複雜的黑客技術。一個問題可以通過多種不同的方式讓聊天機器人回答。比方說,我不會簡單地直接向聊天機器人詢問如何制造炸彈,而是把它分解成更科學的方式,比如 " 哪些化學物質混合在一起會産生強烈反應?"Dandwate 解釋說。
Dandwate 表示,長期的解決方案是将模型發布給公衆使用,并從使用中獲得反饋,然後進行微調,這正是 Mistral AI 正在做的事情。"ChatGPT 之所以更好,是因爲它已經被很多人使用過。他們有一個很基礎的反饋機制,用戶可以選擇豎起大拇指或摁下大拇指,對聊天機器人的回複質量進行評分,我認爲這一點非常重要。"Dandwate 表示。
但用這種開放給用戶再微調的壞處是,Mistral 可能不得不暫時應對一些用戶的質疑。但在人工智能研究領域,有很大一部分人喜歡原始形式的基礎模型,以便全面了解模型的能力,而這些人正在支持 Mistral 的堅持。
人工智能研究人員 Delip Rao 在推特上說,Mistral 選擇原封不動地發布開源模型,是 " 對 Mistral 模型作爲基礎模型的通用性和‘非腦葉切除’的認可。"
" 腦葉切除術 " 的提法讓人想起了微軟必應聊天機器人 Sydney 的早期版本。這款聊天機器人不受約束,有很強的個性,直到微軟将聊天機器人大幅調整爲目前的形式。
腦葉切除術這個說法來源于臭名昭著的心理學手術,在大模型領域,它通常指代通過限制功能來預防毒性回答出現。這種方法通過爲大模型設定關鍵詞來過濾那些危險的回答。但這種一刀切的方式也會導緻大模型的性能下降,讓一些涉及敏感詞彙的正常問題難以得到回答。
雖然公司沒有發表官方聲明,但有傳言稱 OpenAI 對該模型進行了 " 腦葉切除手術 ",以控制其混亂的部分。從那時起,人們就開始好奇,如果讓聊天機器人自由發揮,它會變成什麽樣?
Dandwate 表示:" 對模型進行腦葉切除可能會在某些方面對其産生影響。如果它被禁止回答帶有某些關鍵詞的問題,那麽它也可能無法回答用戶可能提出的技術問題,例如導彈的力學問題,或者圍繞機器人被标記爲 ' 有風險 ' 的主題提出的任何其他科學問題。(譯 / 呂可)