這兩天,幾乎整個 AI 圈的目光都被 OpenAI 發布 Sora 模型的新聞吸引了去。其實還有件事也值得關注,那就是 Google 繼上周官宣 Gemini 1.0 Ultra 後,火速推出下一代人工智能模型 Gemini 1.5。
公司首席執行官 Sundar Pichai 攜首席科學家 Jeff Dean 等衆高管在推特同時宣布了這一重大更新。
其中最亮眼的當屬它在跨模态超長文本理解能力上的大幅突破。Gemini 1.5 能夠穩定處理的信息量高達 100 萬個 tokens。更直觀去感受,這相當于 1 小時的視頻、11 小時的音頻、超過 3 萬行代碼或 70 萬個單詞。
在此之前,世界上公開可用的 LLM 中,最大的上下文窗口來自 Claude 2.1 的 20 萬 tokens。同時 GPT-4 是 12.8 萬 tokens, Gemini 1.0 Pro 是 3.2 萬 tokens ——此次 Gemini 1.5 已在窗口長度上成功碾壓所有大模型。
Google 還表示,他們在研究中已成功測試了高達 1000 萬 tokens,相當于一次将整個《指環王》三部曲放進去。
Sundar Pichai 認爲更大的查詢窗口對企業來說會非常有用, " 電影制作人可能會上傳他們的整部電影,詢問 Gemini 評論家是什麽意見,公司還能使用 Gemini 審查大量的财務記錄。這是我們實現的重大突破之一。"
更高效的 MoE 架構
作爲目前 Google 公開的最先進 LLM,Gemini 1.5 采用時下流行的混合專家(MoE)架構來提高效率,響應更快、質量更高。
與傳統 Transformer 作爲一個大型神經網絡運行不同, MoE 模型被劃分爲較小的專家模塊。執行任務時會根據信息類型,選擇性地激活最相關的專家路徑,從而大大提升模型的效率和準确性。不僅更适應處理大規模數據集的複雜任務,還有更強的可擴展性和靈活性。
我們熟知的 Mistral 8x7B、MiniMax abab6 都是使用了 Moe 架構,更有爆料稱 GPT-4 也是由 8 個或 16 個專家模型構成。
根據 Google 數據,此次供早期測試的 Gemini 1.5 Pro 在使用更少計算資源的同時,對數學、科學、推理、多語言和視頻等任務的執行水平已逼近 1.0 Ultra。
在官方演示和 58 頁的技術論文中, Google 還針對新模型的強大性能給出了以下幾個用例:
大量信息的複雜推理和多模态分析
Gemini 1.5 Pro 可以無縫分析、分類和總結給定的長篇複雜文檔。例如,上傳阿波羅 11 号登月任務的 402 頁 pdf 記錄,讓它根據要求列出 3 個有意思的瞬間,并引用原始對話細節。
給出維克多 · 雨果的五卷本小說《悲慘世界》(1382 頁,73.2 萬 tokens),粗略勾勒一個場景,并提問 " 看看這幅畫中的事件是在哪一頁上?" 模型準确給出了頁碼,并标識出關鍵情節。
在超長視頻理解上同樣出色,能夠快速準确地分析各種事件和情節點。比如給定一部相當于 68.4 萬 tokens、時長爲 44 分鍾的無聲電影 Sherlock Jr.,要求一句話總結電影情節:
繼續詢問一個 " 紙張從口袋取出的關鍵信息和時間 "。Gemini 1.5 Pro 用時 57 秒給出詳細答案。
另外,Gemini 1.5 Pro 超大的上下文窗口還能夠深入分析整個代碼庫。當發出一個 81.6 萬 tokens、超過 10 萬行代碼的提示時,它可以根據提問快速找到特定 demo 的代碼,還能提出有用的修改建議并進行解釋。
一本語法書,自學翻譯新語言
另一項讓人耳目一新的是 Gemini 1.5 Pro 的 "上下文學習(in-context learning)" 技能,意味着它能從一個長提示中給出的信息裏學習新技能,而無需額外微調。
爲此,Google 使用 " 對一本書進行機器翻譯 ( MTOB ) " 進行測試,并選用新幾内亞西部不到 200 名使用者的 Kalamang 語。由于該語言幾乎沒有任何網絡信息,模型隻能依賴于給定的上下文數據,而非訓練權重中儲存的知識來進行翻譯。
在測試中, 工作人員向 Gemini 1.5 Pro 提供了 500 頁參考語法、2000 條雙語詞條和 400 個額外的平行句子——總計約 25 萬 tokens 信息作爲其輸入上下文,要求從中學習并完成 Kalamang 語和英語的互譯。
從測試結果可見,Gemini 1.5 Pro 對整本書的翻譯得分接近人類學習者,在半本書的表現中遠超 GPT-4 Turbo 與 Claude 2.1。
對于一門在模型訓練過程中幾乎完全沒接觸過的語言來說,這一成就尤爲突出。不僅支持瀕危語言的保護和複興,也爲其它低資源教育領域開辟了新的可能性。
從今天開始,Google 将通過 AI Studio 和 Vertex AI 向開發者和企業客戶提供 Gemini 1.5 Pro 的有限預覽權限。最終在完成所有安全部署和測試後取代 Gemini 1.0。免費使用的 Gemini 1.5 Pro 标準版将采用 12.8 萬個 tokens 上下文窗口,普通用戶需要額外支付費用獲得 100 萬 tokens 使用權。
被 OpenAI" 夾心 ",但仍不可小觑
此次 Gemini 1.5 的發布時間再次 " 不湊巧 ",前有 OpenAI 放話開發網絡搜索産品和推出 GPT 記憶功能,後面緊跟着兩小時後又橫空殺出個 Sora。奧特曼武器庫豐富且擅長針鋒相對,每當 Google 有新動作,剛要炸起水花就被摁下去。
網友們形容當天的場面就如同:
但是,依然有不少聲音站出來提醒大家切莫小看了 Gemini 1.5 Pro,它對超長文本強大的分析推理能力是其它大模型做不到的。
NVIDIA 高級科學家 Jim Fan 更是發表評論盛贊。表示盡管 Gemini-1.5 Pro 被搶走了風頭,被人們拿梗圖來開玩笑,但這仍是 LLM 能力的巨大躍升。測試中達到的 1000 萬 tokens 上下文、擅長檢索、在零樣本情況下對極長指令進行泛化、多模态工作能力都是驚人的。
" 重要的不是聲明中實現多少上下文長度的神話,而是模型實際上如何使用上下文來解決現實世界的問題。" 他認爲 1.5 Pro 不通過微調而自主實現對 Kalamang 語的學習和應用,就展現出了這種神經激活中的複雜技能,超越了現有的技術水平。
如今 OpenAI 的急速擴張和 Gemini 逐步加快的升級速度,已經标志着生成式 AI 底層技術的狂熱步伐。Google DeepMind 負責人 Demis Hassabis 表示,可以期待未來幾個月會有更多的進步。
" 這是一種新的節奏 ",他說," 我正試圖帶來一種類似初創公司的心态。"