出品 | 虎嗅科技組
作者 | 杜钰君
編輯 | 王一鵬
頭圖 | 視覺中國
在這場争奪 AIGC 話語權與領導力的追逐戰裏,谷歌與微軟争相拼臂力秀肌肉。Gemini 1.5 Pro 的橫空出世,将多模态大模型的标準提到了一個新高度。
一、極緻性能背後的模型架構
當地時間 2 月 15 日,Alphabet 與 Google 公司首席執行官 Sundar Pichai 攜首席科學家 Jeff Dean 等衆高管在 X 平台發布了多模态模型 Gemini 1.5 Pro。這是繼 2 月 7 日的 Gemini 1.0 Ultra 後,谷歌在多模态大模型賽道的又一力作。
圖源:X 平台 Alphabet 與 Google 公司首席科學家 Jeff Dean 推文
" 巧合 " 的是,Open AI 在 Gemini 1.5 Pro 官宣兩小時發布 Sora 這枚重磅炸彈,頗有 " 一較高下 " 的勁頭。隻是由于當下大家的視線焦點集中在視頻領域,Sora 又是 OpenAI 首次發布文生視頻模型,所以無奈被搶了頭條。
圖源:微博評論
Gemini 1.5 Pro 建立在谷歌對 Transformer 和 MoE 架構的領先研究之上。傳統 Transformer 充當一個大型神經網絡,而 MoE(Mixture of Experts 混合專家模型)模型則分爲更小的 " 專家 " 神經網絡。在這一結構之下,通過将模型參數劃分爲多個組别而實現的計算的稀疏化,即每次執行推理任務時,根據對輸入類型的判斷,MoE 模型會通過門控網絡選擇性地激活神經網絡中最契合指令的專家參與計算。
這種專業化、模塊化的劃分可以在提升預訓練計算效率的同時提升大模型處理複雜任務的性能,更快地學習複雜任務的同時保證準确性。與稠密模型相比,MoE 模型的預訓練速度更快;使用 MoE 層代替 transformer 中的前饋網絡(FFN)層。因而對的采用可以彌補 Transformer 架構運算效率的問題。
在 Switch-Transformer、M4 等領域,Google 一直是深度學習 MoE 技術的早期采用者。目前大部分大語言模型開源和學術工作都沒有使用 MoE 架構。有消息稱,GPT-4 也采用了由 8 個專家模型組成的集成系統。2023 年 12 月 8 日 Mistral AI 發布的 Mixtral 8x7B 同樣采用了這種架構。就國内的大模型而言,隻有 Minimax 采用了 MoE 架構。
二、擴容的上下文窗口意味着什麽?
雖然 Gemini 1.5 Pro 是 Gemini 1.5 系列的初代版本,但初代便表現不俗。擴大上下文窗口後的高水平性能是 Gemini 1.5 Pro 的一大亮點。
多模态大模型卷到今日,上下文窗口容量已然成爲提升其理解能力的關鍵掣肘。此前的 SOTA 模型将上下文窗口容量卷到了 20 萬 token。而谷歌的 Gemini 1.5 Pro 直接将上下文窗口容量提到了 100 萬 token(極限爲 1000 萬 token),遠遠超出了 Gemini 1.0 最初的 32,000 個 token,創下了最長上下文窗口的紀錄。
對于文本處理,Gemini 1.5 Pro 在處理高達 530,000 token 的文本時,能夠實現 100% 的檢索完整性,在處理 1,000,000 token 的文本時達到 99.7% 的檢索完整性。甚至在處理高達 10,000,000 token 的文本時,檢索準确性仍然高達 99.2%。在音頻處理方面,Gemini 1.5 Pro 能夠在大約 11 小時的音頻資料中,100% 成功檢索到各種隐藏的音頻片段。在視頻處理方面,Gemini 1.5 Pro 能夠在大約 3 小時的視頻内容中,100% 成功檢索到各種隐藏的視覺元素。
圖源:Gemini 1.5 Pro 官方測試數據
Gemini 1.5 Pro 大大超過 Gemini 1.0 Pro,在 27 項基準(共 31 項)上表現更好,特别是在數學、科學和推理(+28.9%),多語言(+22.3%),視頻理解(+11.2%)和代碼(+8.9%)等領域。即使是對比 Gemini 系列的高端産品 Gemini 1.0 Ultra, Gemini 1.5 Pro 也在超過一半的基準(16/31)上表現更好,特别是在文本基準(10/13)和許多視覺基準(6/13)上。在 NIAH 測試中,Gemini 1.5 Pro 能夠在長達 100 萬 token 的文本塊中,以 99% 的準确率找出隐藏有特定信息的文本片段。
圖源:Gemini 1.5 Pro 官方測試數據
這個上下文長度使 Gemini 1.5 Pro 可以自如地處理 22 小時的錄音、超過十倍的完整的 1440 頁的書(587,287 字)" 戰争與和平 ",以及四萬多行代碼、三小時的視頻。
三、機器腦有多好使
除高效架構和強上下文處理能力之外,Gemini 1.5 Pro 的優秀品質還在于 " 情境學習 " 技能,它可以根據長提示,從以前從未見過的信息中學習新技能,而不需要額外的微調。強學習能力、信息檢索與數據分析能力使得在知識海洋中 " 海底撈針 " 由想象映照進了現實。
根據官方發布的測試報告,當給定卡拉曼語(一種全球使用人數不足 200 人的語言)的語法手冊時(500 頁的語言文獻,一本詞典和 400 個平行句子),Gemini 1.5 Pro 模型可以學習将英語翻譯成卡拉曼語,其水平與學習相同内容的人相似。
圖源:Gemini 1.5 Pro 官方演示樣本
當被一個 45 分鍾的 Buster 基頓電影 " 小神探夏洛克 "(1924 年)(2674 幀,1FPS,684k token)提示時,Gemini 1.5 Pro 可以從其中的特定幀中檢索和提取文本信息,并提供相應的時間戳。此外還可以從一張手繪素描中識别電影中的一個場景。與側重于衡量模型檢索能力的特定事實或細節的任務不同,這些問題通常需要了解跨越大量文本的信息片段之間的關系。
圖源:Gemini 1.5 Pro 官方演示樣本
Gemini 1.5 Pro 在處理長達超過 100,000 行的代碼時,還具備極強的問題解決能力。面對龐大的代碼量,它能夠深入分析各個示例,提出實用的修改建議,還能詳細解釋代碼的條例框架。給出了整個 746,152 個令牌 JAX 代碼庫,Gemini 1.5 Pro 可以識别核心自動微分方法的具體位置。開發者可以直接上傳新的代碼庫,利用這個模型快速熟悉、理解代碼結構。
圖源:Gemini 1.5 Pro 官方演示樣本
正如 NVIDIA 高級科學家 Jim Fan 所言,Gemini 1.5 Pro 意味着 LLM 能力的大幅躍升,這對于做個體戶的小公司而言可謂一騎絕塵。
在人機協同的探索過程中,單一的文本交互很難滿足多場景多樣态的内容生産訴求。多模态的信息處理與生成能力顯然是技術變革的發力點。紐約大學計算機助理教授謝賽甯說,人才第一,數據第二,算力第三,其他都沒有什麽是不可替代的。Gemini 1.5 Pro 是谷歌與巅峰對決的又一利器,或許 AGI 時代正加快到來。