夢晨 西風 發自 凹非寺
量子位 | 公衆号 QbitAI
谷歌下一代大模型,無預警降臨。
Gemini 1.5,除了性能顯著增強,還在長上下文理解方面取得突破,甚至能僅靠提示詞學會一門訓練數據中沒有的新語言。
此時距離去年 12 月 Gemini 1.0 發布,還不到 3 個月。
現在僅僅中杯 1.5 Pro 版就能越級打平上一代大杯 1.0 Ultra 版,更是在 27 項測試中超越平級的 1.0 Pro。
支持 100 萬 token 上下文窗口,迄今爲止大模型中最長,直接甩開對手一個量級。
這還隻是對外發布的版本,谷歌更是透露了内部研究版本已經能直沖 1000 萬。
現在 Gemini 能處理的内容,可換算成超過 70 萬單詞,或 1 小時視頻、11 小時音頻、超過 3 萬行代碼。
沒錯,這些數據模态 Gemini 1.5 都已經内建支持。
從今天起,開發者和客戶就可以在 Vertex API 或 AI Studio 申請試用。
剛剛收到消息還在震驚中的網友們 be like:
還有人直接 @了 OpenAI 的奧特曼,這你們不跟進一波?
上下文理解能力拉滿
目前谷歌已放出三個不同任務的演示視頻,隻能說 Gemini 1.5 是個抽象派(doge)。
在第一段演示視頻中,展示的是 Gemini 1.5 處理長視頻的能力。
使用的視頻是巴斯特 · 基頓(Buster Keaton)的 44 分鍾電影,共 696161 token。
演示中直接上傳了電影,并給了模型這樣的提示詞:
找到從人的口袋中取出一張紙的那一刻,并告訴我一些關于它的關鍵信息以及時間碼。
随後,模型立刻處理,輸入框旁邊帶有一個 " 計時器 " 實時記錄所耗時間:
不到一分鍾,模型做出了回應,指出 12:01 的時候有個人從兜裏掏出了一張紙,内容是高盛典當經紀公司的一張當票,并且還給出了當票上的時間、成本等詳細信息。
随後經查證,确認模型給出的 12:01 這個時間點準确無誤:
除了純文字 prompt,還有更多玩法。直接給模型一張抽象 " 場景圖 ",詢問 " 發生這種情況時的時間碼是多少?"。
同樣不到一分鍾,模型準确給出了的電影對應的時間點 15:34。
在第二段演示視頻中,谷歌展示了 Gemini 1.5 分析和理解複雜代碼庫的能力。用到的是 Three.js,這是一個 3D Javascript 庫,包含約 100000 行代碼、示例、文檔等。
演示中他們将所有内容放到了一個 txt 文件中,共 816767 token,輸入給模型并要求它 " 找到三個示例來學習角色動畫 "。
結果模型查看了數百個示例後篩選出了三個關于混合骨骼動畫、姿勢、面部動畫的示例。
這隻是開胃小菜。接下來隻用文字詢問模型 " 動畫 Little Tokyo 的 demo 是由什麽控制?"
模型不僅找到了這個 demo,并且解釋了動畫嵌入在 gLTF 模型中。
并且還能實現 " 定制代碼 "。讓模型 " 給一些代碼,添加一個滑塊來控制動畫的速度。使用其它演示所具有的那種 GUI"。
Gemini 1.5 分分鍾給出了可以成功運行的代碼,動畫右上角出現了一個可控速的滑塊:
當然也可以做 " 代碼定位 "。僅靠一張 demo 的圖片,Gemini 1.5 就能在代碼庫中從數百個 demo 中,找到該圖對應動畫的代碼:
還能修改代碼,讓地形變得平坦,并解釋其中的工作原理:
修改代碼這一塊,對文本幾何體的修改也不在話下:
第三個演示視頻展示的是 Gemini 1.5 的文檔處理能力。
選用的是阿波羅 11 号登月任務的 402 頁 PDF 記錄,共 326658 token。
要求 Gemini 1.5" 找到三個搞笑時刻,并列出文字記錄以及表情符号引述 ":
30 秒,模型給出了回應,其一是邁克爾 · 柯林斯的這句話 " 我敢打賭你一定要喝一杯咖啡 ",經查詢文檔中的确有記錄:
更抽象一點,繪制一個靴子的圖片,詢問模型 " 這是什麽時刻 "。
模型正确地将其識别爲這是 Neil 在月球上的第一步:
最後同樣可以詢問模型快速定位這一時刻在文檔中對應的時間位置:
差不多的抽象風同樣适用于 1382 頁、732000 token 的《悲慘世界》,一張圖定位小說位置。
僅從提示詞中學會一門新語言
對于 Gemini 1.5 的技術細節,谷歌遵循了 OpenAI 開的好頭,隻發布技術報告而非論文。
其中透露 Gemini 1.5 使用了 MoE 架構,但沒有更多細節。
與上代 1.0 Pro 相比,1.5 Pro 在數學、科學、推理、多語言、視頻理解上進步最大,并達到 1.0 Ultra 層次。
爲驗證長上下文窗口的性能,使用了開源社區通行的大海撈針測試,也就是在長文本中準确找到可以藏起來的一處關鍵事實。
結果 50 萬 token 之前的表現非常完美,一直到千萬 token,Gemini 1.5 也隻失誤了 5 次。
此外還将測試擴展到多模态版本,如在視頻畫面的某一幀中藏一句話,給的例子是在阿爾法狗的紀錄片中藏了 "The secret word is ‘ needle ’ " 字樣。
結果在視頻、音頻測試中都實現了 100% 的召回率。
特别是音頻中,對比 GPT-4+Whisper 的結果,差距非常明顯。
此外谷歌 DeepMind 團隊還測試了一項高難任務,僅通過長提示詞讓模型學會全新的技能。
輸入一整本語法書,Gemini 1.5 Pro 就能在翻譯全球不到 200 人使用的 Kalamang 上達到人類水平。
相比之下,GPT-4 Turbo 和 Claude 2.1 一次隻能看完半本書,想獲得這個技能就必須要微調或者使用外部工具了。
也難怪有網友看過後驚呼," 哥們這是要把 RAG 玩死啊 "。
One More Thing
谷歌還公布了一波已在業務中采用 Gemini 大模型的客戶。
其中有三星手機這樣的大廠,也有像 Jasper 這種靠 GPT 起家的創業公司,甚至 OpenAI 董事 Adam D ‘ Angelo 旗下的 Quora。
與 OpenAI 形成了直接競争關系。
對此,一位網友道出了大家的心聲:
真希望這能促使 OpenAI 發布他們的下一代大模型。
參考鏈接:
[ 1 ] https://twitter.com/JeffDean/status/1758146022726041615
[ 2 ] https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
[ 3 ] https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#gemini-15
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~