Gemini 1.5 AI 模型測試表現出色,多任務能力強。
【導讀】Gemini 1.5 的真實水平到底怎麽樣,從谷歌那裏獲得試用資格的大佬們,給大家進行了一波極限測試。讓我們看看谷歌最新推出的大模型到底有多強的實力。
當谷歌 Gemini 1.5,遇上搶了它頭條的「罪魁禍首」Sora 會怎麽樣?
這兩天,拿到内測資格的 AI 圈大佬們,紛紛給廣大網友來了一波在線測試。
這不,Gabor Cselle 就讓 Gemini 1.5 去分析了那個著名的櫻花雪景視頻。
對此,Gemini 1.5 給出的評價是:
視頻呈現的是日本一條覆蓋着雪的街道,櫻花正盛開。但幾處明顯的問題暗示這個視頻可能是 AI 制作的。
首先,盡管雪下得非常大,櫻花卻依然綻放。通常,櫻花在春季開放,那時天氣溫暖,不會有雪。
其次,雪以一種過于規律的方式落下,這與現實中雪的降落方式不符。
再者,盡管正下着大雪,視頻中的人們卻沒有穿戴任何冬季服裝。
總而言之,雖然視頻的視覺效果令人贊歎,但這些問題表明它并非真實場景所拍。
不得不說,就分析視頻 AI 痕迹的準确度來看,Gemini 的回答非常切題,說明它的識别和理解能力确實非常出色。
無獨有偶,The Rundown AI 創始人 Rowan Cheung,則測試了貓在叢林裏漫步的視頻。
對此,Gemini 1.5 給出的評價是:
這段視頻很有可能是由人工智能(AI)創造的,但要确定地說還是有些困難。
一些細節似乎表明這段視頻是真實的,例如貓的動作自然流暢,光影效果也相當逼真。
然而,也有一些細節讓人懷疑,比如貓的眼睛異常放大,毛皮的質感也過于完美無瑕。
最終,視頻是真是假,還是要留給觀衆自己去判斷。
确實 Sora 的視頻生成已經到達了真假難辨的地步,而且 Gemini 的分析也基本到位,有理有據。
不過,需要注意的是,在這兩位大佬的 Prompt 裏,要麽明示了視頻就是 AI 生成的,要麽暗示了兩者可能有所聯系。
1,000,000 token 上下文能幹啥?
衆所周知,模型的上下文窗口越大,它處理給定提示時能夠接納的信息就越多——這就使得它的輸出更加連貫、相關和實用。
如今,谷歌成功把這個領域「卷」到了 100 萬 token(極限爲 1000 萬 token),創下了最長上下文窗口的紀錄。
在這個基礎之上,很多之前難以想象的應用都成爲了現實。
比如,一口氣處理 1 小時的視頻、11 小時的音頻、超過 30,000 行的代碼庫,或是超過 700,000 個單詞的文本等等。
于是,一大波千奇百怪的實測就撲面而來:
比如,前文提到的 Rowan Cheung,就用了很多長視頻來對 Gemini 1.5 的理解能力進行了測試。
首先他上傳了今年整個 NBA 扣籃大賽,問哪一個扣籃得分最高。
Gemini 1.5 非常能夠從很長的視頻中找到了那個獲得 50 分滿分的扣籃,并清除地描述了扣籃的細節!
Mac McClung 的最後一記扣籃獲得了當晚的最高分—— 50 分滿分。他跳過兩人,将球輕敲籃闆後闆,然後用右手完成扣籃。
然後他又讓 Gemini 1.5 理解并比較《星際穿越》和《星際探索》的完整電影腳本。
讓 Gemini 1.5 去理解比較兩部電影的完整文字内容,來幫助他決定應該看哪部電影。
Gemini 1.5 最後輸出到:
《星際探索》:歸根結底,這是一個關于個人成長和人與人之間聯系的重要性的故事,表明即使面對宇宙的冷漠,找到自身的意義和與他人的聯系也是至關重要的。
《星際穿越》:更加樂觀和充滿希望,強調了人類智慧的力量,以及面對看似難以克服的挑戰時堅持不懈的重要性。
接下來該看哪部電影取決于你的個人喜好:
如果您正在尋找一個更加内省、以人物爲驅動力、注重情感主題的故事,《星際探索》可能是一個不錯的選擇。
如果你更喜歡史詩般的動作冒險,關注人類的生存,那麽《星際穿越》可能更有吸引力。
兩部電影都爲太空探索和人類經曆提供了獨特而發人深省的視角。
然後,他又讓 Gemini 将一段英語翻譯成一個全世界不超過 2000 人使用的語言(薩特蘭語)。
Gemini 1.5 經過推理之後将英語小冊子的所有内容很快翻譯成薩特蘭語。
這個過程确實碉堡了。
然後他再讓 Gemini 查找、理解長論文中的一個圖标的含義。
Gemini 從 DeepMind 的 Gemini 1.5 Pro 論文中提取「表 8」并解釋了這個圖表的含義。
表 8 的主要的内容是:
與 Gemini 1.0 Pro 相比,Gemini 1.5 Pro 在所有核心文本功能方面都有顯著改進。這表明該模型的能力有了明顯的提升。
Gemini 1.5 Pro 在許多基準測試中的表現與 Gemini 1.0 Ultra 相當,甚至超過了後者,盡管所需的訓練計算量更少。這凸顯了 1.5 Pro 模型效率的提高。
Gemini 1.5 Pro 在不同的任務和語言中都表現出很強的性能,這表明它具有很好的泛化能力。
總之,表 8 提供的證據表明,Gemini 1.5 Pro 不僅在長文本理解方面表現出色,而且還保持甚至改進了其前代産品的核心文本功能。這使它成爲一個功能強大、用途廣泛的模型,适用于各種基于文本的任務。
最後,他讓 Gemini 理解整個《星際穿越》的劇本内容,再把劇本中最高潮的部分的台詞提取出來。
Gemini 1.5 輸出了《星際穿越》文字記錄中最鼓舞人心的 3 句台詞。
1. 「人類誕生于地球,但我們的命運遠不止于此。」—— Cooper
這句話深刻地表達了人類探索未知、超越現狀的不屈不撓的精神。它提醒我們,我們的潛力不受當前所處環境的限制,我們完全有能力克服挑戰,追求更高的目标。
2. 「愛是唯一能跨越時間和空間,觸及我們心靈的力量。」—— Brand
這句話揭示了愛的強大能力,它能夠跨越遙遠的距離,甚至是時間的界限,将我們緊緊相連。它暗示,愛是宇宙中的一股根本力量,能在逆境中爲我們指明方向,帶給我們希望。
3. 「曾經,我們仰望星空,夢想着自己在浩瀚宇宙中的位置。如今,我們卻沉溺于眼前的瑣事,忘記了自己的遠大理想。」—— Cooper
這句話是對好奇心、追求和雄心壯志的重要性的深情提醒。它對比了過去人類滿懷希望地探索星辰的時代,與如今忙于應對日常挑戰、失去對未來的憧憬的現狀。它激勵我們重新尋找那份對未知的好奇和對更美好未來的追求。
Gemini 1.5 性能極限測試
随後,Rowan Cheung 又對 Gemini 1.5 進行了一些更加極限的測試:
他讓 Gemini 讀取了整部《哈利 · 波特與魔法石》(共 741,028 個 Token)。
Prompt:「請按照時間順序列出書中最重要的 50 個(或 100 個)思想或段落,并對它們的重要性進行 1 到 10 的評分。」
完成這個任務耗時 4 分鍾。
他又輸入了梅西在對陣赫塔菲比賽中的經典單刀進球視頻。
Prompt:「這個進球爲什麽如此著名?」
雖然沒有解釋這個進球爲什麽那麽著名,但它成功識别出了梅西,但是把赫塔菲的球員識别成了皇馬球員。
這張圖片之所以出名,是因爲它捕捉到了有史以來最偉大的足球運動員之一梅西在與巴塞羅那最大的對手之一皇家馬德裏比賽時的場景。梅西的球技和運動能力在這幅圖片上得到了充分展示,視覺效果極佳。
他還進行了難度很高的數學和邏輯推理測試。
Prompt:「當一個點 P 在垂直線上移動時,該點在時間 t(t ≥ 0)的速度 v ( t ) 與加速度 a ( t ) 滿足以下條件: ( a ) 當 0 ≤ t ≤ 2 時,v ( t ) = 2t^3 - 8t。 ( b ) 當 t ≥ 2 時,a ( t ) = 6t + 4。請計算點 P 從時間 t = 0 到 t = 3 移動的總距離。」
不過,大佬表示,自己并不确定這裏給出的答案是否正确,但據網友評論的說法,這個答案是錯誤的。
他又讓 Gemini 1.5 造 10 個句子,每個句子都以「Apple」結尾。
這個任務是檢驗聊天機器人能力的一個很常用的方法。
Prompt:「請編寫 10 個句尾爲『apple』的句子。」
最後,Gemini 1.5 完全沒能完成這項挑戰。
于是他讓 GPT-4 也來跑了一下這個問題,結果 GPT-4 也沒給出正确的結果。
他又把《煉金術士》這本書的 PDF 全文輸入到了 Gemini 1.5 中,目的是獲取書中主人公的形象描述。
接着,他又把這個描述在 DALL · E 3 中生成了圖片。
Prompt:「讀完整本書後,幫我構思一個基于主角形象的描述,我想把它用在 AI 圖像生成器裏。」
1000 萬極限海底撈針幾乎全綠
最後,我們來看看 Gemini 1.5 Pro 在多模态海底撈針測試中的成績。
對于文本處理,Gemini 1.5 Pro 在處理高達 530,000 token 的文本時,能夠實現 100% 的檢索完整性,在處理 100 萬 token 的文本時達到 99.7% 的檢索完整性。
甚至在處理高達 1000 萬 token 的文本時,檢索準确性仍然高達 99.2%。
在音頻處理方面,Gemini 1.5 Pro 能夠在大約 11 小時的音頻資料中,100% 成功檢索到各種隐藏的音頻片段。
在視頻處理方面,Gemini 1.5 Pro 能夠在大約 3 小時的視頻内容中,100% 成功檢索到各種隐藏的視覺元素。
此外,谷歌研究人員還開發了一個更通用的版本的「大海撈針」測試。
在這個測試中,模型需要在一定的文本範圍内檢索到 100 個不同的特定信息片段。
在這個測試中,Gemini 1.5 Pro 在較短的文本長度上的性能超過了 GPT-4-Turbo,并且在整個 100 萬 token 的範圍内保持了相對穩定的表現
與之對比鮮明的是,GPT-4 Turbo 的性能則飛速下降,且無法處理超過 128,000 token 的文本,表現慘烈。