馬斯克的首款多模态大模型來了，GPT-4V又被超越了一次

機器之心報道

機器之心編輯部

自從 2023 年 11 月 Grok 首次亮相以來，馬斯克的 xAI 正在大模型領域不斷取得進步，向 OpenAI 等先行者發起進攻。在 Grok-1 開源後不到一個月，xAI 的首個多模态模型就問世了。

昨天，xAI 推出了 Grok-1.5V，該模型不僅能理解文本，還能處理文檔、圖表、截圖和照片中的内容。

官方博文表示：「Grok-1.5V 在許多領域都能媲美當前頂尖的多模态模型，從多學科推理到理解文檔、科學圖表、圖表、截圖和照片。」 xAI 還表示，在接下來的幾個月裏，預計将在圖像、音頻和視頻等各種模态上顯著提高模型能力。

我們看到了 Grok-1.5V 與 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的測試對比。其中特别提到的是：「Grok 在理解物理世界方面的能力尤其令我們興奮。在我們新推出的 RealWorldQA 基準測試中，Grok 的表現優于同類産品。對于下面的所有數據集，我們都是在沒有思維鏈提示的情況下對 Grok 進行評估的。」

如果 Grok-1.5 能在類似于 Grok-1 的開源許可證下發布，這将成爲當下 LLM 競争格局的一個重要節點。

Grok-1.5V 表現如何？

目前，Grok-1.5V 還沒有完全開放，但會很快提供給早期測試者和現有的 Grok 用戶。不過，博客中展示了 Grok-1.5V 的七個示例。

第一個是将流程圖的白闆草圖轉換爲 Python 代碼：

Prompt：Can you translate this into Python code?（你能把它翻譯成 Python 代碼嗎？）

Grok：當然！您提供的流程圖描述了一個簡單的競猜遊戲：計算機生成一個随機數，用戶必須猜出它。下面是表示流程圖中邏輯的 Python 代碼：

import random

def guess_number ( ) : # Generate a random number between 1 and 10

target = random.randint ( 1, 10 )

while True: guess = int ( input ( "Guess a number between 1 and 10: " ) )

if guess == target: print ( "You won!" ) break else: print ( "Wrong guess, try again!" )

if __name__ == "__main__": guess_number ( )

第二個是計算卡路裏：

Prompt：How many calories are there in 5 slices of this?（5 片有多少卡路裏？）

‍

Grok：如果一份是 3 片，含有 60 卡路裏，那麽 5 片就含有大約 100 卡路裏。計算方法是首先确定每片的熱量：60 卡 / 3 片 = 20 卡 / 片。然後，将每片的卡路裏乘以片數：每片 20 卡路裏 * 5 片 = 100 卡路裏。

第三個是将草圖轉化爲睡前故事：

Prompt：My son drew this, can you tell a short bedtime story based on his drawing?（這是我兒子畫的，你能根據他的畫講一個簡短的睡前故事嗎？）

Grok：

很久很久以前，在一個充滿冒險和奇迹的國度裏，有一個勇敢的小男孩，名叫提米。提米和家人住在舒适的小房子裏，他最喜歡的事情就是探索周圍的世界。

在一個陽光明媚的日子裏，提米決定去附近的森林探險。他帶上了自己最喜歡的零食、指南針和他最信任的筆記本，準備把看到的所有令人興奮的事物都畫下來。

當 Timmy 走進森林深處時，他發現了一條在陽光下閃閃發光的神奇河流。這條河是如此迷人，以至于提米決定做一艘小紙船，順流而下，作爲給森林精靈的特别訊息。

提米小心翼翼地折好紙船，在上面畫了一個笑臉，希望能給森林精靈帶來歡樂。然後，他把小船放在河面上，看着小船載着他的友誼和對大自然的愛漂走了。

夕陽西下，提米知道是時候回家了。他爲自己在森林裏度過的神奇的一天感到慶幸，他知道自己将永遠銘記這次探險。

回到家後，提米和家人分享了他的故事，家人聽到他在森林裏度過的神奇一天都非常高興。他們一緻認爲，提米勇敢、善良的精神是一種真正的激勵，他們知道，提米今後還會有更多精彩的冒險經曆。

就這樣，帶着滿心的愛和滿腦子的夢想，提米漸漸進入了夢鄉，他渴望發現在他的想象世界裏還有什麽新的冒險在等着他。

第四個是解釋梗圖：

Prompt：I don't get it, please explain（我不理解，啥意思？）

Grok：

這幅圖幽默地将初創公司和大公司作了對比。在标有 " 初創企業 " 的左側，有一群人在一起挖洞。他們都在積極參與，洞已經挖得很深了。

在标有 " 大公司 " 的右側，有一群人圍着一個洞站着。然而，與初創公司不同的是，隻有一個人真正在挖洞，其他人都在觀看或從事其他活動。

這幅圖的幽默感來自于對初創企業和大公司之間差異的誇大。在初創公司，人們往往有一種緊迫感，希望每個人都能直接爲手頭的任務做出貢獻。相比之下，大公司往往被描述爲官僚主義更嚴重，所有團隊成員對每個項目的直接參與更少。

第五個是将表格轉換爲 CSV 文件格式：

Prompt：Please convert this table to csv.（請将此表轉換爲 csv。）

Grok：

medal,name,sport,event,date1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

CSV 格式不支持樣式或格式設置，因此信息以純文本格式呈現。

第六個是辨别木頭的腐朽程度：

Prompt：These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?（這些孔出現在我的甲闆上的螺釘周圍。是不是爛了？我應該更換嗎？）

Grok：

甲闆上的木材似乎已經開始腐爛。這表現在螺絲周圍出現孔洞，這是木材腐爛的常見迹象。

爲了确保露台的安全和使用壽命，建議更換受影響的木闆。這将有助于防止其受到進一步損壞，并保持其結構的完整性。

如果您不确定如何更換木闆，咨詢專業的露台建造商或承包商可能會有所幫助。他們将能夠評估損壞的程度，并就最佳行動方案向您提供專家建議。

第七個是解決編程問題：

Prompt：Can you write Python code that solves this?（你能編寫 Python 代碼來解決這個問題嗎？）

Grok 回複如下：

def find_triplets ( nums ) : result = [ ] nums.sort ( ) for i in range ( len ( nums ) - 2 ) : if i > 0 and nums [ i ] == nums [ i - 1 ] : continue target = -nums [ i ] left = i + 1 right = len ( nums ) - 1 while left < right: if nums [ left ] + nums [ right ] == target: result.append ( [ -target, nums [ left ] , nums [ right ] ] ) left += 1 right -= 1 while left < right and nums [ left ] == nums [ left - 1 ] : left += 1 while left < right and nums [ right ] == nums [ right + 1 ] : right -= 1 elif nums [ left ] + nums [ right ] < target: left += 1 else: right -= 1 return result

RealWorldQA 基準

本次發布還有一個亮點：xAI 推出了一個新的基準「RealWorldQA」。

下載地址：https://data.x.ai/realworldqa.zip

「爲了開發有用的真實世界人工智能助手，提高模型對物理世界的理解至關重要。」xAI 希望借助該基準更好地評估多模态模型的基本真實世界空間理解能力。「雖然當前基準中的許多示例對人類來說相對容易，但它們往往對前沿模型構成挑戰。」

目前，RealWorldQA 包含 700 多張圖片，每張圖片都有一個問題和易于驗證的答案。

在真實世界的圖像外，該數據集還包括從車輛上拍攝的匿名圖像。這對于自動駕駛領域來說，或許是個好消息。

巧合的是，微軟研究院前段時間更新了跨語言、模态、模型和任務的基準測試 MEGAVERSE，包含 22 個數據集，涵蓋 83 種語言（包括資源匮乏的非洲語言）。微軟還在基準測試中加入了兩個多模态數據集，并比較了 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。

Meta 在前幾天也開源了衡量人工智能系統具體問答能力的基準數據集 OpenEQA，包含家庭和辦公室等 180 多種不同現實環境的 1600 多個問題，跨越七個類别，全面測試 AI 在物體和屬性識别、空間和功能推理以及常識知識等技能方面的能力，加深大模型對現實世界的理解。

即使是最先進的 AI 模型，如 GPT-4V，在 OpenEQA 上也難以與人類表現相媲美。OpenEQA 是衡量人工智能系統理解和回答現實世界問題能力的新基準。

在這些研究的推動下，我們可以期待一下 2024 年大模型在現實世界任務取得更多的進展。

參考鏈接：https://x.ai/blog/grok-1.5v

轉載請聯系本公衆号獲得授權

投稿或尋求報道：[email protected]