機器之心報道
編輯:張倩、澤南
AutoGPT 的得分也涼涼。
GPT-4 自誕生以來一直是位「優等生」,在各種考試(基準)中都能得高分。但現在,它在一份新的測試中隻拿到了 15 分,而人類能拿 92。
這套名叫「GAIA」的測試題由來自 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 的團隊制作,提出了一些需要一系列基本能力才能解決的問題,如推理、多模态處理、網頁浏覽和一般工具使用能力。這些問題對人類來說非常簡單,但對大多數高級 AI 來說卻極具挑戰性。如果裏面的問題都能解決,通關的模型将成爲 AI 研究的重要裏程碑。
GAIA 的設計理念和當前的很多 AI 基準不一樣,後者往往傾向于設計一些對人類來說越來越難的任務,這背後其實反映了當前社區對 AGI 理解的差異。GAIA 背後的團隊認爲,AGI 的出現取決于系統能否在上述「簡單」問題上表現出與普通人類似的穩健性。
圖 1:GAIA 問題示例。完成這些任務要求大模型具備一定推理、多模态或工具使用等基本能力。答案是明确的,并且按照設計,不可能在訓練數據的純文本中找到答案。有些問題帶有額外的證據,例如圖像,反映真實的用例并允許更好地控制問題。
盡管 LLM 能成功完成人類難以完成的任務,但能力最強的 LLM 在 GAIA 上的表現卻難以令人滿意。即使配備了工具,GPT4 在最簡單的任務中成功率也不超過 30%,而在最難的任務中成功率爲 0%。與此同時,人類受訪者的平均成功率爲 92%。
因此,如果一個系統能解決 GAIA 裏的問題,我們就能在 t-AGI 系統中去評估它。t-AGI 是 OpenAI 工程師 Richard Ngo 構建的一套細化 AGI 評估系統,其中包括 1-second AGI、1-minute AGI、1-hour AGI 等等,用來考察某個 AI 系統能否在限定時間裏完成人類通常花相同時間可以完成的任務。作者表示,在 GAIA 測試中,人類通常需要 6 分鍾左右回答最簡單的問題,17 分鍾左右回答最複雜的問題。
使用 GAIA 的方法,作者設計了 466 個問題及其答案。他們發布了一個包含 166 個問題和答案的開發者集,另外 300 個問題發布時不帶答案。該基準以排行榜的形式發布。
排行榜地址:https://huggingface.co/spaces/gaia-benchmark/leaderboard
論文地址:https://arxiv.org/pdf/2311.12983.pdf
HuggingFace 主頁地址:https://huggingface.co/papers/2311.12983
GAIA 是什麽
GAIA 是如何運作的?研究人員表示,GAIA 是用于測試人工智能系統一般助理問題的基準。GAIA 試圖規避此前大量 LLM 評估的不同缺陷。它由人類設計和注釋的 466 個問題組成。這些問題基于文本,有的附帶文件(例如圖像或電子表格)。它們涵蓋各種輔助性質的任務,例如日常個人任務、科學或常識。
這些問題指向一個簡短的、單一的正确答案,因此易于驗證。
要使用 GAIA,隻需向人工智能助手零樣本提出問題并附上依據(如有的話)。在 GAIA 上獲得完美得分需要一系列不同的基本能力。制作者在該項目的補充材料中提供了各種問題和元數據。
GAIA 的産生既源于升級人工智能基準的需要,也源于目前廣泛觀察到的 LLM 評估的缺點。
作者表示,設計 GAIA 的首要原則是針對概念上簡單的問題,它們盡管對人類來說可能很乏味,但又多種多樣,植根于現實世界,對當前的人工智能系統具有挑戰性。這使得我們可以專注于基本能力,例如通過推理快速适應、多模态理解和潛在的多樣化工具使用,而不是專業技能方面。
這些問題通常包括查找和轉換從不同來源(例如提供的文檔或開放且不斷變化的網絡)收集的信息,以産生準确的答案。要回答圖 1 的示例問題,LLM 通常應該浏覽網絡查找研究,然後尋找正确的注冊位置。這與此前基準體系的趨勢相反,以前的基準對人類來說越來越困難,和 / 或在純文本或人工環境中操作。
GAIA 的第二個原則是可解釋性。與題海相比,精心策劃的問題數量有限,使得新基準更易于使用。該任務概念簡單(人類成功率爲 92%),使用戶很容易理解模型的推理軌迹。對于圖 1 中的 1 級問題,推理跟蹤主要包括檢查正确的網站,并報告正确的數字,這很容易驗證。
GAIA 的第三個原則是對記憶的魯棒性:GAIA 的目标是比大多數當前基準測試的猜題可能性更低。爲了完成一項任務,系統必須計劃好并成功完成一些步驟。因爲根據設計,當前預訓練數據中沒有以純文本形式生成結果答案。準确性的進步反映了系統的實際進步。由于它們的多樣性和行動空間的大小,這些任務不能在不作弊的情況下被暴力破解,例如通過記住基本事實。盡管數據污染可能導緻額外的正确率,但答案所需的準确性、答案在預訓練數據中的缺失以及檢查推理軌迹的可能性減輕了這種風險。
相反,多項選擇答案使污染評估變得困難,因爲錯誤的推理痕迹仍然可以得出正确的選擇。如果盡管采取了這些緩解措施,還是發生了災難性記憶問題,那麽使用作者在論文中提供的指南很容易設計新問題。
圖 2.:爲了回答 GAIA 中的問題,GPT4(配置了代碼解釋器)等 AI 助手需要完成幾個步驟,可能需要使用工具或讀取文件。
GAIA 的最後一個原則是易用性。其中的任務是簡單的提示,可能會附帶一個附加文件。最重要的是,問題的答案是事實、簡潔且明确的。這些屬性允許簡單、快速和真實的評估。問題旨在測試 zero-shot 能力,限制評估設置的影響。相反,許多 LLM 基準要求對實驗設置敏感的評估,例如提示的數量和性質或基準實現。
現有模型的跑分
GAIA 的設計使得大模型智能水平的評估自動化、快速且真實。實際上,除非另有說明,每個問題都需要一個答案,該答案可以是字符串(一個或幾個單詞)、數字或逗号分隔的字符串或浮點數列表,但隻有一個正确答案。因此,評估是通過模型的答案和基本事實之間的準精确匹配來完成的(直到與基本事實的「類型」相關的某種歸一化)。系統(或前綴)提示用于告知模型所需的格式,請參見圖 2。
實際上,GPT4 級别模型很容易遵循 GAIA 的格式。GAIA 已提供了評分功能和排行榜。
目前隻測試了大模型領域的「标杆」,OpenAI 的 GPT 系列,可見不管哪個版本分數都很低,Level 3 的得分還經常是零分。
使用 GAIA 評估 LLM 隻需要能夠提示模型,即有 API 訪問權限即可。在 GPT4 測試中,最高分數是人類手動選擇插件的結果。值得注意的是,AutoGPT 能夠自動進行此選擇。
隻要 API 可用,測試時就會運行該模型 3 次并報告平均結果。
圖 4:每種方法和級别的分數和回答時間。
總體而言,人類在問答中的各個層面都表現出色,但目前最好的大模型顯然表現不佳。作者認爲,GAIA 可以對有能力的 AI 助手進行清晰的排名,同時在未來幾個月甚至幾年内留下很大的改進空間。
不過從回答花費的時間上來看,像 GPT-4 這樣的大模型有潛在的可以替代現有搜索引擎的能力。
沒有插件的 GPT4 結果與其他結果之間的差異表明,通過工具 API 或訪問網絡來增強 LLM 可以提高答案的準确性,并解鎖許多新的用例,這證實了該研究方向的巨大潛力。
AutoGPT-4 允許 GPT-4 自動使用工具,但與沒有插件的 GPT4 相比,Level 2 甚至 Level 1 的結果都令人失望。這種差異可能來自 AutoGPT-4 依賴 GPT-4 API(提示和生成參數)的方式,并且在不久的将來需要進行新的評估。與其他 LLM 相比,AutoGPT4 也很慢。總體而言,人類和帶有插件的 GPT-4 之間的協作似乎是「性能」最好的。
圖 5 顯示了按功能劃分的模型獲得的分數。顯然,單純的 GPT-4 無法處理文件和多模态,但能夠解決注釋者使用網頁浏覽的問題,主要是因爲它正确地記憶了需要組合的信息片段以獲得答案。
圖 3 左:解決 GAIA 中問題需要使用的能力的數量。右:每個點對應一個 GAIA 問題。在給定位置,點的大小與問題數量成正比,并且僅顯示問題數量最多的級别。這兩個數字都是基于人類注釋者在回答問題時報告的信息,人工智能系統的處理方式可能會有所不同。
在 GAIA 上獲得完美得分需要 AI 具備先進的推理、多模态理解、編碼能力和一般工具使用能力,例如網頁浏覽。AI 還包括需要處理各種數據模态,例如 PDF、 電子表格,圖像、視頻或音頻。
盡管網頁浏覽是 GAIA 的關鍵組成部分,但我們不需要 AI 助手在網站上執行除「點擊」之外的操作,例如上傳文件、發表評論或預訂會議。在真實環境中測試這些功能,同時避免制造垃圾信息需要謹慎,這個方向會留在未來的工作中。
難度遞增:根據解決問題所需的步驟以及回答問題所需的不同工具的數量,可以将問題分爲三個難度遞增的級别。步驟或工具自然沒有單一的定義,并且可能有多種路徑來回答給定的問題。
Level 1 問題一般不需要工具,或者最多一個工具但不超過 5 個步驟。
Level 2 問題通常涉及更多步驟,大約在 5-10 步之間,并且需要結合不同的工具。
Level 3 是針對近乎完美的通用助理的問題,要求采取任意長的行動序列,使用任意數量的工具,并能夠接觸到真實世界。
GAIA 針對現實世界的 AI 助理設計問題,設計中的問題還包括面向殘障人士的任務,如在小音頻文件中查找信息。最後,該基準盡最大努力涵蓋各種主題領域和文化,盡管數據集的語言僅限于英語。
更多細節請參考原論文。
© THE END
轉載請聯系本公衆号獲得授權