多模态王炸大模型 GPT-4V,166 頁 " 說明書 "重磅發布!而且還是微軟團隊出品。
什麽樣的論文,能寫出 166 頁?
不僅詳細測評了 GPT-4V 在十大任務上的表現,從基礎的圖像識别、到複雜的邏輯推理都有展示;
還傳授了一整套多模态大模型提示詞使用技巧——
手把手教你從 0 到 1 學會寫提示詞,回答專業程度一看就懂,屬實是把 GPT-4V 的使用門檻打到不存在了。
值得一提的是,這篇論文的作者也是 " 全華班 ",7 名作者全部是華人,領銜的是一位在微軟工作了 17 年的女性首席研究經理。
在 166 頁報告發布前,他們還參與了 OpenAI 最新 DALL · E 3 的研究,對這個領域了解頗深。
相比 OpenAI 的 18 頁 GPT-4V 論文,這篇 166 頁 " 食用指南 " 一發布,立刻被奉爲 GPT-4V 用戶必讀之物:
有網友感慨:這哪裏是論文,這簡直快成一本 166 頁的小書了。
還有網友看完已經感到慌了:
不要隻看 GPT-4V 的回答細節,我真的對 AI 展現出來的潛在能力感到害怕。
所以,微軟這篇 " 論文 " 究竟講了啥,又展現出了 GPT-4V 的哪些 " 潛力 "?
微軟 166 頁報告講了啥?
這篇論文鑽研 GPT-4V 的方法,核心就靠一個字——" 試 "。
微軟研究員們設計了涵蓋多個領域的一系列輸入,将它們喂給 GPT-4V,并觀察和記錄 GPT-4V 的輸出。
随後,他們對 GPT-4V 完成各類任務的能力進行評估,還給出了使用 GPT-4V 的新提示詞技巧,具體包括 4 大方面:
1、GPT-4V 的用法:
5 種使用方式:輸入圖像(images)、子圖像(sub-images)、文本(texts)、場景文本(scene texts)和視覺指針(visual pointers)。
3 種支持的能力:指令遵循(instruction following)、思維鏈(chain-of-thoughts)、上下文少樣本學習(in-context few-shot learning)。
例如這是基于思維鏈變更提問方式後,GPT-4V 展現出的指令遵循能力:
2、GPT-4V 在 10 大任務中的表現:
開放世界視覺理解(open-world visual understanding)、視覺描述(visual description)、多模态知識(multimodal knowledge)、常識(commonsense)、場景文本理解(scene text understandin)、文檔推理(document reasoning)、寫代碼(coding)、時間推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)
其中就包括這種,需要一些智商才能做出來的 " 圖像推理題 ":
3、類 GPT-4V 多模态大模型的提示詞技巧:
提出了一種新的多模态提示詞技巧 " 視覺參考提示 "(visual referring prompting),可以通過直接編輯輸入圖像來指示感興趣的任務,并結合其他提示詞技巧使用。
4、多模态大模型的研究 & 落地潛力:
預測了多模态學習研究人員應該關注的 2 類領域,包括落地(潛在應用場景)和研究方向。
例如這是研究人員發現的 GPT-4V 可用場景之一——故障檢測:
但無論是新的提示詞技巧、還是 GPT-4V 的應用場景,大夥兒最關注的還是 GPT-4V 的真正實力。
所以,這份 " 說明書 " 随後用了 150 多頁來展示各種 demo,詳細劇透了 GPT-4V 在面對不同回答時展現出的能力。
一起來看看 GPT-4V 如今的多模态能力進化到哪一步了。
精通專業領域圖像,還能現學知識圖像識别
最基礎的識别自然是不在話下,比如科技、體育界以及娛樂圈的各路名人:
而且不僅能看出這些人是誰,還能解讀他們正在做什麽,比如下圖中老黃正在介紹英偉達新推出的顯卡産品。
除了人物,地标建築對于 GPT-4V 來說同樣是小菜一碟,不僅能判斷名稱和所在地,還能給出詳細的介紹。
△左:紐約時代廣場,右:京都金閣寺
不過越是有名的人和地點,判斷起來也就越容易,所以要難度更大的圖才能展現 GPT-4V 的能力。
比如醫學影像,針對下面這張肺部 CT,GPT-4V 給出了這樣的結論:
雙肺多個區域存在實變和磨玻璃混濁,肺部可能存在感染或炎症。右肺上葉也可能有腫塊或結節。
甚至不告訴 GPT-4V 影像的種類和位置,它自己也能判斷。
這張圖中,GPT-4V 成功識别出了這是一張腦部的核磁共振(MRI)影像。
同時,GPT-4V 還發現存在大量積液,認爲很可能是高級别腦膠質瘤。
經過專業人士判斷,GPT-4V 給出的結論完全正确。
除了這些 " 正經 " 的内容之外,當代人類社會的 " 非物質文化遺産 " 表情包也被 GPT-4V 給拿捏了。
△機器翻譯,僅供參考
不僅是解讀表情包中的梗,真實世界中人類的表情所表達的情感也能被 GPT-4 看穿。
除了這些真 · 圖像之外,文本識别也是機器視覺中的一項重要任務。
這方面,GPT-4V 除了可以識别拉丁文字拼寫的語言之外,中文、日文、希臘文等其他文字也都認識。
甚至是手寫的數學公式:
圖像推理
前面展示的 DEMO,無論多麽專業或多麽難懂,都還停留在識别的範疇,但這隻是 GPT-4V 技能的冰山一角。
除了看懂圖片中的内容,GPT-4V 還具有一定的推理能力。
簡單一些的,GPT-4V 可以發現兩張圖中的不同(雖然還有些錯誤)。
下面的一組圖中,王冠和蝴蝶結的區别都被 GPT-4V 發現了。
如果加大難度,GPT-4V 還能解決 IQ 測試當中的圖形問題。
上面的這三道題中的特征或邏輯關系都還比較簡單,但接下來就要上難度了:
當然難度不是在于圖形本身,注意圖中的第 4 條文字說明,原題目中圖形的排列方式不是圖中展示的樣子。
圖片标注
除了用文本回答各種問題,GPT-4V 還可以在圖片中執行一系列操作。
比如我們手裏有一張四位 AI 巨頭的合影,要 GPT-4V 框出其中的人物并标注他們的姓名和簡介。
GPT-4V 先是用文本回答了這些問題,緊接着便給出了處理之後的圖片:
動态内容分析
除了這些靜态内容,GPT-4V 還能做動态分析,不過不是直接喂給模型一段視頻。
下面的五張圖是從一段制作壽司的教程視頻中截取的,GPT-4V 的任務是(在理解内容的基礎上)推測這些圖片出現的順序。
而針對同一系列的圖片,可能會有不同的理解方式,這是 GPT-4V 會結合文本提示進行判斷。
比如下面的一組圖中,人的動作究竟是開門還是關門,會導緻排序結果截然相反。
當然,通過多張圖片中人物狀态的變化,還可以推測出他們正在做的事情。
甚至是預測接下來會發生什麽:
" 現場學習 "
GPT-4V 不僅視覺本領強,關鍵是還能現學現賣。
還是舉個例子,讓 GPT-4V 讀汽車儀表盤,一開始得出的答案是錯誤的:
緊接着把方法用文字交給 GPT-4V,但這是的答案依然不對:
然後又把例子展示給 GPT-4V,答案倒是有樣學樣,可惜數字是胡編亂造出來的。
隻有一個例子的确是有點少,不過随着樣本數量的提高(其實隻多了一個),終于功夫不負有心人,GPT-4V 給出了正确答案。
GPT-4V 的效果就展示這麽多,當然它還支持更多的領域和任務,這裏無法一一展示,感興趣的話可以閱讀原始報告。
那麽,GPT-4V 這些神器的效果背後,是怎樣的一個團隊呢?
清華校友領銜
這篇論文的作者一共有 7 位,均爲華人,其中 6 位是核心作者。
項目領銜作者 Lijuan Wang,是微軟雲計算與 AI 首席研究經理。
她本科畢業于華中科技大學,在中國清華大學獲得博士學位,于 2006 年加入微軟亞洲研究院,并于 2016 年加入位于雷德蒙德的微軟研究院。
她的研究領域是基于多模态感知智能的深度學習和機器學習,具體又包括視覺語言模型預訓練、圖像字幕生成、目标檢測等 AI 技術。
原文地址:
https://arxiv.org/abs/2309.17421