還記得這張把谷歌 AI 搞得團團轉的經典梗圖嗎?
現在,微軟亞研院的新 AI 可算是把它研究明白了。
拿着這張圖問它圖裏有啥,它會回答:我看着像鴨子。
但如果你試圖跟它 battle,它就會改口:看上去更像兔子。并且還解釋得條條是道:
圖裏有兔子耳朵。
是不是有點能看得懂圖的 ChatGPT 内味兒了?
這個新 AI 名叫 Kosmos-1,諧音 Cosmos(宇宙)。AI 如其名,本事确實不小:圖文理解、文本生成、OCR、對話 QA 都不在話下。
甚至連瑞文智商測試題都 hold 住了。
而具備如此能力的關鍵,就寫在論文的标題裏:Language is not all you need。
多模态大語言模型
簡單來說,Kosmos-1 是一種把視覺和大語言模型結合起來的多模态大語言模型。
在感知圖片、文字等不同模态輸入的同時,Kosmos-1 還能夠根據人類給出的指令,以自回歸的方式,學習上下文并生成回答。
研究人員表示,在多模态語料庫上從頭訓練,不經過微調,這個 AI 就能在語言理解、生成、圖像理解、OCR、多模态對話等多種任務上有出色表現。
比如甩出一張貓貓圖,問它這照片好玩在哪裏,Kosmos-1 就能給你分析:貓貓戴上了一個微笑面具,看上去就像在笑。
又比如讓它看一眼 MSRA 用來高效訓練大模型的 TorchScale 工具包的主頁,Kosmos-1 也能快速 get 這個庫是用來幹啥的。
Kosmos-1 還能理解圖像上下文。發一張食物的照片給它,這個 AI 不僅能回答你這是什麽,還能在你追問如何烹饪時,給出食譜和烹調小建議。
Kosmos-1 的骨幹網絡,是一個基于 Transformer 的因果語言模型。Transformer 解碼器作爲通用接口,用于多模态輸入。
用于訓練的數據來自多模态語料庫,包括單模态數據(如文本)、跨模态配對數據(圖像 - 文本對)和交錯的多模态數據。
值得一提的是,雖說 "Language is not all you need",但爲了讓 Kosmos-1 更能讀懂人類的指示,在訓練時,研究人員還是專門對其進行了僅使用語言數據的指令調整。
具體而言,就是用(指令,輸入,輸出)格式的指令數據繼續訓練模型。
實驗結果
研究人員在 5 大類共 10 個任務中,測試了 Kosmos-1 的效果,包括:
語言任務:語言理解、語言生成、無 OCR 文本分類
跨模态遷移:常識推理
非語言推理:IQ 測試(瑞文遞進矩陣)
感知 - 語言任務:圖像說明、視覺 QA、網頁 QA
視覺任務:零樣本圖像分類、帶描述的零樣本圖像分類
從實驗結果上來看,Kosmos-1 基本都 hold 住了。
零樣本圖像說明:
零樣本視覺 QA:
無 OCR 文本理解:
研究人員還提到,Kosmos-1 是第一個能完成零樣本瑞文智商測試的 AI。
不過,跟成年人類的平均水平相比,AI 的 " 智商 " 還差得有點遠。随機選擇的正确率爲 17%,而 Kosmos-1 經過指令調教之後,準确率爲 26%。
研究人員認爲:
但 Kosmos-1 證明了多模态大模型有潛力将感知和語言結合起來,進行零樣本的非語言推理。
另外,研究人員還展示了 Kosmos-1 處理複雜問答和推理任務的過程。關鍵在于多模态思維鏈提示。
研究人員将感知 - 語言任務分解爲兩個步驟。第一步,給定一個圖像,引導模型對圖像進行分析。
第二步,把模型子集分析出來的結果再喂給它,并給出任務提示,以生成最後的答案。
這項新研究來自 MSRA 的韋福如團隊。韋福如是微軟亞洲研究院自然語言計算研究組主管研究員。
三位一作分别是 Shaohan Huang、董力和 Wenhui Wang。
論文地址:
https://arxiv.org/abs/2302.14045