ChatGPT 會畫畫了!
問它:能生成一張貓片給我嗎?
立刻連文帶圖全有了。
還能根據新的文字指令調整圖片:把貓換成狗。
同時也看得懂圖、有理解能力。
比如發一張圖給它,然後問摩托是什麽顔色?它能回答出是黑色。
如上,就是由 MSRA 資深研究人員們提出的視覺版 ChatGPT(Visual ChatGPT)。
通過給 ChatGPT 結合多種視覺模型,并利用一個提示管理器(Prompt Manager),他們成功讓 ChatGPT 可以處理各種視覺任務。
這項工作一發出來就火了,GitHub 攬星已超過 1.5k。
簡單總結一下,就是把 GPT 和 Dall-E 合并的感覺 ~
又懂文字又會畫圖……有人就說:
這不是終極 meme 圖制造機?
訣竅在于提示工程?
Visual ChatGPT,其實就是讓 ChatGPT 可以處理多模态信息。
但是從頭訓練一個多模态模型,工作量非常大。
研究人員想到可以在 ChatGPT 的基礎上,結合一些視覺模型。
而想要達到這一目的,關鍵需要一個中間站。
由此他們提出了提示管理器(Prompt Manager)的概念。
它的作用主要有 3 方面:
第一、明确告訴 ChatGPT,每個視覺模型的作用,并指定好輸入輸出格式。
第二、轉換不同的視覺信息,如将 PNG 圖像、深度圖像、掩碼矩陣等轉換爲語言格式,方便 ChatGPT 理解。
第三、處理視覺模型的曆史生成結果,以及不同模型的調用優先級、規避沖突等,讓 ChatGPT 能夠以叠代的方式接收視覺模型的生成内容,直到輸出用戶滿意的結果。
這樣一來,Visual ChatGPT 的工作流大概長這樣:
假如用戶輸入了一張圖,模型會先将内容發送給提示管理器,然後轉換成語言給 ChatGPT 判斷,當它發現這個問題不需要調用視覺模型,就會直接給出輸出(第一個回答)。
第二個問題時,ChatGPT 分析問題内容需要使用視覺模型,就會讓視覺模型開始執行,然後一直叠代,直到 ChatGPT 判斷不再需要調用視覺模型時,才會輸出結果。
論文介紹,Visual ChatGPT 中包含了 22 個不同的視覺模型。包括 Stable Diffusion、BLIP、pix2pix 等。
爲了驗證 Visual ChatGPT 的能力,他們還進行了大量零次試驗(zero-shot experiments)。
結果如開頭所示,Visual ChatGPT 具備很強的圖像理解能力。
可以一直按照人的需求不斷生成、修改圖片。
當然,研究人員也提到了這項工作目前還存在一些局限性。
比如生成結果的質量,主要取決于視覺模型的性能。
以及使用大量的提示工程,會一定程度上影響生成結果的速度。而且還可能同時調用多個模型,也會影響實時性。
最後,在輸入圖片的隐私安全上,還需要做進一步升級保護。
MSRA 老将出馬
本項研究成果來自微軟亞洲研究院的團隊。
通訊作者是段楠。
他是 MSRA 首席研究員,自然語言計算組研究經理,中國科學技術大學兼職博導,天津大學兼職教授,CCF 傑出會員。
主要從事自然語言處理、代碼智能、多模态智能、機器推理等研究。
2006 年加入 MSRA,任職已超 16 年。
第一作者Chenfei Wu,同樣是一位資深研究人員了。
據領英資料顯示,他于 2012 年加入微軟,任職 11 年,目前是一位軟件工程師。
論文地址:
https://arxiv.org/abs/2303.04671
參考鏈接:
https://twitter.com/_akhaliq/status/1633642479869198337