作者 | 虞景霖
編輯 | 鄧詠儀 尚恩
國産多模态大模型開啓公測!
進口替代的潑天富貴也有咱們大模型的一份。
來源:公開網絡
就在前不久,阿裏宣布開源 Qwen-VL,一款支持中英文等多種語言的視覺語言大模型,這也是首個支持中文開放域定位的通用模型。
據官網說明,Qwen-VL 不僅支持圖像、文本和檢測框等輸入 / 輸出,還能對輸入的圖像進行細粒度視覺定位。
什麽是細粒度視覺定位?舉個簡單例子——要讓大模型不僅識别出圖像中的是一條狗,還要說出這是哪個品種,是薩摩耶還是哈士奇。
來源:Qwen-VL
現在 Qwen-VL 已直接開放可玩,隻要進入官網,完成簡單注冊就 ok。
官網鏈接:https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary
具體效果如何?通義千問主要從英文基準測試和試金石測試兩個角度對 Qwen-VL 進行測試。
結果顯示,Qwen-VL 在零樣本圖像描述、通用視覺問答等多個方面的測試中都獲得了 SOTA(state-of-the-art,指某個領域表現最好的)的結果。
簡單來說就是,超越了現階段幾乎所有國産多模态大模型。
除了 Qwen-VL,本次阿裏雲還開源 Qwen-VL-Chat。
Qwen-VL-Chat 是在 Qwen-VL 的基礎上,使用對齊機制打造的基于大語言模型的視覺 AI 助手,可讓開發者快速搭建具備多模态能力的對話應用。
圖文自由上傳,回答對話很絲滑
按照官方的說法,Qwen-VL 的體驗直接拉滿,那麽真正上手後究竟效果如何?實踐出真知——
我們主要從知識問答、圖像問答、文檔問答等場景對 Qwen-VL 的能力進行了測評,涵蓋常識問答、圖像識别、閱讀理解、文學創作、情感分析、信息提取等方面。
首先來看看 Qwen-VL 的知識問答能力,來一個最近火熱的話題:核污染水和核廢水有啥分别?
AI 看似回答了一大堆,實則就是繞彎子根本沒答到點子上。污染水和核廢水并非同一物質,前者經過處理後可以安全排出,後者則具有高放射性,對人體和環境危害嚴重。
這題答錯!
換一個曆史常識試試呢?
好像說的差不多,但也不能說它說的不對。
圖像問答能力如何呢?先來一個水果試試
Bingo!那它是否能對不同種類的水果進行準确定位呢?
也不能說不對,雖然圈出了香蕉和菠蘿,但還把石榴包括在了其中。
影視人物的識别又是否準确呢?看看 AI 認不認識咱的四字弟弟。
很可惜,Qwen-VL 又答錯了,四字弟應該是最右邊的那一位。
如果換成動畫人物會不會好一點?
這次終于對了,成功找到喜羊羊,還進行了補充信息說明,雖說附加信息中有些錯誤吧,但也值得鼓勵。
再來試試識别 " 曆史建築 ",回答準确!
但當我進一步詢問它們的曆史時,Qwe-VL 的表現摻雜錯誤信息,看來不是很經誇……
根據百度百科,羅馬鬥獸場始建于公元 72-79 年,長寬分别爲 188 米、156 米,圍牆高 57 米、内高 48 米。
埃菲爾鐵塔确實建成于 1889 年,但高度爲 330 米。
另外,從簡答數學題來看,Qwen-VL 似乎不能直接從圖片中提取題目信息。
接下來,當我們想上手測試下 Qwen-VL 的文檔信息回答能力時,發現并不支持直接上傳文檔,至少不支持 pdf、docx、txt 三種常見類型的。
因此,要想測試它的閱讀理解能力、總結概括能力和反事實推理能力,就隻能先複制文檔中的内容,再粘貼。
行吧!把我就先來看看閱讀理解能力,翻譯能力的測試,采用最常見的中英互譯。
呀,搞得不錯!反過來再試試呢?
你小子……算了下次不誇你了。再來看看文學創作能力,好像也比較一般。
總結概括能力如何?
然鵝,原答案是:曹雪芹塑造了衆多逼真的人物形象。
除了上面已經測過的這些,Qwen-VL 還些附加小能力,比如可以把文字内容直接生成表格。
好了,個人測評結束,來看看官方的測試結果咋說。
官方測評,拿到多個 SOTA
官方主要是從兩個角度評估 Qwen-VL 的能力,分别是 " 英文基準測試 " 和 " 試金石基準評估 "。
前者涵蓋了零樣本圖片描述、通用問答、文字相關問答和物體描述畫檢測框四個方面。後者則對多種類型的圖文對話進行了評估,并用人工标注描述的方法克服 GPT-4 不能讀取圖片的限制。
從測試結果來看,Qwen-VL 系列多模态大模型在 " 零樣本圖像描述、通用視覺問答、文本導向的視覺問答、視覺定位 " 這四個方面,幾乎都獲得了 SOTA 的結果,且均可百分百複現。
具體來說,在英文基準測試的 " 零樣本内容生成 " 中,Qwen-VL 在 Flickr30K 數據集上取得了 SOTA 的結果,并在 Nocaps 數據集上取得了和 InstructBlip 可競争的結果。
在 " 通用視覺問答 " 測試中,Qwen-VL 取得了 LVLM(Large Vision Language Model,大型視覺語言模型)模型同等量級和設定下 SOTA 的結果。
而在文字相關的是識别和問答測試中,Qwen-VL 表現出了超越當前規模下,通用視覺大語言模型的最好結果。
在定位任務上,Qwn-VL 同樣表現出色,全面超過 Shikra-13B,得了目前 Generalist LVLM 模型上在 Refcoco 上的 SOTA。
Qwen-VL 并沒有在任何中文定位數據上訓練過,但通過中文 Caption 數據和英文 Grounding 數據的訓練,可以零樣本泛化出中文 Grounding 能力。
技術細節上,Qwen-VL 是以 Qwen-7B 爲基座語言模型,在模型架構上引入了視覺編碼器 ViT,并通過位置感知的視覺語言适配器連接二者,使得模型支持視覺信号輸入。
具體的訓練過程分爲三步:
第一步 " 預訓練 ",隻優化視覺編碼器和視覺語言适配器,凍結語言模型。使用大規模圖像 - 文本配對數據,輸入圖像分辨率爲 224x224。
第二步 " 多任務預訓練 ",引入更高分辨率(448x448)的多任務視覺語言數據,如 VQA、文本 VQA、指稱理解等,進行多任務聯合預訓練。
第三步 " 監督微調 ",凍結視覺編碼器,優化語言模型和适配器。使用對話交互數據進行提示調優,得到最終的帶交互能力的 Qwen-VL-Chat 模型。
目前,Qwen-VL 及其視覺 AI 助手 Qwen-VL-Chat 均已上線 ModelScope(魔搭社區),開源、免費、可商用。用戶可從魔搭社區直接下載模型,也可通過阿裏雲靈積平台訪問調用,平台還爲用戶提供包括模型訓練、推理、部署、精調等在内的全方位服務。
多模态大模型混戰
國産大模型可謂眼花缭亂,文心一言、華爲盤古、360 智腦……你方唱罷我登場,一波接着又一波。在這場混戰的後期,可以發現——大模型廠商們不再滿足于基礎的文字語言大模型,正朝着多模态大模型的方向努力。
多模态大模型,可以說是大模型發展的必經之路,就在 8 月 28 日,面壁智能宣布多模态大模型 Luca2.0 正式開啓公測。
來源:Luca
操作同樣簡便,僅需登錄官網,用手機号驗證一下就能體驗了。巧的是,和 Qwen-VL 一樣,Luca 同樣隻有一個聊天界面。
但又有些許區别:登出後再次登錄依舊可以看到之前的對話内容,并且選擇重新生成回答之後仍然可以看到前幾次的回答。
顯然,可回看曆史回答這一功能是好的,但生成的内容也确實需要改進。
除了阿裏和面壁智能宣布公測的這兩個多模态大模型,字節、360 等企業也不甘落後。
字節開發的多模态大模型 MagicAvatar 支持将文本、視頻、音頻作爲輸入模式,通過将三者轉化爲運動信号,生成人類或者動畫形象。360 智腦則是由 360 集團開發的多模态大模型。根據負責人周鴻祎介紹,360 智腦已經具備文字、圖像、語音和視頻處理能力。
目前,MagicAvatar 和 360 智腦均暫不支持公測。
多模态大模型就像一頓豐盛的大餐,色香味接連上陣,文本、圖像、音 / 視頻等在餐桌上互相交融。
不過從測評結果也不難看出,現階段的公布的多模态大模型大多出自新手廚師——雖然才華橫溢,但難免在鹽和糖的用量上稍稍出入。