就在前不久, GPT-4 悄悄上了一波更新。
可能有朋友已經在一些社交媒體平台上刷到過了,類似讓 ChatGPT 模仿渣男說話的視頻。
一開口,那氣泡音,那一口獨特的 ABC 腔調,不知道的還以爲手機裏的是吳彥祖呢。
而除了用語音和 ChatGPT 交流以外,最新升級的 GPT-4V 在圖像上也玩兒得賊溜。
微軟還專門發布了個 166 頁的 " GPT-4V 使用指南 " ,主打的就是一個手把手教你玩轉 GPT-4V 。
内容雖然長,但總結下來其實也就一個點:GPT-4V 在圖像識别、理解和推理等等方面的能力,很強。
所以差評君也參考了下 " 教材 " ,和 GPT-4V 來了一場開卷考試。
别的不說,最基礎的圖像識别,肯定不能出岔子吧。
先來道小學生都會做的題,看圖識物。
AI 的回答還真挺像那麽回事兒,分辨出了差評君摸魚位上的不少玩意兒。
不過,這對于 GPT-4V 而言确實是沒啥難度,接着我又找來了一張桂林漓江的風景照。
這張圖裏不是山就是水,有山有水的地方多了去了,難不成光靠這些 GPT 就能認出這是哪?
可沒想到,差評君還真被打臉了。。。
知道這是桂林不說,漓江也被這小子給認出來了。
但畢竟桂林山水甲天下,被認出來或許也不足爲奇,于是乎,差評君又搬出了一個令無數男子面紅耳赤、欲罷不能的女人——老幹媽。
不過沒想到, AI 立馬給大家上了一波 AI 圈的倫理道德課。
" 不好意思,圖片有真人的圖片,我 AI 分析不了。 "
emmm 隻能說,這問題确實是我不懂規矩了。
而在差評君給老幹媽打了碼之後, GPT-4 立馬就給大夥們展示了一波真正的實力。
AI 不僅認出了老幹媽,還簡單介紹了這個品牌。
而根據微軟所提供的 " 說明書 " 的介紹,識圖隻是冰山一角, GPT-4V 在圖片的理解能力上也是杠杠滴。
于是差評君立馬在 " 老幹媽 " 上趁熱打鐵,問了個頗有難度的問題: " 如果我把蓋子順時針旋轉,會發生啥? "
說實話, GPT-4V 的回答把我給震住了。
很明顯 AI 讀懂了瓶蓋上的英文和箭頭方向,并理解了逆時針才能打開瓶蓋,順時針隻能越擰越緊的邏輯。
看來這 GPT-4V 還真有兩把刷子。
那要不,咱再上難度看看?
按照微軟那篇論文裏的說法, GPT-4V 對于一些 X 光和病理報告,也展現出了驚人的理解能力。
這張圖片,就是一個手部骨折患者的 X 光,咱讓 AI 也來當一回醫生看看到底行不行。
你瞅瞅,它不僅能給你說出骨骼結構,還告訴你哪個位置有斷裂和位移。
但好歹醫學也是門檻比較高的一個領域,于是差評君在咨詢了醫生朋友後發現, GPT-4V 小小地翻車了。
這張 X 光影像的上半部分,并不是像 AI 所說的正常骨骼結構,而是骨折畸形愈合。
接着,我又把一張智齒的片子發給了它。
噼裏啪啦一頓分析,這下倒是對了,你要說 AI 沒有點基礎口腔醫學知識在身上,我是不相信的。
不過,當我再給了它一張患有間質性肺炎的 CT 圖時,它非常明确地拒絕了我的請求。
既然不給咱看病,那就再換個思路,讓 GPT-4V 解釋解釋一些網絡爛梗。
比如這張經典的 " 二百五 " ( 伍佰的一半 )。
明眼人一看,就能 Get 到這張圖的笑點在哪。
有意思的是,一開始的時候 GPT-4V 并沒有馬上反應過來。
但隻要稍微提點一下 " 伍佰的諧音梗 " ,結果就不一樣了。
差評君差點淚目,因爲上次谷歌的 Bard 更新圖像功能的時候,我也用這張圖試了一下,但并沒有得到想要的結果。
現在終于有一個 AI 能接住這個梗了,隻能說,不愧是 OpenAI 好吧。
這麽測下來,差評君是覺着 GPT-4V 在圖像的識别和理解上都沒啥太大毛病,就是不知道邏輯推理能力抗不抗造了。
所以差評君又變着法子測試了一波 GPT-4V 的圖像推理能力。
照例還是先來個簡單的,看圖猜時間。
雖然沒有準确地推出這是黃昏時刻,但從它的分析來看,也算是有理有據。
更離譜的,你還能讓 GPT-4V 用兩張圖片來寫故事。
像這樣。
真就,開局一張圖,後面全靠 AI 編呗。
但正當我以爲這次 GPT-4V 真的已經爆殺一切的時候,一道公務員行測題又給打回了原形。
大夥兒也可以看看這題,正确答案是 D 。
但 AI 給出的答案是 B ,而且分析也是一言難盡。
邏輯在哪裏?規律又在哪裏?
按照參考答案的解法,九宮格從橫向來看,比如第一行裏第一格圖形的對稱軸加上第二格的對稱軸應該等于第三格,題目圍繞着對稱軸數量來解。
看來, AI 想要考編也是夠嗆的。。。
不僅如此,在後邊兒測試的過程中,差評君也發現了不少 GPT-4V 的 Bug 。
像找茬這種比較簡單的,它都能給你把灰太狼的肚子說成是腳。
還是後來在我不斷地 " 逼問 " 之下, GPT-4V 才勉爲其難地答出了四處不同,而且還是沒答全。
林青霞演的《 新蜀山劍俠 》生生被說成是《 霸王别姬 》。
這是不是《 霸王别姬 》都不追究了,但我尋思段小樓那也不是張國榮演的啊( 是張豐毅演的 )。。。
反正這場考試下來,差評君覺着 GPT-4V 的表現差不多能打個 85 分吧。
雖然小毛病多,但不可否認這次的 GPT-4V 一出來,還是保持了 OpenAI 一貫 " 遙遙領先 " 的作風。
在微軟的論文裏,其實還提到了 GPT-4V 得很多能力,比如對圖片裏的人物進行标注、對一系列圖片進行順序排列、根據圖片中人物的狀态來預測接下來會發生的事情 ......
但我們在這兒就不一一測試了,因爲很多涉及到真人的圖片, GPT-4V 壓根兒就不理我,說破嘴皮子, AI 還是雷打不動地 " Sorry , I cannot help with that " 。
所以我合理懷疑,微軟用來測試的 GPT-4V 很可能是内部測試版本。。。
要是咱們也能拿到内測版,估摸着這次測試還能開發出更多好玩兒的東西。
不過坦白講,這次的 GPT-4V 已經給我帶來很大的震撼了,以前的 ChatGPT 強,但隻是單一維度的強,現在的 GPT-4V 是文本、語音和圖像多維度的強。
而在 GPT-4V 發布不久,開源多模态大模型 LLaVA 也趕忙推出了 LLaVA-1.5 升級版,同樣可以處理視覺任務,而且還号稱直接跟 GPT-4V 對标。
差評君覺着,在接下來的小半年裏,各家大模型升級的方向圍繞着多模态卷應該是八九不離十了。
不過,多模态大模型要想迅速鋪開或許沒那麽容易。
一個是跨模态之間的對齊問題。
打個比方,文本上的 " 一條狗 " 要和圖像上的 " 一條狗 " 對應上,難就難在,圖像的像素點要如何轉化成文字,而這還僅僅是圖像和文本兩種模态之間的轉化。
現階段的 AI 雖然看起來厲害,但無論是對于業界還是學界,模态與模态之間的轉化對齊都是一個值得長期研究的課題。
如果對齊的問題處理不好,即使大模型的知識儲備再豐富,那也是白搭。
另外一個,就是幻覺問題。
你可以把幻覺理解成,大模型在一本正經地胡說八道。
就比如,上邊兒咱們測試時, GPT-4V 硬生生地把林青霞看成了張國榮,而且在我質疑它之後,它雖然認錯了,但還是沒改過來。。。
而差評君覺得幻覺問題無法解決的話, AI 距離真正的指數級生産力提升,總還是差那麽幾條街。
不過,這次的 GPT-4V 總歸也是 AI 邁向下一個戰場的開始。
更何況, GPT-4V 其實早在去年就已經訓練好了,今年 3 月還開啓過一波早期内測。
所以指不定, OpenAI 還藏着什麽驚喜是我們不知道的呢。
而從 ChatGPT 發布到今天的短短一年時間裏, AI 就已經帶給我們不少驚喜了,咱們也可以期待下之後 AI 還會帶來哪些 " 王炸 " 更新。