誰能想到,隻是讓大模型講笑話,論文竟入選了頂會CVPR!
沒開玩笑,這還真真兒的是一項正兒八經的研究。
例如看下面這張圖,如果讓你根據它來講個笑話或梗,你會想到什麽?
現在的大模型看完後會說:
腦子短路。
再看一眼 蜘蛛俠 的海報,大模型會配一句" 剛擦的玻璃不能弄髒 "。
李雲龍 、 奧本海默 也被玩得飛起:
導師讀了我的論文之後……
真男人不回頭看爆炸。
還有醬紫的:
不得不說,大模型這腦洞還是挺大的。
這項研究正是來自中山大學 HCP 實驗室林倞教授團隊、Sea AI Lab 和哈佛大學等單位,主打的就是打破常規思維思考(Think Outside the Box),探索多模态大模型的創造力。
要知道,同樣的圖要是 " 喂 " 給 ChatGPT(GPT-4)等主流大模型,讓它們講笑話或梗,畫風可并非如此:
太正經了!So boring~~~~
那麽中山大學等單位的這個" 梗王大模型 ",是怎麽煉成的呢?
先讓大模型看搞笑的數據
在數據的選擇上,團隊 pick 的是來自日本的" 大喜利 "(Oogiri)創新響應遊戲。
" 大喜利 " 本來是指一系列日本傳統戲劇遊戲,随着時代的快速發展。現代的 " 大喜利 ",目前一般是指一種叫 Tonchi (頓智)的遊戲,通常以遊戲節目或智力問答節目的形式呈現。
玩家被提供各種多模态内容,可以是簡單的問題、随機圖像等,然後提示玩家想出幽默的、有創意的反應,以達到令人驚訝的喜劇效果。
例如下面這個 " 圖文到文 " 的例子:
玩家要求閱讀圖像,和上面對應的文字,嘗試想出一段文字填入對應的問号 "?" 位置,使得整個圖文可以展示出幽默且有創意的效果。
在第一個例子中,老人向年輕人尋求幫助,從正常的思維來看,可能的填寫方式可以是 " 請問 xxx 路怎麽走?" 或者是 " 可以帶我回家嗎,我迷路了 " 之類的。
然而,所給出的 " 你…你能幫我解開手铐嗎?" 的寫法具有沖擊感、幽默感,且看起來确實是這麽一回事,讓人忍俊不禁。
再看下" 圖到文 "的例子:
玩家要求看圖配文,并使得圖文搭配起來具有幽默效果。
這張圖看起來是一個很普通的拖車的圖片(需要注意的是,在 " 大喜利 " 遊戲中,一般圖片都是很普通的日常圖片)。
配文 " 快讓開!我的兄弟傷得很嚴重 " 讓傾斜着身體 45 ° 向上的車看起來像是一個奄奄一息的車子;在道路上快速的馳騁也确實體現了位于下方的車很着急,急着送兄弟去醫院。
還有第三種 " 文到文 " 的例子:
玩家被要求根據所給的文字進行回複,使得回複和問題合在一起具備幽默感。
這個例子中的回複似乎在調侃程序員的日常工作主要就是代碼的 " 複制 + 黏貼 "(注:CV 工程師除了可以表示 computer vision 工程師也可以表示 ctrl+c/ctrl+v 工程師 )。
這項工作主要關注的就是這三種類型的 " 大喜利 " 遊戲,相關數據Oogiri-GO 如下表所示,含中英日三種語言:
至于爲什麽要選擇 " 大喜利 " 這個遊戲,是因爲團隊認爲它是用于探索多模态大模型創新能力的理想平台。具體原因如下:
" 大喜利 " 遊戲是天然的創新響應任務。如上所提到的,現代 " 大喜利 " 也被稱爲 Tonchi ( 頓智 ) 。" 頓 " 在日文和中文中都表示 " 突然 ",而 " 智 " 的意思是 " 智力、洞察力或直覺 ",該遊戲天然地要求玩家給出令人眼前一亮、靈光一閃的創新響應;
" 大喜利 " 的數據格式是高度合适的。不管是 " 圖文到文 "、" 圖到文 " 還是 " 文到文 ",這些類型都天然地和目前多模特大模型的輸入輸出格式吻合,即輸入爲 " 圖文 ",輸出僅爲 " 文 "。
" 大喜利 " 數據質量高。創新是一件很難的事情,即使是人類,因此能作爲 " 創新 " 相關的數據集并不多。鑒于該遊戲長期在互聯網上非常活躍(在中文社區中,一般也叫日式神吐槽 / 冷吐槽),而且帶有大量點評數據,比如點贊數等等。正好積累了大量高質量人類創新幽默響應可以被用于研究。
再讓大模型打破常規思考
傳統的鏈式思考(Chain-of-Thought,CoT)方法是一種順序思考過程,通過逐步推理指導大模型進行邏輯推理,每個後續的思考都建立在前一個思考的基礎上:
這一思考過程一定程度上确保了精确性和嚴謹性,但對于創造性問題表現不佳。
因此,團隊探索了一種新的非順序、創造性思維範式——跳躍思維Leap-of-Thought(LoT)。
這種範式涉及到思考關聯性和知識跳躍。遠距離的思考也被認爲是聯想。
與 CoT 強調邏輯緊密的思維鏈不同,LoT 強調打破常規思維思考問題,激發模型的創造力。
基于此,團隊在 Oogiri-GO 數據集基礎之上,進一步提出了一套激發多模态大模型創造力的訓練方法CLoT。
具體而言,CLoT 包括兩個階段。
首先是關聯性指令微調。
在這一階段,本文設計生成式和判别式模闆,将 Oogiri-GO 數據集轉換爲指令微調的訓練數據,用于訓練多模态大模型,使得模型具備初步的創新響應能力。
其次是探索性自我調整。
在這一階段中,本文首先通過設計遠關聯的條件詞,促使(1)中的模型生成多樣化且與輸入遠關聯的回答,并設計篩選流程,獲得可靠的新 LoT 數據。随後,新數據被轉換成指令微調的訓練數據,用于進一步微調模型。
這一階段可以再細分爲兩個步驟:
探索性遠程關聯:這一步驟鼓勵 LLM 在給定的弱關聯條件下産生創新的回應。通過這種方式,LLM 學習在看似不相關的概念之間建立聯系,從而生成多樣化的創意内容。
自我精煉:在探索性遠程關聯的基礎上,通過設計一系列篩選流程,收集到的創意回應被用來進一步訓練 LLM。這樣做可以提高 LLM 在處理創造性任務時的表現,使其能夠生成更高質量和多樣性的内容。
性能評估
爲了盡可能全面評估 CLoT,這項研究基于 Oogiri-GO 數據集,設計了選擇題和排序題作爲量化評估方式。
實驗結果表明,CLoT 能夠顯著提高多模态大模型(如 Qwen 和 CogVLM)的性能,顯著超越包括 GPT4v 在内的先進模型。
另外,與其他先進推理框架 CoT 等相比,在各項量化指标下也是有顯著優勢的。
此外,研究團隊還通過用戶調查,證實了 CLoT 幫助模型生成了更好的幽默内容。
研究團隊還考慮到了 CLoT 的泛化性,用 " 看雲猜物 CGG" 和 " 發散思維測試 DAT" 兩個其他任務評估 CLoT 的性能,實驗結果顯示 CLoT 相對于基準模型具有更好的準确度,說明 CLoT 具備不錯的泛化能力。
DAT 是一種用于評估人類聯想創造能力的測試。
團隊介紹
中山大學人機物智能融合實驗室 ( HCP Lab ) 由林倞教授于 2010 年創辦,近年來在多模态内容理解、因果及認知推理、具身學習等方面取得豐富學術成果,數次獲得國内外科技獎項及最佳論文獎,并緻力于打造産品級的 AI 技術及平台。
論文:https://arxiv.org/abs/2312.02439
Project:https://zhongshsh.github.io/CLoT/
Code:https://github.com/sail-sg/CLoT