“梗王”大模型，靠講笑話登上CVPR

誰能想到，隻是讓大模型講笑話，論文竟入選了頂會CVPR！

沒開玩笑，這還真真兒的是一項正兒八經的研究。

例如看下面這張圖，如果讓你根據它來講個笑話或梗，你會想到什麽？

現在的大模型看完後會說：

腦子短路。

再看一眼 蜘蛛俠 的海報，大模型會配一句" 剛擦的玻璃不能弄髒 "。

李雲龍 、 奧本海默 也被玩得飛起：

導師讀了我的論文之後……

真男人不回頭看爆炸。

還有醬紫的：

不得不說，大模型這腦洞還是挺大的。

這項研究正是來自中山大學 HCP 實驗室林倞教授團隊、Sea AI Lab 和哈佛大學等單位，主打的就是打破常規思維思考（Think Outside the Box），探索多模态大模型的創造力。

要知道，同樣的圖要是 " 喂 " 給 ChatGPT（GPT-4）等主流大模型，讓它們講笑話或梗，畫風可并非如此：

太正經了！So boring~~~~

那麽中山大學等單位的這個" 梗王大模型 "，是怎麽煉成的呢？

先讓大模型看搞笑的數據

在數據的選擇上，團隊 pick 的是來自日本的" 大喜利 "（Oogiri）創新響應遊戲。

" 大喜利 " 本來是指一系列日本傳統戲劇遊戲，随着時代的快速發展。現代的 " 大喜利 "，目前一般是指一種叫 Tonchi （頓智）的遊戲，通常以遊戲節目或智力問答節目的形式呈現。

玩家被提供各種多模态内容，可以是簡單的問題、随機圖像等，然後提示玩家想出幽默的、有創意的反應，以達到令人驚訝的喜劇效果。

例如下面這個 " 圖文到文 " 的例子：

玩家要求閱讀圖像，和上面對應的文字，嘗試想出一段文字填入對應的問号 "?" 位置，使得整個圖文可以展示出幽默且有創意的效果。

在第一個例子中，老人向年輕人尋求幫助，從正常的思維來看，可能的填寫方式可以是 " 請問 xxx 路怎麽走？" 或者是 " 可以帶我回家嗎，我迷路了 " 之類的。

然而，所給出的 " 你…你能幫我解開手铐嗎？" 的寫法具有沖擊感、幽默感，且看起來确實是這麽一回事，讓人忍俊不禁。

再看下" 圖到文 "的例子：

玩家要求看圖配文，并使得圖文搭配起來具有幽默效果。

這張圖看起來是一個很普通的拖車的圖片（需要注意的是，在 " 大喜利 " 遊戲中，一般圖片都是很普通的日常圖片）。

配文 " 快讓開！我的兄弟傷得很嚴重 " 讓傾斜着身體 45 ° 向上的車看起來像是一個奄奄一息的車子；在道路上快速的馳騁也确實體現了位于下方的車很着急，急着送兄弟去醫院。

還有第三種 " 文到文 " 的例子：

玩家被要求根據所給的文字進行回複，使得回複和問題合在一起具備幽默感。

這個例子中的回複似乎在調侃程序員的日常工作主要就是代碼的 " 複制 + 黏貼 "（注：CV 工程師除了可以表示 computer vision 工程師也可以表示 ctrl+c/ctrl+v 工程師）。

這項工作主要關注的就是這三種類型的 " 大喜利 " 遊戲，相關數據Oogiri-GO 如下表所示，含中英日三種語言：

至于爲什麽要選擇 " 大喜利 " 這個遊戲，是因爲團隊認爲它是用于探索多模态大模型創新能力的理想平台。具體原因如下：

" 大喜利 " 遊戲是天然的創新響應任務。如上所提到的，現代 " 大喜利 " 也被稱爲 Tonchi ( 頓智 ) 。" 頓 " 在日文和中文中都表示 " 突然 "，而 " 智 " 的意思是 " 智力、洞察力或直覺 "，該遊戲天然地要求玩家給出令人眼前一亮、靈光一閃的創新響應；

" 大喜利 " 的數據格式是高度合适的。不管是 " 圖文到文 "、" 圖到文 " 還是 " 文到文 "，這些類型都天然地和目前多模特大模型的輸入輸出格式吻合，即輸入爲 " 圖文 "，輸出僅爲 " 文 "。

" 大喜利 " 數據質量高。創新是一件很難的事情，即使是人類，因此能作爲 " 創新 " 相關的數據集并不多。鑒于該遊戲長期在互聯網上非常活躍（在中文社區中，一般也叫日式神吐槽 / 冷吐槽），而且帶有大量點評數據，比如點贊數等等。正好積累了大量高質量人類創新幽默響應可以被用于研究。

再讓大模型打破常規思考

傳統的鏈式思考（Chain-of-Thought，CoT）方法是一種順序思考過程，通過逐步推理指導大模型進行邏輯推理，每個後續的思考都建立在前一個思考的基礎上：

這一思考過程一定程度上确保了精确性和嚴謹性，但對于創造性問題表現不佳。

因此，團隊探索了一種新的非順序、創造性思維範式——跳躍思維Leap-of-Thought（LoT）。

這種範式涉及到思考關聯性和知識跳躍。遠距離的思考也被認爲是聯想。

與 CoT 強調邏輯緊密的思維鏈不同，LoT 強調打破常規思維思考問題，激發模型的創造力。

基于此，團隊在 Oogiri-GO 數據集基礎之上，進一步提出了一套激發多模态大模型創造力的訓練方法CLoT。

具體而言，CLoT 包括兩個階段。

首先是關聯性指令微調。

在這一階段，本文設計生成式和判别式模闆，将 Oogiri-GO 數據集轉換爲指令微調的訓練數據，用于訓練多模态大模型，使得模型具備初步的創新響應能力。

其次是探索性自我調整。

在這一階段中，本文首先通過設計遠關聯的條件詞，促使（1）中的模型生成多樣化且與輸入遠關聯的回答，并設計篩選流程，獲得可靠的新 LoT 數據。随後，新數據被轉換成指令微調的訓練數據，用于進一步微調模型。

這一階段可以再細分爲兩個步驟：

探索性遠程關聯：這一步驟鼓勵 LLM 在給定的弱關聯條件下産生創新的回應。通過這種方式，LLM 學習在看似不相關的概念之間建立聯系，從而生成多樣化的創意内容。

自我精煉：在探索性遠程關聯的基礎上，通過設計一系列篩選流程，收集到的創意回應被用來進一步訓練 LLM。這樣做可以提高 LLM 在處理創造性任務時的表現，使其能夠生成更高質量和多樣性的内容。

性能評估

爲了盡可能全面評估 CLoT，這項研究基于 Oogiri-GO 數據集，設計了選擇題和排序題作爲量化評估方式。

實驗結果表明，CLoT 能夠顯著提高多模态大模型（如 Qwen 和 CogVLM）的性能，顯著超越包括 GPT4v 在内的先進模型。

另外，與其他先進推理框架 CoT 等相比，在各項量化指标下也是有顯著優勢的。

此外，研究團隊還通過用戶調查，證實了 CLoT 幫助模型生成了更好的幽默内容。

研究團隊還考慮到了 CLoT 的泛化性，用 " 看雲猜物 CGG" 和 " 發散思維測試 DAT" 兩個其他任務評估 CLoT 的性能，實驗結果顯示 CLoT 相對于基準模型具有更好的準确度，說明 CLoT 具備不錯的泛化能力。

DAT 是一種用于評估人類聯想創造能力的測試。

團隊介紹

中山大學人機物智能融合實驗室 ( HCP Lab ) 由林倞教授于 2010 年創辦，近年來在多模态内容理解、因果及認知推理、具身學習等方面取得豐富學術成果，數次獲得國内外科技獎項及最佳論文獎，并緻力于打造産品級的 AI 技術及平台。

論文：https://arxiv.org/abs/2312.02439

Project：https://zhongshsh.github.io/CLoT/

Code：https://github.com/sail-sg/CLoT