對話京東何曉冬：「多模态大模型」湧現之前，要先回答三個問題

在關于 ChatGPT 的讨論中，" 數據飛輪 " 被視爲是經 ChatGPT 所驗證的變革引擎，是大模型智能飛躍中的關鍵一環：向用戶開放模型，建立用戶真實數據反饋與模型叠代間的飛輪，用戶反饋數據越多，模型的叠代速度也越快。

但很少有人知道，這一路線早在七年前，何曉冬與他當時所在的微軟雷德蒙德研究院深度學習技術中心的團隊同事就已經走過。

那是在 2016 年 3 月，納德拉（微軟 CEO）帶着一個名爲 CaptionBot 的 AI 應用産品亮相微軟 Build 大會，CaptionBot 跟全球用戶見面僅一星期，用戶量就突破百萬。

同樣是先有一篇論文，在技術上取得突破，再推出一個産品讓用戶參與使用，但過去的 CaptionBot 最終沒能成爲今天的 ChatGPT。在接受 AI 科技評論的采訪時，何曉冬表達了自己的遺憾。

新機遇在七年後的大模型時代再次到來。

在過去五年的 CVPR 發表論文排序中，排名前二十的論文裏，與多模态研究相關的工作僅一篇。這個工作由何曉冬帶領團隊完成，論文所提出的 "Bottom-up and top-down attention" 注意力機制，用于跨模态的語言和圖像信息在語義層次的對齊研究，單篇引用量已超過 4000 次。

Sam Altman 在談及 AGI 的前景中，提出了必須要共同進化，才能達到通用智能，實現通用智能的要素之一，正是語言大模型令人們爲之着迷的 " 湧現 " 時刻。多模态的 " 湧現 " 暫未出現，何曉冬認爲，在多模态大模型的技術探索路線中必須回答三個問題，首先就是決定在哪個層次做多模态信息的融合。

何曉冬給出的答案是，在語義層次的對齊、融合。

而在技術之外，ChatGPT 爲人稱道的 " 極緻工程化 "，将産品在變革中所扮演的角色推向了一個新的高度。

正如七年前 CaptionBot 第一次邁進的 " 河 "、以及 ChatGPT 第二次踏進 " 同一條河 "，何曉冬相信多模态大模型也會按照同樣的方式，先取得突破性的技術革命、發布一個粗糙但可用的産品、真正走入用戶。" 産品和技術研究、技術創新不分家，不管多粗糙、首先第一步是先用起來。"

大模型會帶來 AI 技術的普惠，而不是加劇技術鴻溝。當大模型具備了信息壓縮、知識網絡構建、邏輯判斷與推理等良好能力之後，下一個台階的踏步高度就會降低。此時，産業受益之處就體現出來了，産業利潤低窪地的企業，以及供應鏈上地位低的中小企業都有機會用上 " 大模型 "。如此一來，不僅不會加大數字和技術鴻溝，還會産生普惠價值。

何曉冬在西雅圖華盛頓湖

做多模态大模型要回答的三個問題

AI 科技評論：2020 年的 GAIR 大會上，您就談到多模态大模型的願景。今年 3 月 GPT-4 發布，果然是多模态大模型。您能率先預見多模态的趨勢，是否有過往研究經曆的背書？

何曉冬：我是 2014 年最早開始做多模态 AI 的那批人之一。

多模态有它的曆史。在深度學習之前，多模态有過一些工作，但整體都比較粗糙。語言和視覺信号的處理方式不同，以前 " 生搬硬湊 " 放在一塊做出來的效果并不好，例如一個簡單 " 看圖說話 " 的應用，把一張視覺圖片用語言描述出來，深度學習前采用的方法是，先做一些物體識别，得到相應的關鍵詞，再把詞拼成一個句子。在這個過程中，由于這些圖像是以一個像素、語言以一個詞的形式存在，難以将語言和圖像對應起來。

真正開始突破是在 2014 年，微軟發布了一個名爲 MS COCO 的數據集。跟 ImageNet 不一樣，ImageNet 用作識别，圖片主要以單個物體的形式存在，例如一個茶壺、一隻小貓，内容太複雜容易出現歧義，增加識别難度。而 MS COCO 則相反，一開始就是瞄準了視覺信号在語義層次的描述，因此數據集中的物體更豐富，同時也會在标注時讓人用一句話來描述内容。

于是在 2014 年的時候，我開始想如何把語義實現跨模态理解。舉個例子，當我們看到一個茶壺、以及 " 茶壺 " 這個詞時，在我們的腦海中反映的是同一個意思，以概念的形式存在，因此我們認爲，或許可以語義層次嘗試和完成多模态智能的統一。

巧合的是，2013 年，我們曾發表過一篇深度結構化語義模型 DSSM（Deep Structured Semantic Models）的工作。當初這個工作發布時隻針對單一模态、即語言，跨模态的想法出現後，這項工作也從 2014 年開始、被我們用在做語言加視覺的語義對齊建模，提出了語言 - 視覺深度多模态語義模型（DMSM）。

這項工作發表在 CVPR 2015，同時我們也參加了 2015 年的 MS COCO 圖像字幕生成挑戰賽，比賽時給出一張圖片，由 AI 模型去生成對應的語義描述（圖生文），最後讓人當裁判來判斷描述是否準确，就像做圖靈測試一樣。最後我們的模型得到那場比賽的第一名，與谷歌并列第一，這也是真正意義上第一次把多模态這件事比較成功地做起來了。

因此，多模态智能可以追溯到 2014 年，我的研究方向也在這個過程中向多模态轉移，從原本隻做 NLP 、又往視覺的方向進一步擴展。

期間我們數次想将其做成一個産品，到 2016 年年初這個想法得以實現，我們推出了一個名爲 CaptionBot 的 AI 産品。

何曉冬團隊在給納德拉等展示 CaptionBot

像今天的 ChatGPT 一樣，CaptionBot 也是一個使用很簡單的産品，通過下載 APP，使用手機拍照後，CaptionBot 可以精準對照片内容進行文字描述。納德拉在微軟 Build 大會上發布後，僅一星期用戶量就突破百萬。

CaptionBot 應用相關報道

在 Build 大會上發布後，我去矽谷參加英偉達的 GTC 大會時，老黃（黃仁勳）也對 CaptionBot 很感興趣，還當場測試了一張。

"Jen-Hsun Huang, Xiaodong He, Jian Sun et al., that are posing for a picture" — By CaptionBot

2017 年初，在 CaptionBot 發布了一年之後，基于期間用戶使用的交互反饋，我們進一步提升了它的技術水平，并把這個産品集成進了 Office 産品家族當中去。Office 是微軟公司最重要的産品線之一，這也意味着這個 AI 應用的效果達到了一個新的水準。

而技術研究還在進步，在多模态大模型研究中，一個重要的基石就在于如何讓語言和視覺信号進行融合和對齊。在 2018 年，受人類的視覺注意力機制啓發，我們進一步提出了一個新的多模态注意力機制 "Bottom-up and top-down attention"，爲語言和圖像信息在語義層次的對齊提出了一個基本框架，某種意義上也奠定了跨模态信息處理的基礎。（截至發稿前，該論文的引用次數已超過 4128 次。）

AI 科技評論：是什麽令您在當時就感知到，多模态會是一個好的方向？

何曉冬：這個原因很樸素。以前我們經常說想做 AGI（通用人工智能），而 AGI 的一個模闆就是人本身。

人的智能行爲是多模态的，比如說我們面對面聊天時、不會是閉着眼睛聊，視覺和語言是對應的。因此，真正的通用人工智能一定是多模态的。隻是以前局限于技術能力不足，單模态都處理不好，多模态就不處理了。

AI 科技評論：相比語言大模型（單一模态），多模态大模型的研究難度是否會更高？

何曉冬：會比較難做。在每一個層次，多模态都會比單模态更挑戰，進入大模型時代，多模态大模型肯定會比單模态大模型更挑戰。

當初我們雖然做多模态模型，但相對來說模型規模偏小，沒有做到現在的單模态大語言模型那麽大的規模。那時候有個一億參數就覺得好像不錯了，到現在都是百億、千億的參數。但我們也看到，今天做大模型相比當年做大模型，更挑戰的同時，合作也更加容易、視野更加開闊了。

AI 科技評論：從技術角度來看，主要難在什麽地方？

何曉冬：多模态做大模型的話，有幾個技術難點跟大家探讨。

第一個問題是，在哪個層次上、做多模态大模型的目的是什麽？

這個目的并非是令語言模型可以具備多模态功能，如果僅出于這一目的，我們可以通過簡單調用另一個模型實現。例如跟一個語言模型說幫我畫畫，那麽它可以調 Midjourney 把圖像畫出來，這種屬于比較淺層的多模态。從任務層次上看，好像可以完成很多任務，但在模型層次上，二者是分開、割裂的模型，也無法看到多模态級别的智能湧現。

大模型之所以火，不是因爲它大，而是因爲看到了它的湧現。此前的機器學習算法，往往是模型規模變大後、邊際效果提升越來越小，但現在人們發現，模型大小過千億後，它的邊際效益是遞增的，突然間效果就上去了，這被稱爲智能的 " 湧現 "，因此，湧現是大模型最令人着迷的地方。

當我們希望看到多模态層次的湧現時，意味着我們需要将模型在底層去進行語言和視覺的結合，隻有在最底層的結合才能出現湧現。也就是說，隻有這個模型是稠密的模型，才會出現湧現的情況。

所以第一個問題就是，大模型做多模态，如果目标是湧現，那必須要做稠密的多模态大模型。

第二個問題是，當模型變聰明時，是在哪一個層次開始變得聰明？

我們常說一圖勝千言，所以相對于 " 圖生文 "，" 文生圖 " 是一個更挑戰性的多模态任務。給機器一兩句話的描述，令其将圖形生成，需要機器發揮極大的想象空間。

例如用 " 文生圖 " 模型畫一隻鳥，面對粗略的描述，AI 可以進行自動細節補充，并且不僅是全局對得上，局部也要對得上。難點在于，原始視覺信号隻是像素點，而語言信号最原始就是一個單詞、一個字符，二者難以對齊，層次也不一樣，所以要找到一個合适的層次，把多模态信息得以對齊。現在看起來，如果多模态模型要變得聰明，将會出現在語義層次。這個文字驅動視覺内容生成的工作我們在 2017 年底微軟的 " 颠覆性技術展望 "（Disruptive Technology Review）會上也給納德拉及管理層做了專題報告。

2017 年何曉冬及同事用 " 文生圖 " AttnGAN 生成的小鳥

AI 科技評論：語言模型堆參數的殺傷力是智能湧現，那麽，在多模态大模型中，堆參數的意義是什麽？在多模态裏，大模型比小模型強在哪？

何曉冬：參數也很關鍵，我覺得很可能需要多種規模參數的模型。

當我們回答 " 做什麽模型 " 的第一個問題後，如果你希望做個能湧現的模型，那麽就必須是一個稠密的大模型。

第二個問題是在哪個層次的多模态融合？視覺和語言二者層次不一樣，所以要找到一個合适的層次，把多模态信息得以對齊，再期望它能夠湧現。現在看起來可能會出現在語義層次，但具體怎麽樣，還需要探索。

到第三個問題，就是模型結構和模型大小。

大模型的定義還是很虛的。比如什麽叫 " 大 "？千億大了，那百億算不算大，如果是在三年前，一個十億參數的模型也能叫 " 大 "。

由于視覺信号也是複雜的，因此我認爲多模态的模型大小還需要進一步增加。

這幾個問題有些是正在做的，有些可能還在探索。

GPT-4 的創新是對話，還不在多模态

AI 科技評論：從 GPT-3 到 GPT-4，GPT-4 比 GPT-3 強在哪裏？其多模态的技術底層有哪些創新？

何曉冬：我認爲 GPT-4 相比 GPT-3 ，最大的創新其實在于對話，還沒有在多模态層次。

GPT-4 在語言模型上、在知識上做得更深了。有人對比過，例如面對同樣的問題，GPT-4 的正确率比 GPT-3.5 要好很多，GPT-3 的效果則差得更遠，因爲 GPT-3 并不具備對話能力，隻有生成，對問題各方面的感知、意圖理解等做得并不好。現在 GPT-4 已經可以直接詢問多個問題，且通過多輪對話、它得以持續記住過去的曆史。

AI 科技評論：目前業内說 " 多模态大模型 "，主要講語音、文本與圖像三種模态。但目前來說，是否主要是文本與圖像兩種模态的大模型？

何曉冬：語音也有。我們在 2020 年曾在 IEEE JSTSP 辦過一個多模态的智能專刊，除了我們自己做的一個綜述外，還請到了業界的比較資深、前沿的學者進行投稿，其中就包括了語音到圖像、語音聲調等等，因爲語音不光隻是文字語音，還覆蓋聲調、語氣等信息。但不可否認的是，至少在早年，多模态确實是一個不那麽熱門的話題，一方面是由于技術難度比較大，另一方面與天然的領域問題有關，更多學者還是專注在一個領域上做研究，跨領域的比較少。

專刊鏈接：https://ieeexplore.ieee.org/document/9126279

AI 科技評論：此前有研究表明，在單一英語數據集上訓練的語言模型，雖然沒有經過其他語種的訓練，但在執行其他語言（如中文、日語）的任務時性能也有提升。那麽，在多模态裏，一種模态的性能飛躍，是否會對其他模态的智能水平也有所提升？例如，語言模态的進步，對語音、圖像的智能有影響嗎？

何曉冬：這是有可能的。現在隻是語言模态的飛躍實現了，視覺還沒有完全起來，因此，一個模态帶動各種模态湧現，這也是大家在探索的方向。

舉個例子，現在大家拿 " 視覺 + 語言 " 來做，一方面是因爲這部分數據比較多，另一方面則是因爲視覺和語言最重要。因此，如果這個方向的探索能夠成功，最終不僅是視覺和語言，更是能提供很多洞察——怎樣做跨模态、多模态的湧現。比如說會不會用 Transformer 架構也是一個未知數，不一定用 Transformer，但也可能跟 Transformer 相關。隻是現在還沒看到，需要等待最後出來的是什麽，但基礎性的工作已經在探索了。

AI 科技評論：在未來的多模态大模型中，是否會存在一種模态占主宰地位、其他模态占附庸地位？如文生圖，現在是文字主導，而後生成圖像。

何曉冬：從技術角度來說，不存在說誰主導誰附庸。比如說 " 文生圖 " 和 " 圖生文 "，我們如何判斷這當中是文字比圖像重要、還是圖像比文字重要？因爲都很重要。

當然，有的人會認爲，在圖像或者語音識别是感知層面的智能，" 感知智能 " 比較基礎，因此被視爲是比較低端的智能，很多動物也具備感知智能。但在語言層面，一般認爲其是 " 認知智能 "，因爲文字更體現人具備的高級的智能，這也是圖靈所提出的，要通過對話、而不是識别圖片的方式，來判斷機器是否具有智能。

總體而言，或許文字可能更深奧一些，但也隻能稱爲從基礎智能到高層智能，并不能說哪個模态要比哪個模态更重要。

多模态的 "ChatGPT 時刻 " 需要産品

AI 科技評論：您之前說過一點，讓我們印象特别深刻：ChatGPT 的啓示是 " 産品形态驅動技術研究 "。那麽，目前主流的多模态應用有哪些？

何曉冬：應用比較多的是在數字人、數字員工等，數字人天然是個多模态的應用。

AI 科技評論：追逐的過程中，更多是技術上的飛躍，還是産品上的創新？

何曉冬：應用的形式一般不會讓你感覺特别稀奇，但應用的效果會讓你感覺到驚豔。

在人工智能領域，形态創新并不重要，基礎形态既定，如人機對話、文生圖、文生視頻等這些基礎形态大家很早就暢想過，問題在于效果達不到，有一天效果達到了、才是一個大的飛躍。比如在人機對話這個基礎形态上，可以做導購、推薦、營銷、客服、助理等等，這些則被稱作衍生形态。但如果基礎形态效果不到位，衍生形态更加不到位。

ChatGPT 也一樣，人機對話這件事并不新鮮，大家之所以對 ChatGPT 覺得驚豔，它的效果是有目共睹的。

同理，今天我們去考慮多模态的應用意義并不大，因爲多模态大模型的湧現還未實現，當多模态可用深度理解意圖，随時可控地對視覺、語言等各方面信息做融合，基礎形态實現了，更多衍生形态自然會出現。

AI 科技評論：前面我們談到了它（多模态大模型）在技術角度的難度，從産品方向來看，目前落地的難度在哪裏？

何曉冬：主要在多模态大模型它的可控性上，特别是對細節的理解和可控。這一塊是我認爲比較重要的。

比如 Midjourney 畫圖，雖然比自己畫的要好，可能整體表現很好，但在刻畫手指等細節上還不夠好，往往需要生成很多張、從當中挑出一張，還是有這個過程。

再舉個例子，現在大家所說的 Prompt，在我看來這正是一個 bug、或者說它不足的地方，是技術還有缺陷的一個體現，就是因爲模型對語言的理解還不夠好，因此才需要人去練 " 咒語 "，随着技術進步，練 " 咒語 " 這件事情将不存在。

AI 科技評論：現有的産品，對于多模态大模型的進步是否有 ChatGPT " 模型 - 用戶數據 - 模型叠代 - 用戶數據 " 的飛輪式叠代？

何曉冬：這個方式是對的，并且我也認爲，下一個多模态大模型可能還是會按照這樣的方式。

首先，在技術上能看到一個突破性的革命，其次在産品形态上會有一個可用的産品發布出來，真正地走入公衆，隻有走到 Public，這個數據才真正得以解放。這部分的數據并非花錢标注就可以得到，标注隻是第二步的。我們所說的數據往往包括原始數據和數據标注，标注可通過找人、花錢就可以把這件事完成，真正困難的是原始數據的獲得。隻有讓大家一起用、才能實現真實可靠的原始數據獲取。一個術語，就叫做數據的均衡采樣。将整個地球的所有用戶和用戶活動視爲一個空間，當你希望你的模型可以服務這麽多人，那麽相對應的數據也需要對目标用戶空間比較均衡的采樣。爲了做到這一點，最好辦法就是先發布一個變革性的産品、讓全部人一起使用它。

AI 科技評論：這個範式在 2016 年您和團隊做 CaptionBot 時就已經曆過了，爲什麽當時 CaptionBot 沒能成爲今天的 ChatGPT ？

何曉冬：我們其實走的過程其實特别像 ChatGPT：最開始有篇論文發表在 2015 年，緊接着 2016 年初做成一個公衆可用的産品，把它發布出來。

由于論文往往是在一個有局限的學術數據裏，規模、覆蓋各方面比較局限性，通用性存在不足，如果希望它能夠走得更遠，最好的辦法就是把它做成一個新的形态、打造一個産品，對全世界通用，從學術中僅靠一些學生去收集、标注數據，轉變爲全球百萬級、千萬級的用戶成爲數據反饋的人。這産品可能很粗糙，正如當初我們的 CaptionBot 隻是一個 APP，今天的 ChatGPT 也很粗糙、隻是一個對話框，但是粗糙沒關系，隻要大家覺得真的有意思、有用，很快就能形成爆品。通過用戶使用的數據可以用于進一步提升算法、模型，随之進入第三個階段、即嚴肅的産品使用階段。

這 " 三步走 " 我們在七年前已經走過，但當初走得有點慢，最終沒能夠做到一定的服務規模，是今天我感覺有點遺憾的地方。現在微軟快多了，像去年底 ChatGPT 出來，到現在才半年，GPT 已經全面進入微軟各大核心産品線。

其實這次 OpenAI 展現出來的一個新趨勢，即是産品和技術研究、技術創新是不分家的。産品的定義是，讓普通大衆可以直接使用的，首先第一步是先用起來。在這個層面上來說，AlphaGo 不是一個産品，而 ChatGPT 是。

AI 科技評論：一個不得不直視的現實是，即使在語言大模型上，中國的多個大模型産品的智能水平跟國外也仍有一定差距。國内語言大模型的研究局限性，能否給多模态大模型的研究新征程帶來啓發？

何曉冬：在跟用戶溝通交流中學習智能。這也是爲什麽我們對 ChatGPT 會看得更深一點。

ChatGPT 确實很厲害，但它的厲害之處在于它的廣度上，它的深度其實并不夠。例如金融領域的一些項目，就無法直接使用 ChatGPT 來解決問題，需要與具體的金融知識等行業 Know-How 相結合，同時還要經過實戰磨練。

比如對話可以分爲合作性對話和對抗性對話，其中，合作性對話指用戶願意配合完成的對話，例如客服等。而對抗性對話則包括了談判等存在一定博弈與對立的内容。而越高價值的對話，往往博弈性越強，對機器智能要求也越高，這都是在技術與實際場景結合中所得到的認知和經驗。

今天的 ChatGPT 已經不再考慮圖靈測試，它甚至會告訴你：" 我是個語言模型，你有什麽要問的？" 它不需要欺騙人，因爲它知道即便我是一個機器、你也會跟我對話，這就是技術進步的一個重要體現，也是其開始變成生産力的一個重要體現。

多模态大模型的研究需要離落地更近，我認爲，這對科學而言是一種促進、而非限制。計算機作爲典型的應用科學，很多重要的課題是在應用中被反向牽引，因爲大量的應用需求，從而促生更多變量和經驗體系的發展。

AI 科技評論：對比多模态研究的早期階段，現在的多模态大模型有哪些革命性的進步？

何曉冬：以數字人爲例，它的突破是很大的。回到 2014 年，當時的數字人幾乎不可用，到近兩年才真正可用，當中關于數字人形象生成控制，包括形象層和語言層的對齊等方面，都離不開多模态技術的參與。

但多模态大模型的 ChatGPT 時刻還沒到來，可能還需要點時間，或者需要更多的數據、創新的算法，暫時還沒有爆發。

AI 科技評論：如果說 ChatGPT 可能已經是語言大模型的 AGI 終極形态，那麽多模态大模型的 AGI 産品形态應該是什麽樣的？您對多模态的研究設想是怎樣的？

何曉冬：回到本源，當我們說通用人工智能時，往往是以人爲标杆的，我們也希望所有的産品是爲人而服務的，在未來所有的 AGI 藍圖裏，人是一個核心存在。我們永遠不希望看到人被邊緣化，如果人被邊緣化，那麽這個世界對人類沒意義。

因此，多模态既是一個路徑，也是一個要求。

一個路徑是指，人被視爲這個世界上最聰明的智能體，如果想打造一個像人一樣聰明的 AGI ，就需要向人學習，通過多模态方式來進行知識融合、知識獲取，這是讓機器走向 AGI 的必經之路。

另一方面，多模态可能也是個要求。未來人跟機器打交道時，必然是通過語言、視覺、語音跟機器進行溝通的，所以機器也必須能夠理解相應的信息，否則機器就無法服務人。

因此，多模态既是 AGI 的必經之路，或許也是對 AGI 的一個要求。

（雷峰網雷峰網）