ChatGPT 的出現,徹底将生成 AI 推向爆發。
但别忘了,AI 生成模型可不止 ChatGPT 一個,光是基于文本輸入的就有 7 種——
圖像、視頻、代碼、3D 模型、音頻、文本、科學知識……
尤其 2022 年,效果好的 AI 生成模型層出不窮,又以 OpenAI、Meta、DeepMind 和谷歌等為核心,發了不少達到 SOTA 的模型。
這不,立刻有學者寫了篇論文,對 2022 年新出現的主流生成模型進行了年終盤點。
一起來看看這兩年間,各領域的 AI 生成模型進展究竟怎麼樣了。
9 大生成模型,最新代表作是?
這篇論文将 AI 生成模型分成了 9 大類。
下圖是 2022 年前後,在生成效果上達到最優的模型總覽:
除了谷歌 LaMDA 和 Muse 以外,所有模型均為 2022 年發布。
其中,谷歌 LaMDA 雖然是 2021 年發布的,但在2022 年又爆火了一波;Muse 則是 2023 年剛發布的,但論文聲稱自己在圖像生成性能上達到 SOTA,因此也統計了進去。
文本 - 圖像生成
這方面的代表作有 DALL-E2、Stable Diffusion、Imagen、Muse。
DALL · E2是來自 OpenAI 的生成模型,在零樣本學習上做出大突破。與 DALL · E 一樣,兩點依舊是 CLIP 模型,除了訓練數據龐大,CLIP 基于 Transformer 對圖像塊建模,并采用對比學習訓練,最終幫助 DALL · E2 取得了不錯的生成效果。
下圖是 DALL · E2 根據 " 一隻戴着貝雷帽、穿黑色高領毛衣的柴犬 " 生成的圖像:
Imagen來自谷歌,基于 Transformer 模型搭建,其中語言模型在純文本數據集上進行了預訓練。Imagen 增加了語言模型參數量,發現效果比提升擴散模型參數量更好。
下圖是 Imagen 根據 " 一隻可愛的柯基住在壽司做的房子裡 " 生成的圖像:
Stable Diffusion由慕尼黑大學的 CompVis 小組開發,基于潛在擴散模型打造,這個擴散模型可以通過在潛表示空間中叠代去噪以生成圖像,并将結果解碼成完整圖像。
Muse由谷歌開發,基于 Transformer 模型取得了比擴散模型更好的結果,隻有 900M 參數,但在推理時間上比 Stable Diffusion1.4 版本快 3 倍,比 Imagen-3B 和 Parti-3B 快 10 倍。
下圖是 Muse 與 DALL · E2 和 Imagen 的生成效果對比:
文本 -3D 模型生成
主要代表作有 Dreamfusion、Magic3D。(這裡沒有把 OpenAI 的 Point · E 統計進去,可能是生成效果上沒有達到 SOTA)
DreamFusion由谷歌和 UC 伯克利開發,基于預訓練文本 -2D 圖像擴散模型實現文本生成 3D 模型。采用類似 NeRF 的三維場景參數化定義映射,無需任何 3D 數據或修改擴散模型,就能實現文本生成 3D 圖像的效果。
下圖是 DreamFusion 生成 " 穿夾克的松鼠 "3D 效果:
Magic3D由英偉達開發,旨在縮短 DreamFusion 圖像生成時間、同時提升生成質量。具體來說,Magic3D 可以在 40 分鐘内創建高質量 3D 網格模型,比 DreamFusion 快 2 倍,同時實現了更高分辨率,并在人類評估中以 61.7% 的比率超過 DreamFusion。
圖像 - 文本模型生成
主要代表作有 Flamingo、VisualGPT。
Flamingo是 DeepMind 推出的小樣本學習模型,基于可以分析視覺場景的視覺模型和執行基本推理的大語言模型打造,其中大語言模型基于文本數據集訓練。輸入帶有圖像或視頻的問題後,模型會自動輸出一段文本作為回答。
VisualGPT是 OpenAI 制作的圖像 - 文本模型,基于預訓練 GPT-2 提出了一種新的注意力機制,來銜接不同模态之間的語義差異,無需大量圖像 - 文本數據訓練,就能提升文本生成效率。
文本 - 視頻模型生成
主要代表作有 Phenaki、Soundify。
Phenaki由谷歌打造,基于新的編解碼器架構 C-ViViT 将視頻壓縮為離散嵌入,能夠在時空兩個維度上壓縮視頻,在時間上保持自回歸的同時,還能自回歸生成任意長度的視頻。
Soundify是 Runway 開發的一個系統,目的是将聲音效果與視頻進行匹配,即制作音效。具體包括分類、同步和混合三個模塊,首先模型通過對聲音進行分類,将效果與視頻匹配,随後将效果與每一幀進行比較,插入對應的音效。
文本 - 音頻模型生成
主要代表作有 AudioLM、Jukebox、Whisper。
AudioLM由谷歌開發,将輸入音頻映射到一系列離散标記中,并将音頻生成轉換成語言建模任務,學會基于提示詞産生自然連貫的音色。在人類評估中,認為它是人類語音的占 51.2%、與合成語音比率接近,說明合成效果接近真人。
Jukebox由 OpenAI 開發的音樂模型,可生成帶有唱詞的音樂。通過分層 VQ-VAE 體系将音頻壓縮到離散空間中,損失函數被設計為保留最大量信息,用于解決 AI 難以學習音頻中的高級特征的問題。不過目前模型仍然局限于英語。
Whisper由 OpenAI 開發,實現了多語言語音識别、翻譯和語言識别,目前模型已經開源并可以用 pip 安裝。模型基于 68 萬小時标記音頻數據訓練,包括錄音、揚聲器、語音音頻等,确保由人而非 AI 生成。
文本 - 文本模型生成
主要代表作有 ChatGPT、LaMDA、PPER、Speech From Brain。
ChatGPT由 OpenAI 生成,是一個對話生成 AI,懂得回答問題、拒絕不正當的問題請求并質疑不正确的問題前提,基于 Transformer 打造。它用人類打造的對話數據集、以及 InstructGPT 數據集的對話格式進行訓練,此外也可以生成代碼和進行簡單數學運算。
LaMDA基于 Transformer 打造,利用了其在文本中呈現的長程依賴關系能力。其具有 1370 億參數,在 1.56T 的公共對話數據集和網頁文本上進行訓練,隻有 0.001% 的訓練數據被用于微調,這也是它效果好的原因之一。
PEER由 Meta AI 打造,基于維基百科編輯曆史進行訓練,直到模型掌握完整的寫作流程。具體來說,模型允許将寫作任務分解成更多子任務,并允許人類随時幹預,引導模型寫出人類想要的作品。
Speech from Brain由 Meta AI 打造,用于幫助無法通過語音、打字或手勢進行交流的人,通過對比學習訓練 wave2vec 2.0 自監督模型,基于非侵入式腦機接口發出的腦電波進行解讀,并解碼大腦生成的内容,從而合成對應語音。
文本 - 代碼模型生成
主要代表作有 Codex、AlphaCode。
Codex是 OpenAI 打造的編程模型,基于 GPT-3 微調,可以基于文本需求生成代碼。首先模型會将問題分解成更簡單的編程問題,随後從現有代碼(包含庫、API 等)中找到對應的解決方案,基于 GitHub 數據進行訓練。
AlphaCode由 DeepMind 打造,基于 Transformer 模型打造,通過采用 GitHub 中 715.1GB 的代碼進行預訓練,并從 Codeforces 中引入一個數據集進行微調,随後基于 Codecontests 數據集進行模型驗證,并進一步改善了模型輸出性能。
文本 - 科學知識模型生成
主要代表作有 Galactica、Minerva。
Galatica是 Meta AI 推出的 1200 億參數論文寫作輔助模型,又被稱之為 " 寫論文的 Copilot 模型 ",目的是幫助人們快速總結并從新增論文中得到新結論,在包括生成文本、數學公式、代碼、化學式和蛋白質序列等任務上取得了不錯的效果,然而一度因為内容生成不可靠被迫下架。
Minerva由谷歌開發,目的是通過逐步推理解決數學定量問題,可以主動生成相關公式、常數和涉及數值計算的解決方案,也能生成 LaTeX、MathJax 等公式,而不需要借助計算器來得到最終數學答案。
其他生成模型
主要包括 Alphatensor、GATO、PhysDiff 等 " 其他生成模型 "。
AlphaTensor由 DeepMind 開發,懂得自己改進矩陣乘法并提升計算速度,不僅改進了目前最優的 4 × 4 矩陣解法,也提升了 70 多種不同大小矩陣的計算速度,基于 " 棋類 AI"AlphaZero 打造,其中棋盤代表要解決的乘法問題,下棋步驟代表解決問題的步驟。
GATO由 DeepMind 開發,基于強化學習教會大模型完成 600 多個不同的任務,包含離散控制如 Atari 小遊戲、推箱子遊戲,以及連續控制如機器人、機械臂,還有 NLP 對話和視覺生成等,進一步加速了通用人工智能的進度。
PhysDiff是英偉達推出的人體運動生成擴散模型,進一步解決了 AI 人體生成中漂浮、腳滑或穿模等問題,教會 AI 模仿使用物理模拟器生成的運行模型,并在大規模人體運動數據集上達到了最先進的效果。
作者介紹
兩位作者均來自西班牙卡米亞斯大主教大學(Universidad Pontificia Comillas)。
一作 Roberto Gozalo-Brizuela,目前是卡米亞斯大主教大學研究助理(Investigador asociado),從事 AI 相關的項目研究工作。
Eduardo C. Garrido-Merch á n,卡米亞斯大主教大學助理教授,研究方向是貝葉斯優化、機器學習、強化學習、生成式 AI 等。
你感覺哪個領域的生成式 AI 進展最大?
論文地址:
https://arxiv.org/abs/2301.04655
參考鍊接:
https://twitter.com/1littlecoder/status/1615352215090384899