2023 年大模型千帆競發,除此外 AI 領域還有哪些新突破?
來來來,暢銷書《Python 機器學習》作者 Sebastian Raschka 的年末總結已經準備好了。
看完才知道:
RLHF今年雖然爆火,但實打實用到的模型并不多,現在還出現了替代方案,有望從開源界 " 出圈 ";
大模型透明度越來越低,透明度最高的是Llama 2,但得分也僅有 54;
開源模型下一步不一定是 " 更大 ",混合專家模型(MoE)可能是個突破點。
……
除了大語言模型,Sebastian Raschka 還根據 CVPR 2023 打包了計算機視覺進展,最後還講到了 AI 當前的一些局限性、以及對 2024 年的技術預測。
走過路過的網友們紛紛表示總結得很到位:
△機器翻譯,僅供參考
下面我們一起來看看這份年度總結裏都有啥。
2023 AI 爆點:大語言模型
今年,大模型領域似乎沒有出現實質性的創新技術,更多是基于去年的擴展:
ChatGPT(GPT-3.5)升級到 GPT-4
DALL-E 2 升級到 DALL-E 3
Stable Diffusion 2.0 升級到 Stable Diffusion XL
但學界業界依舊忙得熱火朝天,一些新趨勢、新内容總結如下——
重要 AI 模型論文信息量驟減
首先,是業界研究者在論文中公開的研究細節越來越少。
OpenAI 此前在 GPT-1、GPT-2、GPT-3、InstructGPT 的論文中,還詳盡披露了模型架構和訓練過程;
但從 GPT-4 開始,OpenAI 完全不提構建過程。
唯一不知真假的 GPT-4 架構信息,來源于坊間傳聞:
GPT-4 是由 16 個子模塊構成的混合專家(MoE)模型,每個子模塊擁有高達 1110 億參數……
Meta 亦是如此,在第一篇 Llama 論文中詳細闡述了訓練數據集,但 Llama 2 完全沒提相關内容。
即便如此,Llama 2 已經是一衆大模型中最公開的了。斯坦福大學最近發布了一項關于大模型透明度指數的研究,Llama 2 得分 54,透明度排第一,GPT-4 得分 48,排第三。
雖然模型細節算是公司商業機密,但 Sebastian Raschka 認爲這種趨勢還是值得關注,因爲它似乎會在 2024 持續。
大模型開卷上下文長度
今年大語言模型的另一個趨勢是擴展輸入的上下文長度。
此前 GPT-4 上下文長度還是 32k 時,競品 Claude 2 就将上下文推進到 100k tokens,且支持 PDF 文件輸入。
随後 GPT-4 大更新,新版本 GPT-4 Turbo 刷新上下文長度紀錄,已支持 128k tokens。
一些編程工具,如 GitHub Copilot,也在不斷增加上下文窗口長度。
開源大模型比拼 " 小而美 "
用更小的模型比肩大模型的性能,是開源圈的 " 新玩法 "。
目前,多數現有開源大模型仍然是純文本模型。
這些模型研究重點之一,是用小于 100B 參數的 " 小模型 " 對标 GPT-4 的文本處理能力。
甚至出現了很多可以單 GPU 運行的小模型,例如 1.3B 的 phi1.5、7B 的 Mistral、7B 的 Zephyr。
Sebastian Raschka 認爲,開源模型的下一個突破點不一定是 " 更大 ",或許 MoE 也可能把開源模型提升到新的高度。
這麽做可能是考慮硬件資源成本、數據量、開發時間等因素。
但也有值得關注的開源多模态大模型,例如 10 月 17 日剛發布的 Fuyu-8B。
Fuyu-8B 在處理圖像時,直接将圖像切成小塊,然後把這些小塊輸入到一個線性投影層,在這一層裏面自動學習小塊的向量表示,避免用額外的預訓練編碼器來提取圖像特征,簡化了模型架構和訓練過程。
同時,Llama-Adapter v1、Llama-Adapter v2 等微調方法的出現,有望将現有的大模型擴展到多模态領域。
RLHF 平替已出現
RLHF(人類反饋強化學習)是大模型最受關注的技術之一,InstructGPT、ChatGPT、Llama 2 中都用到了這種訓練方法。
但分析公司 stateof.ai 發布的 "2023AI 現狀報告 " 中顯示,它還沒有被廣泛運用,可能是因爲實現起來比較複雜。目前大多開源項目仍然專注于指令微調。
不過,RLHF 的最新替代方案已經出現:直接偏好優化(DPO)。
這一方法由斯坦福大學研究團隊提出。
DPO 利用獎勵函數到最優策略之間的映射關系,把強化學習問題轉變成僅需要訓練策略網絡來拟合參考數據的問題。
也就是繞過了建模獎勵函數,直接在偏好數據上優化語言模型。
用上 DPO 後,模型輸出的質量也優于 RLHF/PPO。
最近首個用 DPO 方法訓練的開源大模型已出現,來自 HuggingFace H4 團隊打造的 Zephyr-7B,它在一些任務上已超過用 RLHF 訓練的 Llama 2-70B:
Transformer 潛在新對手
今年還出現了一些 Transformer 的替代方案,比如循環 RWKV、卷積 Hyena。
這些新的框架主要是用來提高模型效率,當然基于 Transformer 架構的大語言模型仍是主流。
大模型改變生産方式
大模型除了用來處理文本,也逐漸被用到提升生産力(Microsoft 全家桶)和寫代碼(GitHub Copilot)等場景中。
Ark-Invest 曾發布報告預測,編程助手能讓編碼任務的完成時間縮短約 55%。
可以肯定,編碼助手将繼續存在,而且隻會變得更好。
這對 Stack Overflow(全球知名開發者問答網站)等平台意味着什麽?
同樣是 "2023 AI 現狀報告 " 中,一張 StackOverflow 與 GitHub 的網站流量對比圖,可以說明一些問題:
OK,以上就是大模型的一些新進展。
不過對于 AI 的 " 另半邊天 " 計算機視覺而言,在 2023 年,這個領域也有許多不可忽視的新進展。
計算機視覺怎麽樣了?
今年大家都在重點關注大語言模型,但實際上,計算機視覺領域也取得了不少進展,從計算機視覺頂會 CVPR 2023 中就可以窺見一斑。
今年 CVPR 2023 共接收了 2359 篇論文,大多數研究都集中于以下 4 個主題,Sebastian Raschka 逐個進行了介紹。
視覺 Transformer 突破限制
先來看看關注度最高的視覺 Transformer。
效仿已取得巨大成功的語言 Transformer 架構,視覺 Transformer(ViT)最初在 2020 年出現。
視覺 Transformer 原理與語言 Transformer 類似,是在多頭注意力塊中使用相同的自注意力機制。
不同的是,視覺 Transformer 不标記單詞,而是标記圖像,同樣能取得不錯的效果,但它一直有一個局限:相對資源密集且效率低于 CNN,導緻實際應用受阻。
今年在 CVPR 論文 "EfficientViT:Memory Efficient Vision Transformer with Cascaded Group Attention" 中,研究人員介紹了一種新的高效架構來解決這一限制——
相比原來的 MobileViT,EfficientViT 方法最多快了 6 倍。
主要創新點有兩個,一是全連接層之間的單個内存綁定多頭自注意力模塊,二是級聯群注意力。
擴散模型又有新玩法
Stable Diffusion 讓擴散模型爆火,這類模型所用的方法是:
模型訓練時,逐漸往訓練數據中摻入噪聲,直到變成純噪聲。然後再訓練一個神經網絡,讓模型反向學習去噪,從噪聲中合成數據。
大多數擴散模型使用 CNN 架構并采用基于 CNN 的 U-Net。
但今年 "All are Worth Words:A ViT Backbone for Diffusion Models" 這項研究中,研究人員試圖将擴散模型中的卷積 U-Net 骨幹(backbone)與 ViT 交換,變成 U-ViT。
研究人員評估了新架構,在條件圖像生成任務中,新的 U-ViT 擴散模型可與最好的 GAN 相媲美,優于其它擴散模型;在文本到圖像生成方面,它優于在同一數據集上訓練的其它模型。
3D 重建新方法擊敗 NeRF
3D 重建是計算機視覺的研究重點之一,在 3D 掃描、虛拟現實、增強現實、電影和視頻遊戲中的 3D 建模和動作捕捉中都有運用。
今年 SIGGRAPH 2023 最佳論文中,有一篇被稱爲三維重建領域 " 爆炸性 " 新技術——Gaussian Splatting(高斯濺射)。
一舉突破 NeRF 與之前的渲染引擎難兼容、需要專門設計硬件、渲染開銷的老大難問題。
這種方法的核心是使用3D 高斯作爲場景表示,通過優化各向異性協方差矩陣來表示複雜場景。
論文還提出了交錯的 3D 高斯參數優化和自适應密度控制方法,設計了快速、可微分的 GPU 栅格化方法,支持各向異性斑點,并實現快速反向傳播,可以達到高質量的新視圖合成,而且實現了首個 1080p 分辨率下的實時渲染。
隻用很少的訓練時間,Gaussian Splatting 可以達到 InstantNGP 的最高質量,訓練 51 分鍾,性能甚至比 Mip-NeRF360 要好。
最近,華中科技大學 & 華爲研究團隊又繼續提出了4D Gaussian Splatting。
4D Gaussian Splatting 實現了實時的動态場景渲染,同時可保持高效的訓練和存儲效率。
在 RTX 3090 GPU 上,4D Gaussian Splatting 以 800 × 800 分辨率達到 70 FPS 的性能,同時保持了與之前的最先進方法相媲美甚至更高的質量水平。
這項研究一出,網友沸騰直呼:
徹底改變三維重建。
當然,Sebastian Raschka 也分享了 CVPR 上一些 NeRF(Neural Radiance Fields)方法的新進展。
NeRF 主要是通過訓練神經網絡來學習場景中每個點的顔色和密度,然後使用這些信息來生成逼真的 3D 場景渲染圖像。
但 NeRF 有一個缺點是:有光澤的物體通常看不清,半透明物體的顔色也很模糊。
在 "ABLE-NeRF:Attention-Based Rendering with Learnable Embeddings for Neural Radiance Field" 這項研究中,研究人員通過引入基于自注意力的框架和可學習的嵌入解決這一問題,并提高了半透明和光澤表面的視覺質量。
目标檢測和分割
目标檢測和分割是經典的計算機視覺任務。
這兩個任務還是有區别的,目标檢測是關于預測邊界框和相關标簽,分割是對每個像素進行分類,來區分前景和背景。
△目标檢測(左)和分割(右)
此外還可以細分爲語義分割、實例分割、全景分割三個類别。
一項名爲 "Mask DINO:Towards A Unified Transformer based Framework for Object Detection and Segmentation" 的研究,擴展了 DINO 方法。
Mask DINO 性能優于所有現有的物體檢測和分割系統。
DINO 是一種帶有改進去噪錨盒的 DETR,而 DETR 是 Facebook AI 提出的一種端到端目标檢測模型,它使用了 Transformer 架構,提供了一種更簡單靈活的目标檢測方法。
AI 局限 & 展望未來
雖然 AI 領域這一年來取得了諸多進展,但依舊存在一些局限性,主要包括以下幾點:
1、大模型幻覺
大語言模型依然存在着生成有毒内容和幻覺的問題。
今年出現了不少解決方案,包括 RLHF 和英偉達推出的 NeMO Guardrails 等,但這些方案要麽難實施,要麽處理得不到位。
目前爲止,還沒有找到一個可靠的方法,既能解決這一問題又不損害大模型的正向性能。
2、版權争議
與此同時,AI 領域版權争議日益嚴峻。
各大模型廠商沒少被起訴,之前開源數據集 Books3 也因侵權問題慘遭下架,Llama、GPT-J 等都用它訓練過。
總的來看,很多相關規定還在起草和修改過程中。
3、評估标準不統一
學術研究領域,基準測試和排名榜單可能已經失效是個問題。
用于測試的數據集可能已經洩露,成爲了大語言模型的訓練數據。
雖然通過詢問人類偏好來評估大模型的效果是一個普遍的方法,但這種方式較爲複雜。
還有許多研究報告使用 GPT-4 來評估。
4、收益尚不明确
生成式 AI 還在探索階段,雖然無論是文本還是圖像生成工具,在特定場景下确實能給人們提供幫助。
但這些工具是否真的能給公司帶來收益,尤其是在高昂的運行成本面前,業界還在激烈讨論。
有報道稱,OpenAI 去年的運營虧損了 5.4 億美元。直到最近又有消息指出,OpenAI 現在每月能賺取 8000 萬美元,有望彌補或甚至超出它的運營開支。
5、虛假圖像泛濫
生成式 AI 帶來的另一個問題是假圖片和視頻在社交媒體泛濫。
這個問題由來已久,PS 等工具也能,而 AI 技術簡易快捷,正在将此現象推向一個新的高度。
目前也有其它 AI 系統嘗試自動識别 AI 産生的内容,但無論是文本、圖片還是視頻,這些系統的可靠性都不高。
6、數據集稀缺
涉及版權等争議,不少公司(Twitter/X、Reddit 等)關閉了免費的 API 接入點,這樣做既是爲了增加收益,也是爲了阻止數據采集器搜集平台數據用于 AI 訓練。
之後一個好的方法可能是,建立一個衆包數據集的平台,編寫、收集和整理那些已經明确允許用于 LLM 訓練的數據集。
展望 2024,Sebastian Raschka 認爲大語言模型會在計算機科學之外的 STEM 研究領域發揮更大影響。
另一方面,由于高性能 GPU 緊缺,各大公司紛紛開發定制的 AI 芯片,問題關鍵在于怎樣讓這些硬件全面、穩定支持主流深度學習框架。
開源界,更多 MoE(專家模型)也值得期待,共同創建數據集、DPO 在開源模型中取代傳統監督式微調也都是未來式。
Sebastian Raschka 是誰?
Sebastian Raschka 于 2017 年獲得密歇根州立大學博士學位,曾是威斯康星大學麥迪遜分校統計學助理教授。
2022 年 Sebastian Raschka 離職,加入初創公司 Lightning AI 成爲其首席 AI 教育官。
此外,他還是包括《Python 機器學習》在内的多本暢銷書的作者。
他經常在自己的 AI 博客 Ahead of AI 中總結 AI 領域的各項研究,已攬獲大波粉絲。
參考鏈接:
[ 1 ] https://magazine.sebastianraschka.com/p/ai-and-open-source-in-2023
[ 2 ] https://magazine.sebastianraschka.com/p/ahead-of-ai-10-state-of-computer
[ 3 ] https://twitter.com/dotey/status/1721204481369498004