吳恩達：從文本AI革命到視覺AI大變革

著名計算機科學家 Andrew Ng 在近期的 AI 硬件峰會上宣稱："我們在文本領域所見到的革命将會出現在圖像領域。" Ng 展示了一項他稱之爲 " 視覺提示 " 的技術，使用 Landing.ai的用戶界面，通過在圖像上塗鴉來提示 AI 代理識别圖像中的對象。在舞台上的短短幾分鍾内，演示了如何提示代理識别一隻狗，并計算培養皿圖像中的細胞數量。

Ng 告訴觀衆：" 在計算機視覺領域，就像三年前的自然語言處理（NLP）會議上的情況一樣，目前有一種特殊的氛圍。" 他解釋說，進展主要是由大型 transformer 網絡推動的。這對于文本處理中的大型語言模型（LLMs）是成立的，而且在視覺領域，使用未标記的數據進行訓練以及擴大模型規模也正在成爲事實，" 這有助于 [ 視覺 ] 模型的泛化能力 "。

Ng 指出大規模視覺模型（LVMs）的技術尚未成熟，盡管人們對其充滿期待。在讨論中，Ng 提出了一個未解之謎：如何爲訓練大規模 LVMs 所需的數據提供來源？目前，最大的文本生成 LLMs 通常依賴于互聯網上的大量語料庫進行訓練。互聯網能夠提供大量未标記、非結構化的訓練數據，而少量标記數據可以用于微調和指導調優。

通常，視覺 AI 需要使用标記數據進行訓練，但 Ng 認爲情況可能不會總是如此。采用将圖像的部分區域隐藏起來，然後由神經網絡填補這些區域的技術可以在未标記數據上進行視覺網絡的訓練。

另一種途徑可能是合成數據，但至今爲止，合成數據對于生成數以萬計文本标記所需的代 ChatGPT 大小模型的代價太高。

Transformer 網絡在語言 AI 中占據主導地位，并且正在進入視覺 AI 領域。Ng 認爲，Transformer 最終會成爲所有形式 AI 的事實上的神經網絡架構嗎？

他表示：" 不，我不這麽認爲。Transformer 是我們工具箱中的絕佳工具，但我認爲它們不是我們唯一的工具。" 盡管生成式 AI 爲大量可用的非結構化數據帶來了奇迹，但它對于我們處理結構化數據的能力并沒有提供幫助。結構化數據，比如電子表格中的數字列，不适合 Transformer ，因此仍然需要采用其他方法進行 AI 處理。

在當前的趨勢中，LLMs 越大，它們在泛化方面的能力就越好。但是 LLMs 可以變得有多大呢？是否存在實際上的極限？Ng 表示：" 我認爲我們還沒有用盡擴展的可能性。但現在它變得困難了，我認爲還有其他創新途徑。" 他指出，在許多用例中，一個含有 130 億參數的模型和一個含有 1750 億參數的模型的性能可能是一樣的。對于像語法檢查這樣簡單的任務，一個運行在筆記本電腦上的 30 億參數模型可能就足夠了。

對于基本的文本處理任務，比如情感分類，10 億參數可能已經足夠了，可以運行在移動設備上，而處理對世界有 " 相當多知識 " 需求的任務可能需要數百億的參數，更複雜的推理可能需要千億級的參數。

他說：" 有可能未來我們将看到更多的應用在邊緣設備上運行。當您需要進行真正需要 1000 億參數模型的複雜任務時，我們将退而求其次，但我認爲許多任務可以使用更适中規模的模型運行。"

Transformer 及其基于的注意力機制是六年前發明的，但到目前爲止，硬件制造商隻是在謹慎地開始專門爲這個重要工作負載定制加速器。對于 Transformer 的架構是否已經開始成熟，或者我們應該期待這個工作負載在未來會有更多的演變？

他表示：" 這很難說。" 他說：" 原始論文是在 2017 年發表的……如果這是最終架構，我會感到有點失望，但我也願意接受震驚。注意力機制效果非常好。生物和數字大腦有很大的不同，但在生物智能中，我們的大腦就像演化将各種元素組合在一起一樣——但它确實非常高效。在 Transformer 之前，神經網絡也能做得很好。再看看 x86 架構已經持續了多久！"

本文作者：陶煙煙，來源：芝能汽車，原文标題：《AI Text Revolution is Coming to Images》