"OpenAI 新一代大模型 Orion 沒有那麽大飛躍"、"Anthropic 推遲 Claude 新模型的發布 "、"谷歌即将發布的新版 Gemini 未達預期" ……
近日,多家媒體接連爆料 AI 公司遭遇廣泛的技術升級瓶頸," 推遲 "、" 質疑 "、" 未達預期 " 這類詞語頻繁出現在報道中。在 AI 變得越來越觸手可及的當下,這些 AI 公司似乎正在陷入升級困境。
據 BusinessInsider 11 月 27 日報道,AI 技術的進步正在放緩,大模型性能提升瓶頸、訓練數據短缺、訓練數據質量問題、推理能力提升遇阻等是這一領域面臨的主要困境。
然而,以 OpenAI、谷歌等爲主的幾家頭部公司卻堅稱,AI 并沒有遇到所謂的 " 壁壘 " 和 " 瓶頸 "。他們依然對 AI 的前景感到樂觀,并認爲通過開發新型數據源、增加模型推理能力以及應用合成數據,AI 模型将繼續保持進步。
OpenAI 的首席執行官 Sam Altman 是首批發聲的人之一,本月他在社交平台上稱:" 根本沒有瓶頸 "(there is no wall)。Anthropic 和英偉達的 CEO 也表示,AI 的進步并未放緩。
AI 困境
當下,包括 Marc Andreessen 在内的一些人士質疑,AI 模型的性能提升并不顯著,且趨于同質化。對于科技行業來說,這是一個價值數萬億美元的問題,因爲如果現有的 AI 模型訓練方法回報遞減,可能會影響到新創企業、産品以及數據中心的投資熱潮。
據 BusinessInsider 梳理,AI 領域廣泛面臨的困境包括訓練數據枯竭、性能提升遇阻等問題。
在 AI 研發的早期階段,企業可能會遭遇兩個主要瓶頸:計算能力和訓練數據。首先,獲取專用芯片(如 GPU)的能力有限,影響大模型訓練。其次,訓練數據的瓶頸逐漸顯現,互聯網上公開可用的數據資源已經逐漸枯竭。研究機構 Epoch AI 預測,到 2028 年,能夠用于訓練的數據可能會耗盡。
數據質量也成爲一大問題。過去研究人員可以在預訓練階段對數據質量要求不高,但現在需要更加關注數據的質量,而不僅僅是數量。
而推理能力的提升和突破被認爲是 AI 發展的下一個關鍵方向。OpenAI 前首席科學家 Ilya Sutskever 本月對媒體表示,模型在預訓練階段的規模擴展已經達到平台期,且 " 大家都在尋找下一個突破 "。
與此同時,AI 的升級成本正在不斷增加。随着模型規模擴大,計算和數據處理成本顯著增加。據 Anthropic 的 CEO 透露,未來一次完整的訓練過程可能需要高達 1000 億美元的投資,這包括 GPU、能源和數據處理的巨大成本。
各大公司正在突破壁壘
面對質疑聲,各大 AI 公司相繼提出了自己的計劃來應對 AI 發展的瓶頸。
當下,多家公司探索利用多模态數據和私人數據來應對公開數據不足的問題。多模态數據涉及将視覺和音頻數據輸入 AI 系統,而私人數據則通過與出版商達成許可協議獲取。與此同時,提升數據質量也成爲研究的重點,生成合成數據(由人工智能生成的數據)成爲一種可能的解決方案。
此外,微軟和 OpenAI 等公司正在努力賦予 AI 系統更強的推理能力,使其能夠在面對複雜問題時作出更深入的分析。
OpenAI:正在通過與 Vox Media 和 Stack Overflow 等組織的合作,以獲取私人數據用于模型訓練。此外,他們還推出了新的模型 o1,嘗試通過 " 思考 " 來改善推理能力。
英偉達:正克服供應限制,确保 GPU 的供應以支持 AI 模型的訓練。
谷歌 DeepMind:公司 AI 實驗室正在調整策略,不再單純追求模型規模的擴大,而是通過更高效的方式來專注于特定任務的專精。
微軟:在最近的 Ignite 活動中,CEO Satya Nadella 提到,他們正在研究新的 " 測試時間計算 " 模式,允許模型在應對複雜問題時花費更多時間,提高推理能力。
Clarifai 和 Encord:正在探索多模态數據的使用,以突破公共數據瓶頸。多模态數據結合了視覺和音頻信息,可爲 AI 系統提供更多元化的數據源。
Aindo AI 和 Hugging Face:正在研究合成數據,以提高數據質量。