進入 2023 年,ChatGPT 着實讓人類感受了一把被 AI 支配的恐懼。
它超強的上下文理解,泛化,學習和推理能力,以逼近人類互動體驗的方式呈現出來,讓所有人耳目一新。哪怕它和它的同類競品紛紛暴露出諸多的問題,依然難阻人們每天驚呼一次 " 奇點 " 來臨,日日擔心自己的工作被取代,紛紛轉述比爾蓋茨,納德拉和黃仁勳們對 ChatGPT 的贊賞。各路人馬也紛紛行動起來,最新的是馬斯克,在批評了自己參與創辦但早已沒有股份的 OpenAI 旗下 ChatGPT 的安全問題後,随即傳出他自己正在計劃組隊開發 ChatGPT 的替代品。
一切都飛快的發展着,這個沉寂了一段時間的行業終于又被焦慮和聒噪籠罩,這給人一種錯覺:
仿佛這場關于 ChatGPT 的競争就要在一夜之間決出勝負。
圖源:Unsplash
而在這些焦躁裏,那些本該更清晰指向這場競争真正本質的特征—— ChatGPT 的千億參數,每一次調用的可觀費用,OpenAI 坐的多年冷闆凳等等——也被用于了制造短期恐慌。這些或主動或無意的讨論事實上都在糾結于 ChatGPT 裏 "chat" 的部分——對商業模式,對可能改變的人類對互聯網的使用習慣以及對錯失新投資或是投機機會的恐慌。
這些焦慮對想把水攪渾而入局的人以及煽動人工智能威脅論的人們來說是喜聞樂見的,但對于真正理性看待這場技術競争是無益的。
某種意義上,與其說 ChatGPT 證明了某一條 AI 研究路線的成功,倒不如說它更大的意義是證明了 AI 這些年不斷收斂但依然存在多種選擇的各類路線裏,最終真的是會走出一條路的:也就是,它第一次證明了這場技術革命真的會到來。
而當我們真的把它當作一場技術革命來看時,就會明白這是一場将持續很久的複雜系統的比拼,也才有可能尋找到真正具備競争能力的中國參與者,會明白這場新的技術浪潮的競争不會 " 濃縮于一個晚上 "。
讓 Chat 的歸 Chat,GPT 的歸 GPT
"ChatGPT 是 AI 的 iPhone 時刻。" 英偉達創始人及 CEO 黃仁勳在近期的一次演講裏形容。"iPhone 時刻 " 的說法随之變得十分流行,它代表了今天對 ChatGPT 的熱鬧讨論裏非常流行的思考方式——人們與 AI 終于找到了最佳交互界面,從此一切新技術都可以用來替代舊應用。而這也成了很多中國的焦慮者參與 ChatGPT" 創業潮 " 的通行證。
但這種 "iPhone 時刻 " 的說法,有道理,但無益處。
與黃仁勳類似,微軟創始人比爾蓋茨和微軟現在的 CEO 納德拉也對 ChatGPT 做了與黃仁勳 " 互文 " 般的表達:比爾蓋茨把它的意義比作互聯網的誕生,納德拉說它堪比工業革命。但對這幾家公司在最近這波浪潮裏的角色稍加分析,就會明白,通過投資 OpenAI 而占盡 ChatGPT 紅利的微軟,和因爲 ChatGPT 而再次進入新的 " 收稅 " 模式的英偉達,如此表達的另一層含義,是希望這場技術革命最終建立在它們自己的商業帝國之上。
至少現在來看,iPhone 時刻還隻是他們的,并不是我們的。
因此跟着這樣的思路去讨論是偷懶的且無益的,尤其是作爲 ChatGPT 沒有率先誕生在中國這個事已成事實的今天,它隻會讓人們繼續關注被他人定義的 "Chat" 的部分,着急的去跟着 iPhone 做應用,最終給 iPhone 添磚加瓦;它也會讓人們陷入窘迫而難以靜下來,無暇真正了解我們自己 "GPT" 部分的進展。
在大模型上,一些從業者早已對 "iPhone" 時刻足夠警惕,對建立在它人底座上的模式創新已有充足反思和警惕,并已付諸了行動。
OpenAI 在 2020 年發布了 1750 億參數的 GPT3,根據公開資料,那之後中國公司和機構發布的超過千億參數規模的大模型包括百度發布的 Ernie(文心),華爲發布的盤古大模型,和阿裏巴巴發布的 M6 大模型等。
2021 年,百度基于其已有的 ERNIE 模型框架,發布了百億參數的對話大模型 PLATO-XL,到了最新發布的 ERNIE 3.0 Zeus,模型已有千億級參數。結合自身的 PaddlePaddle 訓練框架,讓 Ernie 從一開始的對中文語境的優化到現在得到全球研究者越來越多的關注。2021 年 4 月, 華爲對外公布了盤古大模型。根據公開資料,其在預訓練階段學習了 40TB 的中文文本數據,并也已達到千億級參數規模。
而 2021 年 4 月,阿裏巴巴達摩院發布的 270 億參數語言大模型 PLUG,被稱爲中文版 "GPT-3"。同年阿裏巴巴還發布了國内首個千億參數多模态大模型 M6。
圖源:達摩院官網
阿裏巴巴的這兩個大模型都在過去幾年繼續進化, 2021 年 10 月,PLUG 模型實現 2 萬億參數 ,2022 年 11 月,它所屬的阿裏通義 -AliceMind,在中文語言理解領域權威榜單 CLUE 中首次超越人類成績。而 M6 在不斷提高着訓練效率,2021 年 10 月,達摩院使用 512 卡 GPU 即訓練出全球首個 10 萬億參數大模型 M6,同等參數規模能耗爲此前業界标杆的 1%。并且,M6 還在進一步做多模态的打通。達摩院的諸多模型集成在 2022 年發布的 " 通義 " 大模型系列中。
這些大模型的進步也引來了包括 OpenAI 在内的同行的關注,OpenAI 的前政策主管 Jack Clark 曾公開點評 M6 模型,稱它 " 規模和設計都非常驚人。這看起來像是衆多中國的 AI 研究組織逐漸發展壯大的一種表現。"
可以看出,中國的參與者并不少,參與的也并不晚,成果也并非乏善可陳,否認這一點是虛無的。而且,但凡親自訓練過大模型的研究者都不難得出結論:最好的方式就是在已有建制的基礎上去繼續加速。
因爲今天諸多對 AI 模型的研究已經發現,大模型許多能力上的驚人突破,并非一個線性的過程,而是會在模型尺寸達到一個量級時發生突然的 " 進化 ",也就是 " 突現 "。不管你喜不喜歡,但事實就是,雖然 AI 看起來高大上,但它的突破需要的,的确是一次不期而至的 " 大力出奇迹 "。
但如果留意最近一段時間的讨論,會發現一些此前曾表示開發出大模型的機構和領頭者或明星科學家,卻選擇跳離這些機構,避而不談曾經高調宣揚的自己已有的進展,放棄更接近突現的節點而去從零開始,背後原因可能不言自明。
一些人抓住 " 一生一遇 " 機會的方式,是追随别人的 iPhone 時刻而去,試圖重新來過,過度興奮于 "chat" 高度拟人的實現效果帶來的資本與商業想象力。但那些真正在産業裏摸爬的中國科技公司,那些真正花很多年的心血打造自己的大模型的中國人工智能科學家們心裏清楚:真正的屬于自己的 iPhone 時刻,不在衆聲喧嘩之側,不在 "chat" 本身,而是在 "GPT" 上,也就是自己曾經多年的辛苦建模、訓練和調參的基礎之上。
隻有讓 Chat 的歸 Chat,才能讓 GPT 的歸 GPT,自己的 GPT,比什麽都重要。
論系統戰,論持久戰
當我們從這種 " 曆史在一夜之間改變 " 的興奮脫離出來,會明白大模型的競争是一場全面戰争,它像所有曆史上波瀾壯闊的技術變革一樣,也将是曠日持久的。
這種全面戰争首先體現在它不隻是某一個模型的問題,而是一個系統的問題。
在人們津津樂道的微軟借助 OpenAI 逆襲谷歌的故事裏,有些被忽略的是微軟提供給 OpenAI 的雲計算能力對 ChatGPT 的重要性。
根據公開資料,微軟爲 OpenAI 的 GPT3 訓練,提供了一個有一萬塊 GPU 的分布式集群,并且這些昂貴的計算資源和計算能力也專門爲 OpenAI 做了優化。
微軟的雲計算 Azure,爲 OpenAI 建立和部署了多個大規模的高性能計算(HPC)系統,根據一些研究數據,微軟 Azure" 與其他雲服務對手相比,爲每個 GPU 提供了近 2 倍的計算吞吐量,并且由于其網絡和系統軟件的優化,可以近乎線性地擴展到數千個 GPU。在模型推理方面,微軟 Azure 更具成本效益,每美元的推理能獲得 2 倍的性能。"
這說明類似 ChatGPT 的大模型是 AI+ 雲計算的全方位競争,需要超大規模智算平台對芯片、系統、網絡、存儲到數據進行全盤系統優化。
這些作爲基礎設施的計算平台提供的不隻是高效率的支持,往後更多的甚至是定制化的支持——一丁點的算力浪費,都會是這場競争裏緻命的成本。
這種複雜的系統是以雲計算爲代表的新技術發展到極高複雜度階段的結果,而中國科技公司在這個技術周期裏生長出來的技術自覺和爲此付出的長期努力,讓它們也擁有了自己的複雜系統,從而也有了參與這場 ChatGPT 競争的 " 入場券 "。
其中能力最爲完備的當屬阿裏巴巴,因爲雲、數據、系統和芯片。
阿裏雲的飛天智算平台在去 IOE 的過程中誕生,逐漸成長爲一個超大規模的高性能計算集群,并且已是國内唯一能實現萬卡規模的 AI 集群。它在一個超大規模高性能網絡中,構建了一個可以持續進化的智能算力系統,與此同時,阿裏雲自研的高性能集合通信庫 ACCL 和自研的網絡交換機也建立了無擁塞、高性能的集群通訊能力。
據公開資料,飛天智算平台的千卡并行效率達 90%。針對數據密集型場景的大規模集群,還進行了數據 IO 優化,通過自研 KSpeed 和 RDMA 高速網絡架構,最高可将存儲 IO 性能提升 10 倍,将時延顯著降低了 90%。此外飛天智算平台的機器學習平台 PAI,專門針對 AI 大模型推理和訓練場景進行針對性優化,可将計算資源利用率提高 3 倍以上,AI 訓練效率提升 11 倍,推理效率提升 6 倍。阿裏的 M6 模型,在訓練階段使用的正是阿裏雲機器學習 PAI 平台自研的分布式訓練框架 EPL ( Easy Parallel Library ) 。
這場全面戰争還體現在,它并不是一場比拼誰更接近标準答案的戰争。
圖源:Unsplash
大模型本身也是一個精妙的系統,它不會隻有一個答案,甚至無法隻有一個答案。一個例證就是,ChatGPT 的真正複現到今天依舊無人實現。一方面,是技術本身越來越閉源,另一方面,真正實現性能突破的許多關鍵環節,有時真的是一種藝術性的存在,或者更直白的說,是碰運氣的過程,因此沒有答案可抄。
比如,根據 GPT3 的論文,這個模型的大小和數據量,是根據 OpenAI 自己的擴展規律決定,因此對于另外一個模型,哪怕是同樣的算力條件,模型和數據的配比也可以有不同的思路,GPT3 最終的配方是 1750 億參數和 2500 億 token 的數據,而另一個知名的類似模型,DeepMind 旗下的 Chinchilla,則是 1100 億參數和 5000 億 token,但後者在一些性能上也與 GPT3 不相上下。也就是,任何一種 " 配方 " 都很難直接使用,它很大程度取決于基礎模型的特點,很多時候在那些模型的論文裏簡單的一句結論,背後就是巨大的試錯成本。
這是挑戰,但也是機遇所在:能最極緻的做好 " 軟硬件結合 " 的模型和平台,就有機會用最适合自己的配方更進一步。
最典型的當屬英偉達。當幾乎所有的模型訓練都需要在它的硬件上完成,最能發揮硬件性能的軟件框架自然也最可能由英偉達制造。英偉達發布的 NeMo Megatron 就曾宣稱僅用 11 天就完成了 GPT-3 的訓練,還和微軟合作,在 6 周内完成了 Megatron 的一個 5300 億參數模型的訓練。
同樣的,阿裏雲的計算硬件,軟件平台和大模型的全方位系統優化,也帶來效率的提升。通義 -M6 已經實現使用 512 位 GPU 在 10 天内訓練出具有可用水平的 10 萬億模型的能力,相比 GPT-3,同等參數規模能耗僅爲其 1%,此外達摩院研發的超大模型落地關鍵技術 S4 框架(Sound、Sparse、Scarce、Scale)也提供了 " 濃縮 " 能力,讓百億參數大模型在高壓縮率下仍能高精度完成多個任務,使 " 通義 " 系列模型已在服務的 200 多個場景中實現了 2%-10% 的應用效果提升。
也就是說,這場全面競争裏最需要的是一個自己的方案,一個能自主掌控更多環節從而實現全局調優的自己的方案。這樣的能力更重要的意義在于,它們将不隻是用于跟随——面對一場全面的技術浪潮,人們往往習慣在短期過于興奮與高估,激動的把開局理解爲終結,但事實上技術浪潮會是長期的。這也是每一場全面戰争裏都會發生的事情。而擁有自己的複雜系統掌控能力和基于此的技術理解能力,會在長期的競争裏提供一定的技術定力。
對于當前的 ChatGPT 來說,它其實有着鮮明的開局感:它基本上還是一個語言模型,而 AI 研究者這些年已經開始奮力追逐多模态模型——過往人工智能模型有些八仙過海的意味,架構衆多,但 2017 年之後,Transformer 的出現改變了這種趨勢,這之後算法架構從包括 ChatGPT 的 NLP 到視覺都迅速統一到以 Transformer 爲底層架構的路線,于是不同模态的模型更有了統一的可能。因此,某種意義上,ChatGPT 可能隻是未來真正 " 恐怖 " 的多模态大模型的第一個明确了的組成部分。
這樣的一場全面戰争剛剛開始。曾經因爲相信所以看見而衍生出來的技術路線,讓一些中國互聯網公司在技術浪潮來臨前握住了那最初的浪花,而今天 ChatGPT 預示了大浪終将到來,對于那些用了多年建立起來自己的技術完備能力的中國互聯網巨頭來說,終于到了因爲看見所以相信的時刻。