ChatGPT 爆火之後,算力問題也被推到了風口浪尖。
根據 OpenAI CEO 的說法,每調用一次 ChatGPT 就會消耗幾美分。那麽如果全球每人都搜索一下,爲什麽 OpenAI 不會破産?
全國的 A100 顯卡就那麽幾萬卡,如果大家都去煉大模型,算力不夠用怎麽辦?
……
CCF CTO Club 發起的最新一期 CCF C ³ 活動就來到并行科技,話題聚焦于" 算力網絡賦能人工智能 ",以 ChatGPT 這一熱門話題爲引子,展開了一場多維度的主題分享和讨論。
據統計,線上約有 9500 人圍觀了此次活動。
所以,具體都講了些什麽?
訓練千億大模型,至少面臨三大挑戰
活動最先開始的主題分享環節,北京大學人工智能研究院助理教授(博導)楊耀東講了一個非常有趣的東西,即微軟最新公布的一個研究項目。
該項目直接将 ChatGPT 的輸出接到一個機械臂以及一個微機上。然後通過人與 ChatGPT 交互,來控制機械臂完成特定任務,比如用一堆方塊拼成一個微軟的 logo。
楊耀東告訴大家,這項研究非常有意義。
如下圖所示,以往我們要完成類似任務,需要人去編程。
現在有了 ChatGPT 之後,我們要做的就不再是設計程序,而是設計一個 prompt 或者是一個 instruct,讓 ChatGPT 通過這個 prompt 或 instruct 去編程,進而完成對機械臂的控制。
ChatGPT 還有這種妙處?着實讓人感到驚喜。
那麽問題來了:
這麽一個好東西,爲什麽沒有先在中國誕生?是我們完全沒有關注這件事情嗎?
北京智譜華章科技有限公司的 CEO 張鵬,在 ChatGPT 爆火後經常被問到這個問題。
對此,他想說,并非沒有關注,國内如華爲、達摩院、清華大學等機構一直在做類似的事情。
比如清華大學知識工程實驗室(KEG)與智譜 AI 共同研發的大規模中英文預訓練語言模型GLM-130B。
它可與 GPT-3 基座模型對标,在同等運算速度與精度的要求下,GLM-130B 對顯存資源的消耗可節省 75%,自 2022 年 8 月發布以來,已收到 41 個國家 266 個研究機構的使用需求。
在 Stanford 報告的世界主流大模型評測中,它更是中國唯一入選的模型,其準确性、惡意性與 GPT-3 持平,魯棒性和校準誤差在所有模型中表現最佳。
但,不得不承認,ChatGPT 的實力确實非常強大。
而我們要想訓練類似一個千億大模型,至少要面臨三大挑戰:
一、高昂的訓練成本。比如 ChatGPT 的算力需求就是 "A100x1000 塊 x30 天 "。
二、人力投入極大。比如谷歌 PaLM 530B 團隊,前期準備 29 人,訓練過程 11 人,整個作者列表 68 人,而目前國内可用做大模型的高精尖人才不超過百人。
三、訓練過程不穩定,且調試困難,容易出現訓練不收斂現象。
張鵬指出,在這些問題之中,算力絕對是非常重要的因素。
他曾經估算過,從 GPT3 開始到 ChatGPT 的誕生,中間用來訓練模型用的算力,達到了億美金以上的規模。
更别說這還隻是對 " 成功部分 " 的估計,如果算上訓練失敗和試錯的成本,這個數字肯定又要翻幾番。
因此,我們要想搞千億大模型,算力問題一定不可忽視。
算力網絡實現算力全國共享
根據 IDC 發布的報告,中國 AI 算力規模增長飛速,2022 年爲 268EFLOPS,到 2026 年則可達 1271.4EFLOPS。
但在并行科技董事長陳健看來,ChatGPT 爆火之後,這個增長速度根本不夠:大家要麽仍然缺算力,要麽缺合适的算力。
因此,他提出了 " 可用、好用以及降本 " 這三個概念。
他介紹道,并行科技從超算起家,一直專注于算力行業,目前公司在做的全國一體化算力網絡,就是要将國内優質的超算、智算與通用算力全部聚合起來,形成一個算力資源、應用資源、數據資源可以共享和交易的算力網絡。
這個網絡可以确保當我們需要用算力的時候,隻要中國還有可用的空閑算力,我們就能用到。
當然,它的價格一定要合理。
據悉,并行科技目前與廣州超算、北京超算、濟南超算、中科院超算、浙江超算、甯夏超算等國産算力資源在内的大批優質算力資源結合,共計接入超 80000 台服務器,總計算力超 1000PFlops,存儲資源超 800PB。
算法優化也是一條途徑
在主題讨論環節,大家一齊分享了自己對如何解決算力需求這個問題的看法。
在智譜 AI CEO 張鵬看來,算力是由市場驅動的,隻要符合市場需求,創造出真正的社會價值,就有辦法解決。
而且,這個辦法一定是多元化的。
比如在硬件層面,我們可以打造更先進的芯片;在宏觀資源調度方面,如并行科技陳健所說,算力網絡是一個好思路。
而最終,可能将形成宏觀層有算力網絡,硬件層有強大芯片,中間層有軟件做算法優化與加速這種 " 多向奔赴 " 的方式。
此外,他也認爲,特異化也可能會成爲解決 AI 算力的一種趨勢。因爲就拿芯片來說,通用芯片的成本一定會比專用的高。
對此,中科院計算機網絡信息中心 AI 技術與應用發展部負責人王彥棡補充道,在人工智能領域,軟件的确是需要大家關注的重點,它是構成行業生态的關鍵,容易出現 " 卡脖子 " 問題,做好未雨綢缪,才能應對不斷變化的發展時局。
陳健則在這個環節分享了當天刷到的一條朋友圈:
已經摸到一定高度的情況下,再去比參數誰多是不明智的。要比誰用更少的參數,更少的算力,也能達到同樣的效果,包括性能和體驗。
這條朋友圈來自某位行業專家。
陳健對此頗爲贊同,他表示:我們做優化的都知道,最好的優化不是在硬件上去調整性能,而是用一個更好的算法,讓總計算量降下去,從而提高更好的體驗。
因此,陳健認爲,這也是解決算力問題一個非常非常好的路徑,如果這一點上能突破,可能對算力公司來說不是好消息,但是對于我們整個社會來說是非常巨大的進步。
接下來,大家還就本期的主題算力網絡進行了更深一步的讨論。
并行科技 AI 雲事業部總經理趙鴻冰表示,算力網絡接下來的發展重點是算力接入标準化。有了标準,更多算力資源才能被有效的接入到算力網絡中,滿足需求端的靈活使用。
曆史上,電力網絡的構建曾爲人類帶來福祉。現在我們也可以暢想一下,未來是否可以基于算力網絡來實現大模型訓練。
當然,這需要我們在算力網絡分布式計算技術等相關領域做進一步研究。
現場提問
本場活動的最後環節,是留給線上線下觀衆的現場提問,不少人将目光聚集到了 ChatGPT 本身。
有人關心ChatGPT 是否需要做算法方面的創新。
對此,楊耀東表示,對它來說,可能不需要。
他引用了 ChatGPT 項目負責人的一句話:
人們通常會低估一個簡單的想法實現好後對效能的增長;而過于高估一個全新想法能帶來的效能增長。
因此他認爲,即便 ChatGPT 看似簡單,如果能在工程化方面做到極緻,也會有非常好的應用效果。
前些日子,有研究發現 ChatGPT 背後的大模型具有 9 歲兒童心智。
現在,也有人将類似問題抛給了現場嘉賓:
基于 ChatGPT 目前在應用中的表現,是否可以判定它已經産生了智能?
對于這個問題,楊耀東也發表了看法。他認爲從某種角度上來看,我們可以說 ChatGPT 已經産生了 " 智能 "。就比如面對雞兔同籠問題,換個數它依然能解,不會出現突然到某個層級不能泛化的問題。
但是它底層的模型,說到底就是一些 Encode 和 Decoder,基于 Attentio 架構的東西。它爲什麽能湧現出這麽複雜的 pattern?
這還是數據帶來的歸納偏置非常多以後,湧現出來一定意義上的智能所帶來的。
但是這個智能是不是我們科學意義上定義的智能,或者我們怎麽去定義智能——這個問題本身還很難說清楚。
關于 CCF C ³
CCF C ³ 活動是由中國計算機學會 CCF CTO Club 發起的,旨在聯結企業 CTO 及高級技術人才和資深學者,每次以一個技術話題爲核心,走進一家技術領先企業。
往期活動承辦單位與主題如下表所示:
下一期,C ³ 将移步上海,由小紅書承辦,時間爲 3 月 30 日。