文心一言上線内測一個月後,首份叠代數據曝光:
一個月共叠代 4 次;
模型推理效率提升 10 倍,最近一次帶來的推理提升達到 123%;
推理性能提升 50%,模型算力利用率提升 1 倍。
簡單歸納就是說,叠代很快、不僅成本降下來了,順便還把性能提升了?!
要知道過去一個月内,全球網友們的熱情被這場技術風暴所點燃,人們玩得不亦樂乎,ChatGPT 也 overload 了好幾次。
作爲國内率先發布的文心一言,是如何保持住高效叠代的?
在這份成績單中,找到了答案。
文心一言首月數據曝光
曝光的數據不多,但全都是關鍵技術指标——
大模型訓練與推理方面的數據,直接影響後續産品體驗效果的好壞。
首先,叠代方面。百度飛槳支撐的大模型推理服務在 4 月 19 日再次叠代,搭載了支持動态插入的分布式推理引擎。據消息稱,這還是業内首創。
截止目前,已叠代至 3.5 版本,一個月共叠代 4 次。
具體到推理方面,QPS (每秒查詢推理響應速度)提升 10 倍,模型推理性能提升 50%,模型算力利用率提升 1 倍。
QPS (每秒查詢推理響應速度)提升 10 倍,也就代表着是大模型推理效率的提升,推理成本降低爲原來的 10 分之一。換言之,在同等成本情況下可以爲更多用戶提供服務。
模型推理性能提升 50%。大模型需要在用戶反饋中持續不斷的學習,推理作爲大模型應用的關鍵,其性能的提升直接影響到産品側的效果。
而算力利用率提升 1 倍,同樣也是降本增效的體現。
事實上,不管是叠代速度,還是從模型成本、性能以及效率等多方面的提升,而這背後文心一言之所以能夠高效叠代,飛槳的重要性不容忽視。
更确切地來說,「飛槳 + 文心一言」聯合優化。
大模型不僅需要單純的「暴力美學」的支撐,同時還需要深度學習框架作爲底層來支持高效、穩定的分布式訓練。
此次數據就可以看到,飛槳即向上與模型「文心一言」,又向下與芯片算力都實現了協同優化,實現整體的效能提升。
而具體到推理過程,飛槳能爲文心一言 " 定制 " 了一個精密生産流程,結合大模型算力、數據、參數量等特點來設計工藝,從而提升了推理效率和性能,幫助模型學習得越快越好。
大模型技術行業挑戰
這些叠代數據的背後,帶出了大模型技術的新行業挑戰值得探讨。
随着更多産業玩家的推進,我們已經明顯感知到大模型投入大成本高。如果沒有足夠的資金和計算資源,就連開發訓練這一階段都難以進行。
據最新消息,OpenAI 每天需要支付 70 萬美元來維持 ChatGPT 基礎設施運行。在此之前微軟也已經從中投入了數十億美元。
誠如每每有行業大佬選擇大模型創業,都有網友調侃:這點錢不夠燒的。
其次,大模型優化難叠代要求高,需要自上而下的全局優化。
以往認知中,大模型核心技術突破來源于暴力資源累積,可以是超大規模計算資源的聚集、超大規模模型結構的設計、海量數據亦或是參數量的提升……
但事實上這牽涉到每個環節自上而下很強的經驗積累。
誠如 OpenAI 有業内人士消息稱,它将整個公司最優秀的算法研究員,拿去做數據規劃和處理。
現在在百度文心一言,也得到再一次印證:
大模型的突破和叠代,并非靠簡單三駕馬車(算力算法數據)來驅動,而是一整套從底層芯片框架到模型訓練推理等流程的系統工程化難題。
與此同時在這份數據中,也透露出了百度的經驗解法:
全局技術棧,端到端優化。
早在文心一言啓動邀測時,李彥宏就已經披露,百度将目前已有的 AI 技術棧自上而下分成了四個方面:應用層、模型層、框架層與芯片層。
四層架構之間端到端優化,進而來實現降本增效。此次飛槳與文心一言的聯合優化,正好就是這套解法最直觀的展現。
飛槳之于文心一言,一方面其開源分布式架構,可以支持模型大規模 GPU 并行訓練,以提升模型的性能和效率。另一方面,連接了芯片層與模型層,将整套流程設計得更加精密和适配。
甚至業内人士這樣形象化地形容:
大模型就像汽車的發動機,要壓榨出發動機瞬時最大爆發力(QPS)以及最優的性能表現。
深度學習就像是發動機的動力源 " 變速箱 ",可以讓發動機整體部件組合更精密、動力更強。
更關鍵在于,如果這幾層技術棧都是自主自研,那麽協同合作就會更高效,效率提升也會更加明顯。
這些又意味着什麽?
最後,在這些行業挑戰和百度經驗解法之中,也透露出了大模型發展的幾大趨勢。
首先,大模型想要跑得快跑得穩,必須端到端優化。
OpenAI 的成功一方面可以歸結于自身的人才技術以及長期投入,另一方面微軟從框架到算力的支持,也在其中做出了關鍵貢獻,這才有了持續驚豔全球的 ChatGPT。
隻是當時這種端到端優化的範式沒有被太多強調關注。而此次曝光的文心一言數據,則是更廣泛地證明了端到端優化的優勢。
以往大家所關注到的是大模型訓練中算力、算法以及數據的必要性。但底層比如深度學習框架,對大模型訓練推理的重要作用也應該被大家所廣泛感知。
其次,端到端優化的趨勢,也正在改變大模型賽道遊戲規則。
ChatGPT 風暴席卷而來,巨頭們紛紛進場,大佬們前後腳創業,大模型人才被哄搶,每周都有上千個 AI 應用湧現……每個躬身入局的機構都在金錢、時間等方面進行搶奪與追趕。在大模型的創業浪潮中,有人把入場券門檻認爲 5000 萬美元,窗口期大概在半年到一年。
但現在這種端到端優化趨勢,正在讓創業窗口期越來越短。
原因無他,大模型雪球效應已經開始展現。
以百度爲代表的大模型玩家,正在形成 " 架構 - 大模型 - 應用 - 數據 " 飛輪加速閉環。一方面,推理成本降低,加速大模型産業落地,甚至可能比上一波浪潮更快;另一方面,大模型叠代速度越來越快,産品應用具有長期持續性,商業壁壘更容易建立,對下遊生态玩家而言,這自然是剛需和利好。
但與之相關,大模型創業甚至産品發布的窗口期也正在被壓縮,留給大模型創業玩家的湧現的時間也不多了——
他們不光要準備金錢、時間等這些外在資源儲備,還需要考慮自身産品能否還具有競争力。另外創業的必要性也正在減弱:就動辄大幾千萬甚至上億的入場券來說,既沒有必要重複造輪子,也沒有端到端核心積累優勢。
大模型創業的機遇,會開始朝着生态和應用創新傾斜。
但也正因如此,反而更加彰顯了大模型自主的重要性,因爲太基礎、太底層、太需要把生态放在放心安心的國産層面了。
大模型趨勢再明晰不過,千行百業的落地價值也已經預見,入局是必然,但之前是否需要按照地緣區域或國界劃分 " 造輪子 " 卻沒有共識——有些論點裏,依然相信科學技術的進展會普惠到全世界。
然而随着地球另一邊,OpenAI 越來越 Close,API 輸出的區别對待,中國需要自己的大模型底座,正在成爲共識。
有意思的是,這在芯片、深度學習框架、底層架構平台的打造過程中,已經有過一輪讨論,有過一輪經驗教訓,并且還被類比爲了汽車産業中的 " 發動機 ",最後明确 " 發動機 " 必須要自主,這樣産業才真正安全。
然而到了大模型競速中,對于 " 變速箱 " 的認知,之前因爲對大模型認知不完備,存在不同聲音,但此役過後,應該無人再有異議了。
畢竟百度已經在打造、叠代的過程中,展現出了這種四層自研技術棧的端到端協同的必要性和重要性。
不過也正是這種必要性和重要性,進一步明示了大模型打造的殘酷的遊戲規則:
凡有的,還要加倍給他,叫他多餘;沒有的,連他所有的也要奪過來。
這背後既是端到端全棧帶動的壁壘,更是數據、應用驅動飛輪之下越滾越大的雪球。
随着雪球向前,大模型産業落地的速度自然會加快,同時留給其他大模型玩家湧現的時間也越來越緊缺。
這種趨勢已經開始,這種趨勢還會持續。