魯迅先生 1923 年在北師大發表了著名的演講《娜拉走後怎樣》,其中的提問與思考方式振聾發聩,直到今天也依舊有效。面對很多産業現象、技術趨勢,我們也不妨多問幾個 " 之後怎樣 "。
比如說,自 ChatGPT 爆火之後,中國各個互聯網、科技公司競相推出了自己的大語言模型及相關應用。其實,關于中國能否有 ChatGPT 我們從未擔心過,而問題的關鍵在于 " 之後怎樣 "。
層出不窮的大語言模型,讓人眼花缭亂。但如此多的大模型,差異化和競争力從何而來?能否順利、低成本實現産業落地?能否有效支持模型的快速叠代?
發布大模型并不是終點,而是一場新長跑的起點。如果不能有效回答這些問題,那麽大模型也最終會像其他技術風口一樣,倏忽而來,倏忽而去。
慢慢地," 大模型之後怎樣 " 這個問題,也開始有了答案。4 月 23 日,我們看到一份百度文心一言内部流出的會議紀要。其中顯示,從 3 月開始,文心一言啓動邀測後的一個多月内,其模型已經叠代了 4 次,最近一次帶來的推理效果提升了達到 123%。
到底是什麽支持文心一言完成了這種超越常規的叠代速度?
這個 " 秘密 " 或許正是中國大模型走向未來所需要的動力,也是 " 大模型之後怎樣 " 的某種答案。
内部會議紀要
透露出文心一言的奔跑速度
根據内部紀要内容顯示,文心一言在開啓邀測後用戶數與同時在線人數都極速增長,面臨這種情況,文心一言需要及時獲得更快的響應速度。我們知道,機器學習類模型的應用邏輯包含數據準備—模型訓練—模型推理幾個步驟。文心一言面臨的響應挑戰,就是需要及時強化模型的推理能力。
爲了實現這個目标,百度對文心一言進行了模型層與框架層的聯合優化,從而在一個月内叠代了 4 次,實現了模型推理能力的極大提升。
是什麽讓文心一言獲得了這樣的奔跑速度?這就要提到百度飛槳 " 提前 " 做好的準備。作爲深度學習開發平台,飛槳可以支持 AI 模型從訓練到推理的全流程落地。其中,飛槳模型推理服務就可以有效支持大模型升級,這一服務在 4 月 19 日剛剛再次叠代,已叠代至 3.5 版本,它的特點是在業内首創了支持動态插入的分布式推理引擎,從而可以更有效完成龐大數據規模的 AI 模型進行推理部署。
至此我們可以從這份内部紀要中知道,文心一言能夠快速持續叠代,并且低成本落地應用的關鍵,就藏在這裏——飛槳與文心一言聯合優化。
從結果上看,聯合優化帶來的價值非常顯著。飛槳幫助文心一言實現了模型推理效率提升 10 倍,模型推理性能提升 50%,模型算力利用率提升 1 倍。其中,模型推理效率提升 10 倍,意味着推理成本降低爲原來 1/10,或者可以爲 10 倍數量的用戶提供服務;模型推理性能提升 50%,意味着飛槳可以幫助文心一言工藝更精密,模型的學習效果與魯棒性更強;模型算力利用率提升 1 倍,是由于飛槳向下兼容到芯片,實現全棧聯合優化,從而可以極大降低文心一言的算力開銷。
從這幾個方向可以看出,飛槳爲文心一言帶來的價值,是持續性且多方面的,其中最重要的是,飛槳讓文心一言可以持續性、低成本向前奔跑,不斷進化。
這也恰好解釋了這個問題:大模型,路在何方?
飛槳
讓大模型節奏飛起的 AI 引擎
在 ChatGPT 全球化爆火,各家廠商、投資人,都在不遺餘力地擠上大模型賽道。這種情況當然可以理解,但也必須看到,這條賽道不僅門檻高、入局難,在入局之後構建持續競争力同樣很難。
大模型意味着龐大的算力開支、數據開支,以及更爲恐怖的模型叠代成本。入局大模型之後,必須根據用戶反饋快速叠代,高效率升級,否則一不小心就會掉隊,在第一輪風口過去後陷入行業洗牌,緊跟行業趨勢,不斷推動模型升級,又會面臨巨大的工作量與模型推理成本。
這個兩難選擇并不遙遠,很快就會成爲困擾大量新玩家的頭疼問題。
而多年部署 AI 基礎設施與基礎技術的百度,其優勢就在這時顯示了出來。飛槳與文心一言的聯合優化,讓文心一言在訓練和推理過程中效率大幅提升,實現了真正的人家起跑,我已經幾輪加速,節奏快到飛起。
大模型與 AI 開發平台,是相輔相成、互爲表裏的關系。比如有分析人士解讀認爲," 大模型就仿佛汽車的發動機,光賬面上的動力強,參數大是沒有用的,要壓榨出發動機瞬時最大爆發力(QPS)以及最優的性能表現。深度學習框架就像是生産發動機和變速箱的,可以讓發動機整體部件組合更精密、動力更強。自研産品彼此适配度更高,協同會更高效,這可能是效率提升的最根本原因。" 依托風口入局大模型,終歸會有一種空中樓閣的隐憂,至少難以将全面的技術棧掌握在自己手中,實現更高效、可控的模型升級。
由此可見,大模型走向成功,除了算力、數據的基礎之外,深度學習框架同樣扮演着關鍵角色。面對紛繁而出的大模型,百度文心系列大模型的差異化優勢,也就在百度十年搭建的飛槳平台中展露了出來。
而當我們把大模型與飛槳的聯動關系,放到科技自立自強的戰略高度來審視。又會發現一些别樣的答案:飛槳既是百度的 AI 護城河,也是中國大模型的動力引擎。
中國 AI
勝負系于工程化
最近,我們能看到很多大語言模型的發布會,差不多每一家都會說,我們目前确實不如 ChatGPT,以後繼續努力。
那麽問題來了,怎麽努力?
事實上,努力不是說說就行了,而是要找到方式和方法。ChatGPT 代表的算法優勢、人才優勢、算力優勢都是短期很難抹平的,至少看不到可以快速超車的戰略空間。中國 AI 想要走通大模型這條路,就隻能揚長避短,而中國 AI 的優勢在哪呢?從百度流出的内部會議紀要中其實已經告訴了我們答案:工程化。
通過飛槳長期堅持的 AI 工程化路徑的掌握與打磨,我們可以看到百度發展大模型的獨特優勢,同時也可以看到中國 AI 整體性的戰略機遇。
首先,對于百度内部來說,通過飛槳牢牢把控工程化能力,可以提升文心一言的叠代速度,降低算力、人工、數據等開銷,從而讓文心一言能夠在同等成本下服務的用戶更多,适配産品的效率更高。這就像同樣從一處名叫 " 大模型 " 的深海油井取得原油,飛槳就像一艘輪船,船速更快,運量還大,而其他人在用帆船運輸。效率意味着成本,成本意味着商業化可能性,這就是飛槳的價值,也是 AI 工程化能力的魅力。
從百度向外看,飛槳帶來的工程化能力,意味着文心系列大模型的推理成本更低,繼而導緻其在各行業、各場景中的落地成本更低。這對于文心大模型融入行業,通過産業智能化産生價值是個重大利好。大模型走向千行百業,是今天每家公司都在喊的口号,但這個過程中,一定不能把模型落地成本全部轉嫁給行業用戶。消解這一成本的關鍵,也在于飛槳代表的工程化路徑。
最後,當大模型已經上升爲國家戰略,我們必須看到 AI 框架在科技自立自強進程中扮演的角色。如果事關國計民生,每天與無數國人進行問答的大模型,建立在其他國家的框架上,那麽其危險系數可想而知。當大模型愈發重要,關注并持續解決深度學習框架卡脖子的隐憂就更加重要。
而從另一個角度看,AI 框架與 AI 開發平台代表的 AI 工程化能力,是中國 AI 技術最亮眼、最特殊的部分。這一部分下接芯片,上達應用,通向千行百業的 AI 開發需求,恰好是 AI 技術中的戰略要沖所在。中國 AI 能否揚長避短,實現超車,極大概率就系于工程化能力的建設與發揮,系于 AI 框架與産業智能化的連接中。
中國大模型,就是行業大模型,就是強工程化、強落地性的大模型,隻有走通這條路,中國 AI 才有未來。