編輯 / 騰訊科技 郭曉靜
創業一年的賈揚清,選擇的方向是 AI Infra。
賈揚清是最受關注的全球 AI 科學家之一,博士期間就創立并開源了著名的深度學習框架 Caffe,被微軟、雅虎、英偉達等公司采用。
2023 年 3 月,他從阿裏離職創業,并在随後錄制的播客中說,自己并非是因爲 ChatGPT 火爆而創業,後來創業項目浮出水面,也确實證實,他沒有直接入局大模型。矽谷著名風投 a16z 在去年發表的一篇關于 AIGC 的文章中就曾經提到過:" 目前來看,基礎設施提供商是這個市場上最大的赢家。"
賈揚清在去年的文章中也提到," 不過要做這個赢家,就要更聰明地設計 Infra 才行 "。在他創辦的公司 Lepton.AI 的官網上,有一句醒目的 Slogan"Build AI The Simple Way(以簡單的方式構建 AI)"。
最近,賈揚清在高山書院矽谷站 " 高山夜話 " 活動中,給到訪的中國企業家做了一次深度的閉門分享,分享的内容直擊行業痛點,首先從他最專業的 AI Infra 開始,詳細分析了 AI 時代的 Infra,到底有什麽新的特點;然後,基于 AI 大模型的特點,幫助企業算了一筆比較詳細的經濟賬——在不可能三角成本、效率、效果中,如何選才能達到比較好的平衡點。
最後也讨論到 AI 整個産業鏈的增量機會及目前大模型商業模式的糾結點:
" 每次訓練一個基礎大模型,都要從零開始。形象一點來描述,這次訓練‘投進去 10 個億,下次還要再追加投 10 個億’,而模型叠代速度快,可以賺錢的窗口也許隻有大概一年。所以每個人都在思考這個終極問題,‘大模型的商業模式到底怎樣才能真正有效?’ "
賈揚清的過往經驗大部分是 TOB 的。他也多次在分享中很坦誠地表示,"TOC 我看不太清楚,TOB 看得更清晰一些。"
"AI 從實驗室或者說從象牙塔出來到應用的過程中,該蹚過的雷,都會經曆一遍。" 無論大語言模型給人們多少驚豔,它的發展都不是空中樓閣,既往的經驗和範式有變也有不變。
爲了方便閱讀,我們在文首提煉幾個主要觀點,但強烈建議完整閱讀,以了解賈揚清完整的思考邏輯:
1、一個通用的大模型的效果固然非常好,但是在企業實際應用當中,中小型模型加上自己的數據,可能反而能夠達到一個更好的性價比。
2、至于成本問題,我們也算了一筆經濟賬:一台 GPU 服務器就可以提供支撐的 7B、13B 模型通過微調,性價比可能比直接使用閉源大模型高 10 倍以上。
3、我個人認爲,英偉達在接下來的 3~5 年當中,還會是整個 AI 硬件提供商中絕對的領頭羊,我認爲它的市場發展占有率不會低于 80%。但是今天 AI 模型逐漸标準化,我們也看到了硬件層面另外一個機會。
4、目前我們看到 AI 應用中,有兩大類應用,已經跨越死亡谷,開始有比較持續的流量:一個是提效,另外一個是娛樂。
5、大量的傳統行業應用,其實是 AI 行業裏值得探究的深水區。
6、我個人關于 Supper App 的觀點可能稍微保守一些,也有可能是因爲我自己的經曆很多都在做 TOB 的服務,我認爲 Super APP 會有,但是會很少。
以下爲分享内容精華整理:
随着大型語言模型的興起,出現了一個新概念—— Scaling Law(規模定律)。根據 Scaling Law,大語言模型的性能與其參數量、訓練數據的大小和計算量呈幂律關系。簡單來說,用通用的方法給模型巨大的數據,讓模型能夠擁有輸出我們想要的結果的能力。
這就使得 AI 計算與 " 雲計算 " 有很大的不同,雲計算主要服務于互聯網時代的需求,關注資源的池化和虛拟化:
● 怎麽把計算,存儲,網絡,從物理資源變成虛拟的概念," 批發轉零售 ";
● 如何在這種虛拟環境下把利用率做上去,或者說超賣;
● 怎麽更加容易地部署軟件,做複雜軟件的免運維(比如說,容災、高可用)等等,不一而足。
用比較通俗的語言來解釋,互聯網的主要需求是處理各種網頁、圖片、視頻等,分發給用戶,讓 " 數據流轉(Moving Data Around)起來。雲服務關注數據處理的彈性,和便捷性。
但是 AI 計算更關注以下幾點:
● 并不要求特别強的虛拟化。一般訓練會 " 獨占 " 物理機,除了簡單的例如建立虛拟網絡并且轉發包之外,并沒有太強的虛拟化需求。
● 需要很高性能和帶寬的存儲和網絡。例如,網絡經常需要幾百 G 以上的 RDMA 帶寬連接,而不是常見的雲服務器幾 G 到幾十 G 的帶寬。
● 對于高可用并沒有很強的要求,因爲本身很多離線計算的任務,不涉及到容災等問題。
● 沒有過度複雜的調度和機器級别的容災。因爲機器本身的故障率并不很高(否則 GPU 運維團隊就該去看了),同時訓練本身經常以分鍾級别來做 checkpointing,在有故障的時候可以重啓整個任務從前一個 checkpoint 恢複。
今天的 AI 計算 ,性能和規模是第一位的,傳統雲服務所涉及到的能力,是第二位的。
這其實很像傳統高性能計算領域的需求,在七八十年代我們就已經擁有超級計算機,他們體積龐大,能夠提供大量的計算能力,可以完成氣象模拟等服務。
我們曾做過一個簡單的估算:過去,訓練一個典型的圖像識别模型大約需要 1 ExaFlop 的計算能力。爲了形象地描述這一計算量,可以想象全北京的所有人每秒鍾進行一次加減乘除運算,即便如此,也需要幾千年的時間才能完成一個模型的訓練。
那麽,如果單台 GPU 不足以滿足需求,我們應該如何應對呢?答案是可以将多台 GPU 連接起來,構建一個類似于英偉達的 Super POD。這種架構與最早的高性能計算機非常相似。
這時候,如果一台 GPU 不夠怎麽辦?可以把一堆 GPU 連起來,做成一個類似于英偉達的 Super POD,它和最早的高性能計算機長得很像。
這就意味着,我們又從 " 數據流轉 " 的需求,回歸到了 " 巨量運算 " 的需求,隻是現在的 " 巨量運算 " 有兩個進步,一是用于計算的 GPU 性能更高,另外就是軟件更易用。伴随着 AI 的發展,這将是一個逐漸加速的過程。今年 NVIDIA 推出的新的 DGX 機櫃,一個就是幾乎 1Exaflops per second,也就是說理論上一秒的算力就可以結束訓練。
去年我和幾位同事一起創辦了 Lepton AI。Lepton 在物理中是 " 輕子 " 的意思。我們都有雲計算行業的經驗,認爲目前 AI 的發展給 " 雲 " 帶來一個完全轉型的機會。所以今天我想重點分享一下,在 AI 的時代,我們應該如何重新思考雲的 Infrastructure。
企業用大模型,先算一筆 " 經濟賬 "
随着模型規模的不斷擴大,我們面臨着一個核心問題:大模型所需的計算資源成本高昂,從實際應用的角度出發,我們需要思考如何高效地利用這些模型。
以一個應用場景爲例,我們可以比較形象地看出一個通用的大型語言模型與針對特定領域經過微調的模型之間的差異。
我們曾經嘗試過 " 訓練一個金融領域的對話機器人 "。
使用通用模型,我們直接提問:" 蘋果公司最近的财報怎麽樣?你怎麽看蘋果公司在 AI 領域的投入。" 通用大模型的回答是:" 抱歉,我無法回答這個問題。"
針對特定領域微調,我們使用了一個 7B 的開源模型,讓它針對性地 " 學習 " 北美所有上市公司的财報,然後問它同樣的問題。它的回答是:" 沒問題,感謝您的提問。(Sure,thanks for the question)" 口吻十分像一家上市公司的 CFO。
這個例子其實可以比較明顯地看出,通用大模型性能固然很出色,但是在實際應用中,使用中小型開源模型,并用特定數據微調,最終達到的效果可能更好。
至于成本問題,我們也算了一筆經濟賬:一台 GPU 服務器就可以提供支撐的 7B、13B 模型通過微調,性價比可能比直接使用閉源大模型高 10 倍以上。
如上圖所示,以 Llama2 7B 開源模型爲例,100 萬 token 的成本大約爲 0.1 美元 -0.3 美元。使用一台英偉達 A10GPU 服務器就能支持訓練,以峰值速度 2500token 每秒來計算,一小時的成本大約爲 0.6 美元。自有這台服務器,一年的成本大約爲 5256 美元,并不算高。
如果用閉源模型,100 萬 token 消耗速度很快,成本遠高于 0.6 美元每小時。
不過成本消耗也要考慮應用的種類和模型的輸出速度,模型輸出速度越快,成本也會越高。如果可以有 mini-batch(小批量數據集)等,同時來跑,它的整體性能就會更好,但是單個的輸出性能可能就會稍微差一點。
這就引出另外一個問題,大模型的輸出速度,怎樣比較合适?
以 Chatbot 舉例,人說話的速度大概爲 120 詞每分鍾,成人閱讀的速度大概爲 350 詞左右,反向計算 token,每秒鍾 20 個 token 左右,就能達到比較好的體驗。如果這樣計算的話,如果應用的流量夠大,跑起來成本是不高的。
但是,究竟流量能不能達到 " 夠大 ",這就變成了 " 雞生蛋、蛋生雞 " 的問題。我們發現了一個很實用的模式可以解決這個問題。
在北美,很多企業都是先用閉源大模型來做實驗(比如 OpenAI 的模型)。實驗規模大概在幾百個 million(百萬 token),成本大概爲幾千美元。一旦數據飛輪運轉起來,再把已有數據存下來,用較小的開源模型微調自己的模型。現在這已經變成了相對比較标準的模式。
在考慮 AI 模型的時候,各家企業其實都在各種取舍中找平衡。在北美經常講一個不可能三角,當你買一輛車的時候跑得快、便宜和質量好,這三者是不可兼得的。
上文提到的标準模式,其實就是首先追求質量,然後再考慮成本,如果想同時滿足這三方面,基本是不可能的。
半年之前我非常強烈地相信開源模型能非常迅速追趕上閉源模型,然而半年之後,我認爲開源模型和閉源模型之間會繼續保持一個非常合理的差距,這個差距用比較形象的具體模型舉例來說,閉源模型到 GPT-4 水平的時候,開源模型可能在 GPT3.5 左右。
硬件行業的新機會
早在 2000 年初,英偉達就看到了高性能計算的潛力,于是 2004 年他們做了 CUDA,到今天爲止已經 20 年。今天 CUDA 已經成爲 AI 框架和 AI 軟件最底層的标準語言。
早期,行業内都認爲高性能計算寫起來很不方便,英偉達介紹了 CUDA,并說服大家它簡單易用,讓大家嘗試來寫。試用之後,大家發現确實易用且寫出來的高性能計算速度很快,後來幾乎各大公司的研究員們都把自己的 AI 框架基于 CUDA 寫了一遍。
CUDA 很早就和 AI 社區建立了很好的關系,其它公司也看到了這個市場的巨大機會,但是從用戶側來看,大家用其它産品的動機不強。
所以市場上還會有一個關注焦點,那就是是否有人能夠撼動英偉達的地位,除了英偉達,新的硬件提供商還有誰可能有機會?
首先我的觀點不構成投資建議,我個人認爲英偉達在接下來的 3~5 年當中,依然還會是 AI 硬件提供商中絕對的領頭羊,它的市場占有率不會低于 80%。
但是今天 AI 模型逐漸标準化,我們也看到了硬件層面另外一個機會。前十年中,在 AI 領域大家都在糾結的一個問題,雖然很多公司能夠提供兼容 CUDA 的适配,但是這一層 " 很脆 "。" 很脆 " 的意思是模型多種多樣,所以适配層容易出問題,整個工作鏈就會斷。
今天越來越少的人需要寫最底層的模型,越來越多的需求是微調開源模型。能夠跑 Llama、能夠跑 Mistral,就能滿足大概 80% 的需求,每一個 Corner Case(特殊情況)都需要适配的需求逐漸變少,覆蓋幾個大的用例就可以了。
其它硬件提供商的軟件層在努力兼容 CUDA,雖然還是很難,但是今天搶占一定市場占有率,不再是一件不可能的事情;另外雲服務商也想分散一下投資。所以這是我們看到的一個很有意思的機會點,也是 cloud infra 在不斷變化的過程。
生成式 AI 浪潮:哪些是增量機遇?
我們再看一下 AI 應用的情況。今天我們可以看到 AI 應用的供給在不斷增加。從 Hugging Face 來看,2022 年 8 月模型數量大概隻有 6 萬,到 2023 年 9 月,數量就已經漲了 5 倍,增速是非常快的。
目前我們看到 AI 應用中,有兩大類應用,已經跨越死亡谷,開始有比較持續的流量:
第一大類是提效(productivity)。例如在電商行業,用 AIGC 的方式更快生成商品展示圖片。例如 Flair AI,應用場景舉例來說,我希望能給瓶裝水拍攝一個廣告圖片,僅僅需要把水放在方便的地方,拍一張照片。然後把這張照片發送給大模型,告訴它,我希望它被放在有皚皚白雪的高山上,背景是藍天白雲。它就能生成一個直接可以上傳電商平台,作爲産品展示的圖片。
其它類型也有很多,比如在企業海量知識庫做搜索且有更好的交互功能,例如 Glean。
第二大類是娛樂(entertainment),比如 Soul,以 AI 的方式做角色扮演及交互。
另外我們還發現一個趨勢是 " 套殼 APP" 越來越少了。其實大家發現直接 " 套殼 " 通用大模型的産品會有一個通病,交互效果特别 " 機器人 "。
反而是 7B、13B 的稍小模型,性價比和可調性都特别好。做個直觀的比喻:大模型就好像是 " 讀博士 " 讀軸了,反而是本科生的實操性更強。
做應用層,總結來講有兩條路徑:第一條是訓練自己的基礎大模型,或者是自己去微調模型。
另外就是有自己非常垂直領域的應用,背後是很深的場景,直接用 Prompt 是不可行的。
比如醫療領域,用戶提需求問:" 我昨天做的化驗結果怎麽樣?" 這其實需要背後有個大模型,除了對化驗指标做出專業的分析,還需要給用戶提出飲食等建議。
這背後涉及到化驗、保健、保險等産業鏈的多個細分場景,需要醫療産業鏈很深的經驗。需要在既有的經驗上加一層 AI 能力來做好用戶體驗,這是我們今天發現的比較有持續性的 AI 應用模式。
關于未來到底怎樣,預測未來是最難的。我的經驗一直是 B 端,邏輯主要看供需。AI 帶來的增量需求首先是高性能的算力。第二個是高質量的模型,以及上層需要的适合這些高性能、高質量和高穩定性需求的計算的軟件層。
所以我覺得從高性能算力來看,英偉達顯然已經成爲赢家。另外這個市場可能會容納 2~3 家比較好的芯片提供商。
從模型來看,OpenAI 肯定是一個已經比較确定的赢家,市場足夠大,應該能夠容納 3-5 家不同的模型生産廠商,而且它很有可能還會出現偏地域性的分布。
傳統行業的 AI 深水區
我還想講的是大量的傳統行業應用,這其實是 AI 行業裏值得探讨的深水區。
大語言模型出現,大家曾經一度覺得 OpenAI 弄了一個特别厲害的大模型,寫點 Prompt 就能搞定任何事情。
但是 Google 早在世紀之初就寫過一篇文章,到今天我仍然覺得這個觀點是對的。這篇文章說,機器學習模式隻是整個 AI 鏈路中非常小的一部分,外面還有大量的工作,在今天來說也會變得越來越重要。比如如何收集數據、如何保證數據和我們的應用需求一緻,如何來做适配,等等。
模型上線之後還有三件事:第一是跑的穩定,第二個是能夠把結果質量等都持續穩定地控制起來,以及還有非常重要的一點是把應用當中所得到的數據,以一種回流的方式收集回來,訓練下一波更好的模型。
到今天這個方法論依然适用,就是在行業競争中,誰能有數據,誰能夠把用戶的反饋更好地調試成 " 下一波訓練的時候可以更好的應用 " 的數據,這也是核心競争力之一。
今天大家都有這樣一種感覺,大模型的結構相差不大,但是數據和工程能力的細節才是決定模型之間差别的地方,OpenAI 其實持續在給我們證明這件事。
今天我們看整個技術棧的架構是什麽樣子的,a16z 給了我們一個非常好的總結(如下圖):
IaaS 這一層基本上是英偉達做 " 老大 ",其它公司在競争硬件和雲平台,這是最下層的堅實基礎。
雲平台今天也在發生不斷的變化,大家最近可能在技術趨勢上聽到一個詞叫做 " 下雲 ",以前大家肯定聽說過 " 全棧上雲 "。
爲什麽會出現 " 我要下雲 " 的思潮?就是因爲算力本身是巨大的成本,而且又是可以 " 自成一體 " 的成本,所以行業内開始把傳統的雲成本和今天 AI 算力的成本分開來考慮。
今天越來越多的 PaaS 開始變成 Foundation Model,有些是閉源的,有些是開源的,然後在上面再做一層 APP。今天每一層都競争激烈。但是我個人感覺在模型這一層以及往上的上層應用這一層,是最活躍的。
模型層主要是開源和閉源之争。
應用層有兩個趨勢:一個是模型在努力往上做應用;另外就是是應用層在拼命想理解模型到底能有什麽能力,然後把自己的應用加上 AI,讓自己的應用更強大。
我個人認爲,模型往上做應用有點難,應用把自己的 AI 能力加進來更有希望。
國内還有種說法叫做 Super APP(超級應用),Super APP 很重要的一點是需要 " 端到端把問題解決 "。a16z 在他的圖上也描述會有一些端到端的 APP 出來,本質上需要模型的推理和規劃的能力做的非常好。ChatGPT 就是端到端全部打通,模型也是自己的,應用也是自己的,這是 Super App 的狀态。
但是我個人關于 Super App 的觀點可能稍微保守一些,也有可能是因爲我自己的經曆很多時候都在做 TOB 的服務,我個人的感覺是 Super APP 會有,但是會很少。
我個人的感覺是,B 端的應用越來越多的還是會以一種像搭積木一樣,用開源的模型結合企業自己的數據,把企業自己的應用搭起來的一個過程。
大模型的商業模式:兩個糾結和一個市場現象
但是在大模型進行商業化落地的過程中,我觀察到市場還是會有兩個糾結:
第一個糾結是營收的流向和以往不太一樣,不太對。
正常商業模式的流向應該是:從用戶那裏收費,然後 " 留成本 " 給硬件服務商,比如英偉達。但是今天是橫向的,從 VC(風投)拿到融資,直接 " 留錢 " 給硬件廠商。但是 VC 的錢本質是投資,創業者最後可能要 10 倍還給 VC,所以這個資金流向是第一個糾結。
第二個糾結是今天的大模型對比傳統軟件,可以創造營收的時間太短。
其實開發一次軟件之後,可以收回成本的時間比較長。比如像 Windows,雖然過幾年叠代一代,但是它底層的很多代碼是不用重寫的。所以一個軟件被寫完,可能在接下來的 5-10 年當中,它給我時間窗口持續叠代。而且投入的成本大部分是程序員的成本。
但是大模型的特點是,每次訓練過一個模型之後,下一次還是要從零開始重新訓練。比較形象一點來說 " 今天投入 10 個億,再叠代的時候,又得再追加投入十個億 "。
但是模型的叠代速度又很快,中間能夠賺錢的時間窗口究竟有多長?今天看起來好像大概是一年左右,甚至更短。
于是大家就開始質疑,大模型的成本遠高于傳統的軟件,但是做完一個模型之後,能賺錢的時間遠低于傳統的軟件。
所以就回到了這個終極問題,大模型的商業模式到底怎樣才能真正有效?
我還觀察到一個市場現象,去年整個市場都非常痛苦,硬件需求的突然暴漲,整個供應鏈都沒反應過來,等待時間很長,甚至可能 6 個月以上。
最近我們觀察到的一個現象是供應鏈沒有那麽緊張了。第一是全球供應鏈也開始緩過來;第二我個人判斷有一部分以前因爲焦慮而提前囤貨的供應商,覺得現在要開始收回成本了。之前供不應求的緊張狀态會逐漸變好,但是也不會一下子變成所有人都愁賣的狀态。
以上就是我基于這波生成式 AI 爆發,對整個 AI 産業造成的影響的個人觀察。也正是在這個浪潮中,Lepton 正在持續幫助企業和團隊在生成式 AI 落地的過程中找到成本、效果、效率的最佳均衡點。最後,其實可以以 Richard S. Sutton ——增強學習領域開山立派的一位導師,在 2019 年說的一句話作爲總結," 在整個 70 年的 AI 科研中,最重要的經驗就是,通過一個通用的方法(今天是深度學習),來利用大量的計算模型(今天是以英偉達爲代表的異構 GPU 爲基礎的高性能計算),這樣的方式是整個 70 年 AI 發展中最有效、最簡單的方式。"
The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.
—— Richard Sutton: "The Bitter Lesson"
文字經賈揚清本人确認,感謝高山書院(公衆号:gasadaxue)對本文的貢獻