李沐重返母校，上交大秒變追星現場，大模型趨勢無保留分享

什麽是頂流？

AI 大神李沐回母校做演講，直接讓上交大變成了大型追星現場——

現場可謂是人人從從衆衆，先來感受一下這個 feel：

正式演講前的場外已經是排起了大長龍，現場更是座無虛席。

即便是演講結束，李沐老師也是被熱情的上交大學子圍得裏三層外三層：

許多學生更是把經典的《動手學深度學習》這本書拿了過來讓李沐老師簽名：

如此場景，甚至上交大計算機科學與工程系教授俞勇都在朋友圈發出了這樣的感慨：

第一次親眼看到追 " 星 " 的盛況。

△圖源：俞勇教授朋友圈，已授權

對此，李沐老師也回應俞勇老師：

母校老師同學太熱情了。

而李沐老師此次回母校的演講，歸結兩個關鍵詞，就是LLM 趨勢和個人職業選擇。

△圖源：小紅書用戶 " 昭曦 "

尤其是正值李沐老師創業一年半（BosonAI）之際，他在現場基于自己的經曆，總結了三個不同階段中 " 每天在想的基本目标 "：

大公司：你要想如何升職加薪

博士：你要想如何畢業

創業：你要想如何 " 退出 "（要麽上市，要麽賣掉）

△圖源：B 站用戶 "Kimoyee"

金句之多，内容之精彩，引得在場師生掌聲、笑聲，聲聲不斷。

那麽李沐老師具體都講了什麽？我們繼續往下看。

（PS：完整演講視頻見文末）

談 LLM 趨勢

首先對于 LLM 的整體構成，李沐認爲主要分爲三大方面，分别是數據、算力和算法。

而整個 LLM 的過程非常像煉丹，" 數據 " 就是找材料的環節。

就好比小說裏很多主角去深山裏找材料一樣，搞數據是個很難的過程，是個體力活。

之後的 " 算力 " 就是煉 " 數據 "，火量大一點、設備先進一點，能煉出來的東西就越好。

至于 " 算法 " 就相當于丹方，但這點與小說是不同的，因爲它每年都在快速進步、變化，并且對細節的把控顯得格外重要。

對于LLM 與上一次深度學習較大的區别，李沐認爲：

之前的深度學習 " 煉丹 " 是比較穩定的。

但現在 LLM" 煉丹 "，（開發者或用戶）是希望有靈魂在裏面的，它能夠解決很多問題。

接下來，李沐便針對上述的三大方面進行了詳細的講解。

在 LLM 硬件方面，李沐認爲最難且最重要的是帶寬（bandwidth）。

這是因爲現在大模型的訓練很難通過一個機器來搞定，而要做分布式，那麽瓶頸就會出現在帶寬上了。

畢竟現在基本上都會是多個服務器機架甚至是集群，即便兩個機架間隔 1 米，但由此帶來的哪怕幾納秒的延遲也是不能忍的。

帶寬之後，LLM 硬件難點便是内存（Memory）。

大模型在訓練過程中，是把超大的數據壓縮到了一起，使得模型的體量動辄便是幾百個 G，運行時的中間變量也會變得很大，因此需要很大的内存：

在未來，很有可能一個 200G 内存的芯片是走不動的。

這就意味着我們的模型大小一定程度上會被受限在某個尺寸；内存不夠，模型就大不了。

在帶寬、内存之後，便來到了算力（Compute），對此，李沐認爲：

摩爾定律依舊有效。

而模型到了一定尺寸之後，資源（Resources）又成了問題，也就是供電。

李沐基于自身經驗分享到，發現自己造一個電廠，比付電費的成本要低。

至于價格，當算力翻倍的時候，價格目前不一定會保持不變，可能是 1.4 倍的價格；但當市場競争足夠，長期來看可以做到價格不變。

至于芯片的替代品（Alternatives），李沐認爲谷歌的 TPU、英特爾的 Habana、AMD 和 Azure 的芯片在做推理時是 OK 的；但訓練方面，可能還需要幾年的時間。

李沐在此做了個小總結：

模型訓練每年會以 2 倍的速度變得更便宜、更快、更大。

今年訓練的大模型，到明年的價值就會減半。

在模型方面，李沐從語言（Language）、語音（Voice）、音樂（Music）、圖像（Image）和視頻（Video）等不同模态方面做了介紹，并認爲多模态是當下的一個趨勢。

李沐還給目前不同模态的現狀打了個分：

語言模型：80-85 分左右，目前是 gets good 的狀态。

音頻模型：70-80 分左右，目前是 good enough 的狀态。

視頻模型：目前還是比較弱的。

基于此，李沐給出了一個推論：

在長文本上的人機交互變得越發流行。

至于大模型的應用（Applicaitions），李沐認爲它們本質應該是可以爲用戶提供無限的人力資源。

而這些應用目前在白領和藍領職場上 " 上崗 " 或 " 協作 " 的效果如何，李沐做了個表格。

從結果上來看，隻有白領、文科屬性的簡單工作是 hold 得住的。

對于應用的總結，李沐認爲：

隻要數據足夠，萬物即可被自動化。

基于李沐創業一年半的經曆，他也分享了幾點技術上的思考。

首先，預訓練（pre-training）和後訓練（post-training）是同等重要的。

其次，沒有真正的垂直領域模型；再垂直的模型，它的通用能力也是差不了的。

以及，在大模型評測方面，李沐認爲現在的評測太簡單了，即使各種刷榜，但用起來的時候就能感受到真實效果。

因此他認爲評測這件事雖然很重要，但真正做起來卻很難。

除此之外，李沐還分享了幾個觀點：

數據定義了大模型的能力上限

自建 GPU 不會比租 GPU 便宜太多

大部分機器學習時代的經驗，依舊适用于大模型時代

而除了技術之外，李沐在這次演講中也給上交大的師生們分享了自己在職場上的心得。

談個人 " 打卡式人生 "

了解李沐的人或許對他的個人經曆比較熟知了。

本科和研究生就讀于上海交通大學，而後赴香港科技大學和 CMU 深造，在伯克利和斯坦福擔任助理教授。

也曾任職于百度和亞馬遜等科技大廠，最近的一年半則是創業BosonAI（第二次創業）。

李沐回顧自己的過往，在現場戲稱爲" 打卡式人生 "——什麽樣的地方都轉過了一遍了。

那麽李沐在經曆了種種之後，是一種什麽體驗？

這也正是我們文章開頭提到的 " 每天在想的基本目标 "（精彩的内容必須再提一遍）：

基于這三個大方面，李沐基于自己的經驗，将各自階段的優點和缺點羅列了出來。

例如對于" 打工人 "這個角色，李沐的 PPT 剛出來，上交大的學子們便笑了出來：

讀博士期間的優點和缺點是這樣的：

聊到創業的優點，李沐形象地将這個過程比喻爲：

可以體驗當（合法）海盜的樂趣，哪兒有錢就去搶一把，沒搶到就死掉了。

但李沐此次演講的兩個大 part 并非是割裂的，相反，是可以非常自然的做一個" 有機結合 "。

他認爲應該從 " 動機 " 出發去解決一個問題：

有學術價值：那就去做對 LLM 的理解（PhD/ 教職）

有商業價值：那就去做 LLM 上的新應用（創業）

有成長價值：那就去做 LMM 上的産品落地（打工人）

最後，李沐老師也給了上交大學生一點 Tips：

而談到創業歸來，就在前幾天，李沐在知乎寫的一篇文章《創業一年，人間三年》非常火爆。

不僅是李沐自述了創業一年來的進展，也在三言兩語之間，展現了大佬創業的勢能——

一開始沒打算直接做大模型，但張一鳴建議要創業就直接大模型；買卡需要排隊等不及隻好給老黃寫信，沒想到老黃就給安排了；剛創業做遊戲的 " 老蔡 " 就來交流過了——米哈遊那個老蔡；在斯坦福和快手創始人宿華散步，感歎創業心得……

總之，千字短文，但細節之精彩，故事之有趣，值得多讀幾遍：

《創業一年，人間三年》

One More Thing

目前已經有 B 站網友 Kimoyee 将李沐老師此次的演講視頻上傳，感興趣的小夥伴們可以 " 深度學習 " 下哦 ~

參考鏈接：

[ 1 ] https://www.xiaohongshu.com/explore/66c926d9000000001f01929c

[ 2 ] https://www.xiaohongshu.com/explore/66c81dd5000000001f014761

[ 3 ] https://www.bilibili.com/video/BV1vBWDepECq/?spm_id_from=333.337.search-card.all.click