馬斯克稱得上是個 " 魔鬼老闆 " 這事兒,已經出了名了。
現在,他的老部下卡帕西(Andrej Karpathy)又在最新訪談中 " 錘 " 了他一把(doge):
我不得不懇求他允許我招人。
他(馬斯克)總是默認要裁掉員工。
喜歡裁人之外,在這場紅杉組織的 AI Ascent 活動上,卡帕西還揭秘了更多馬斯克管理公司的細節:
痛恨開會、拒絕躺平、比起跟 VP 更喜歡直接和工程師們聊工作……
另外,他也聊了不少大家夥關心的大模型話題,包括:
LLM OS
規模重要嗎?
年輕的初創公司要如何與 OpenAI 競争?
更多細節,以下奉上文字版分享 ~
(Claude 3 亦有貢獻)
大語言模型是新時代的 CPU
Q:安德烈,非常感謝你今天加入我們。OpenAI 最初的辦公室就在我們舊金山辦公室的對面,當時你們很多人都擠在一起。
除了在一家巧克力工廠樓上工作,實現了威利 · 旺卡的夢想,在這裏工作還有哪些令你難忘的時刻?
卡帕西:是的,OpenAI 最初的辦公室就在那裏,如果不算 Greg 的公寓的話。
我們在那裏待了大概兩年,樓下就是巧克力工廠,味道一直很香。那時團隊大概有 10-20 多人。
我們在那裏度過了一段非常有趣的時光。老黃在 GTC 大會上提到的,他把第一台 DGX 超級計算機送到 OpenAI 的事,就發生在那裏。
Q:安德烈其實是不需要介紹的,不過我還是想提一下他的背景。他師從 Geoffrey Hinton 和李飛飛,最早因爲在斯坦福大學開設的深度學習課程成名。
2015 年他聯合創辦了 OpenAI。2017 年,他被馬斯克挖走了。
大家可能不太記得當時的情況了:特斯拉經曆了 6 任 Autopilot 負責人,每個人都隻做了 6 個月。我記得安德烈接手這個職位時,我還祝他好運來着。
沒過多久,他就回到了 OpenAI。而現在他擁有完全的自由,可以想做什麽就做什麽。所以我們很期待聽他今天分享的見解。
我最欣賞安德烈的地方在于,他是一位令人着迷的未來主義思想家,他是堅定的樂觀主義者,同時他也是非常務實的建設者。今天他會和我們分享一些關于這些方面的見解。
首先,即便在 7 年前,AGI 看起來也是一個在我們有生之年幾乎不可能實現的目标。而現在它似乎已經在望了。你對未來 10 年有什麽看法?
卡帕西:你說的沒錯。幾年前,AGI 的路徑還很不明朗,還處于非常學術化的探讨階段。但現在已經很清晰了,大家都在努力填補這片空白。
優化工作正在如火如荼地進行。大緻來說,每個人都在努力構建 "大模型操作系統(LLM OS)"。
我喜歡把它比作一個操作系統。你要準備好各種外圍設備,然後把它們連接到一個新的 CPU 上。這些外圍設備包括文本、圖像、音頻等各種模态。CPU 就是語言模型本身。它還要與我們已經構建的所有 Software 1.0 基礎設施相連。
我認爲大家都在努力構建這樣一個東西,然後把它定制成适用于各個經濟領域的産品。
總的來說,發展方向就是我們可以調整這些相對獨立的 agent,給它們分配高層次的任務,讓它們專門從事各種工作。這将非常有趣和令人興奮。而且不止一個 agent,會有很多 agent。想象一下那會是什麽樣子?
Q:如果未來真的如你所說,那我們現在應該如何調整自己的生活方式?
卡帕西:我不知道。我想我們必須努力去構建它,去影響它,确保它是正向的。總之就是盡量讓結果變好。
Q:既然你現在是一個自由人,我想提一個顯著的問題,那就是 OpenAI 正在主導整個生态。
今天在座的大多數人都是創業者,他們試圖開辟一些小衆市場,并祈禱 OpenAI 不會在一夜之間把他們打垮。
你認爲其中還有機會嗎?OpenAI 會在哪些領域繼續占據主導地位?
卡帕西:我的總體印象是,OpenAI 正在努力構建 LLM 操作系統。正如我們今天早些時候聽到的,OpenAI 正試圖開發一個平台。在此基礎上,你可以在不同的垂直領域建立不同的公司。
操作系統的類比其實很有意思,因爲像 Windows 這樣的操作系統,也自帶一些默認的應用程序,比如浏覽器。
所以我認爲,OpenAI 或其他公司可能也會推出一些默認的應用,但這并不意味着你不能在其上面運行不同的浏覽器,你可以在他們的基礎之上運行不同的 agent。
會有一些默認應用,但也可能會有一個充滿活力的生态系統,有各種各樣的應用,針對具體場景進行了微調。
我很喜歡用早期的 iPhone 應用來類比。這些應用一開始都有點像開玩笑,需要時間來發展。我想我們現在正在經曆同樣的事情。人們正在努力弄清楚這個東西擅長什麽?不擅長什麽?我如何使用它?如何編程?如何調試?如何讓它執行實際任務?需要什麽樣的監督?因爲它相當自主,但不完全自主的。所以監督應該是什麽樣的?評估應該是什麽樣的?有很多事情需要思考,需要理解。我認爲需要一些時間來弄清楚如何與這種新的基礎設施合作。所以我認爲在未來幾年我們會看到這一點。
Q:現在大語言模型的競賽正在如火如荼地進行,有 OpenAI、Anthropic、Mistral、Llama、Gemini,還有整個開源模型生态系統,以及大量的小模型。你如何預見生态系統未來的發展?
卡帕西:是的,所以我再次強調,操作系統的類比很有意思。我們有 Windows、macOS 這樣閉源的系統,也有開源的 Linux。我認爲大模型可能也會是這樣的格局。
我們稱呼這些模型的時候也要小心,你列舉的很多模型,比如 Llama、Mistral 等,我不認爲它們是真正的開源。這就像是把一個操作系統的二進制文件扔出來,你可以使用它,但不是完全有用。确實有一些我認爲是完全開源的語言模型,它們完整地發布了編譯 " 操作系統 " 所需的全部基礎設施,從數據采集到模型訓練。這比隻拿到模型權重肯定要好得多,因爲你可以微調模型。
但我認爲有一個微妙的問題,就是你不能完全微調模型,因爲你微調得越多,它在其他所有任務上的表現就會越差。
所以如果你想增加某種能力而不影響其他能力,實際上可能需要混合之前的數據集分布和新的數據集分布來進行訓練。如果隻給你模型權重,你其實做不到這一點。你需要訓練循環,需要數據集等。所以你在使用這些模型時實際上是受限的。
它們肯定是有幫助的,但我們可能需要更好的術語對其進行描述。開放權重模型、開源模型,還有專有模型,生态系統可能會是這樣的。而且很可能會與我們今天的生态系統非常相似。
規模是最主要決定因素
Q:我想問的另一個問題,就是規模。簡單來說,規模似乎是最重要的。數據規模、算力規模。因此,大型研究實驗室、大型科技巨頭今天擁有巨大的優勢。你對此有何看法?規模就是一切嗎?如果不是,還有什麽重要的?
卡帕西:我認爲規模絕對是第一位的。
其中有一些細節确實需要處理好。我認爲數據集的準備工作也很重要,要讓數據非常好、非常幹淨,這可以使計算效率提升。
但我認爲規模将是主要的決定因素,是第一主成分,當然你還需要把其他很多事情做好。
如果沒有規模,那你從根本上就無法訓練這些大模型。如果你隻做微調之類的工作,可能不需要那麽大的規模,但我們還沒有真正看到這一點完全實現。
Q:你能詳細說說除了規模之外,你認爲還有哪些重要因素嗎,可能優先級低一些?
卡帕西:首先,你不能隻訓練這些模型。如果你隻是提供資金和規模,實際上訓練這些模型仍然非常困難。
部分原因是基礎設施太新了,還在開發中,還不完善。但在這種規模上訓練模型是極其困難的,是一個非常複雜的分布式優化問題。這方面的人才目前其實相當稀缺。這基本上是一個瘋狂的事情,模型在成千上萬個 GPU 上運行,在不同的時間點随機失敗。監控這個過程,讓它工作起來,實際上是極其困難的挑戰。
直到最近,GPU 才像預期的那樣能處理 1 萬個 GPU 的工作負載。所以我認爲很多基礎設施在這種壓力下都在吱吱作響,我們需要解決這個問題。
現在,如果你隻是給某人一大筆錢或大量的 GPU,我不确定他們是否能直接生産出大模型,這就是爲什麽不僅僅是規模的問題。你實際上需要大量的專業知識,包括基礎設施方面、算法方面,以及數據方面,要非常謹慎。
Q:生态系統發展得如此之快,一年前我們認爲存在的一些挑戰,現在也越來越多地得到解決。幻覺、上下文窗口、多模态能力、推理速度越來越快、成本越來越低。現在還有哪些語言模型研究的挑戰讓你夜不能寐?你認爲有哪些問題足夠緊迫,但也是可以解決的?
卡帕西:我認爲在算法方面,我想了很多的一個問題是擴散模型和自回歸模型之間的明顯區别。它們都是表示概率分布的方法。事實證明,不同的模态顯然适合其中之一。我認爲可能有一些空間來統一它們,或者以某種方式将它們聯系起來。
我想指出的另一件事是,運行大模型的基礎設施的内在效率。我的大腦功耗大概是 20 瓦。老黃在 GTC 上剛剛談到了他們要建造的大型超級計算機,數字都是兆瓦級的。所以也許你不需要那麽多能量來運行一個大腦。我不知道具體需要多少,但我認爲可以肯定地說,在運行這些模型的效率方面,我們還可以 1000 倍到 100 萬倍地提升。
我認爲部分原因是當前的計算機根本不适合這個工作負載。英偉達的 GPU 朝着這個方向邁出了很好的一步,因爲你需要極高的并行性。我們實際上并不關心以某種方式依賴數據的順序計算。我們隻是需要在許多不同的數組元素上執行相同的算法。所以我認爲第一是調整計算機架構以适應新的數據工作流,第二是推動一些我們目前看到有改進的東西。
第一個可能是精度。我們看到精度從最初的 64 位雙精度下降到現在的 4、5、6 位,甚至根據你閱讀的論文不同,可能是 1.5 到 8 位。所以我認爲精度是控制這個問題的一個很大的杠杆。
第二個當然是稀疏性。事實上,大模型中的很多參數都是零,或者接近零。所以如果你能以某種方式利用這一點,比如說讓稀疏矩陣乘法變得更有效率,那就太好了。這方面有一些有前景的研究。
此外還有一些有趣的想法,比如奇異值分解 ( SVD ) ,看看是否可以将其分解成更小的矩陣,然後重新組合。比如隻計算前向傳播,不做反向傳播,訓練一個較小的模型來預測較大模型的輸出。
所以我認爲,從根本上講,要解決兩個問題:
一個是構建更合适的硬件。另一個是找到更好的算法,在保持性能的同時提高效率。
我認爲這兩個方面都還有很大的探索空間。從能效的角度來看,如果我們能縮小與大腦的差距,那将是一個巨大的進步。這可能意味着我們每個人都可以負擔得起一個模型,或在我們的設備上運行一個模型,而不需要連接到雲端。
馬斯克 " 在管理世界上最大的創業公司 "
Q:好的,我們換個話題。你曾與這個時代的許多偉人并肩工作過,OpenAI 的 Sam、Greg 及其他團隊成員,還有馬斯克。
在座有多少人聽過關于美國賽艇隊和日本賽艇隊的笑話?這是個有趣的故事。馬斯克分享過這個笑話,我認爲它反映了他在打造企業文化和團隊方面的很多理念。故事中有兩支隊伍,日本隊有 4 名劃手和 1 名舵手,美國隊有 4 名舵手和 1 名劃手。有人猜得出當美國隊輸了後他們會怎麽做嗎?大聲說出來。完全正确,他們會開除那個劃手。
馬斯克分享這個例子,我認爲是在闡述他對于雇傭合适的人才、打造合适團隊的看法。通過與這些不可思議的領導者的密切合作,你學到了什麽?
卡帕西:我想說馬斯克管理公司的方式非常獨特。我覺得人們并沒有真正意識到它有多特别。即便是聽别人講,你也很難完全理解。我覺得這很難用語言描述。我甚至都不知道從何說起。但這确實是一種非常獨特、與衆不同的方式。
用我的話說,他在管理全球最大的創業公司。我覺得我現在也很難描述清楚,這可能需要更長時間來思考和總結。
不過首先,他喜歡由實力強大且技術含量高的小團隊來組成公司。
在其他公司,發展的過程中團隊規模往往會變大。而馬斯克則總是反對團隊過度擴張。爲了招募員工,我不得不做很多努力。我必須懇求他允許我招人。
另外,大公司通常很難擺脫績效不佳的員工。而馬斯克則更願意主動裁人。
事實上,爲了留住一些員工,我不得不據理力争,因爲他總是默認要裁掉他們。
所以第一點就是,保持一支實力強勁、技術過硬的小團隊。絕對不要有那種非技術型的中層管理。這是最重要的一點。
第二點則是他如何營造工作氛圍,以及當他走進辦公室時給人的感覺。
他希望工作環境充滿活力。人們四處走動,思考問題,專注于令人興奮的事物。他們或是在白闆上寫寫畫畫,或是在電腦前敲代碼。他不喜歡一潭死水,不喜歡辦公室裏沒有生機。
他也不喜歡冗長的會議,總是鼓勵人們在會議毫無意義時果斷離場。你真的能看到,如果你對會議毫無貢獻也沒有收獲,那就可以直接走人,他非常支持這一點。我想這在其他公司是很難見到的。
所以我認爲營造積極向上的工作氛圍是他灌輸的第二個重要理念。也許這其中還包括,當公司變大後,往往會過度呵護員工。而在他的公司不會如此。公司的文化就是你要拿出百分之百的專業能力,工作節奏和強度都很高。
我想最後一點或許是最獨特、最有趣也最不尋常的,就是他與團隊如此緊密地聯系在一起。
通常一個公司的 CEO 是一個遙不可及的人,管理着 5 層下屬,隻和副總裁溝通,副總裁再和他們的下屬主管溝通,主管再和經理層溝通,你隻能和直屬上司對話。但馬斯克經營公司的方式完全不同。他會親自來到辦公室,直接與工程師交談。
我們開會時,會議室裏經常是 50 個人和馬斯克面對面,他直接跟工程師對話。他不想隻是和副總裁、主管們說話。
通常一個 CEO 會把 99% 的時間花在和副總裁溝通上,而他可能有 50% 的時間在和工程師交流。所以如果團隊規模小且高效,那麽工程師和代碼就是最可信的信息源。他們掌握第一手的真相。馬斯克要直接和工程師交流,以了解實際情況,讨論如何改進。
所以我想說,他與團隊聯系緊密,而不是遙不可及,這一點非常獨特。
此外,他在公司内部行使權力的方式也不同尋常。比如如果他與工程師交談,了解到一些阻礙項目進展的問題。比如工程師說," 我沒有足夠的 GPU 來運行程序 ",他會記在心裏。如果他兩次聽到類似的抱怨,他就會說:" 好,這是個問題。那現在的時間表是什麽?什麽時候能解決?"
如果得不到滿意的答複,他會說," 我要和 GPU 集群的負責人談談 ",然後有人就會打電話給那個負責人,他會直截了當地說:" 現在就把集群容量翻一倍。從明天開始每天向我彙報進展,直到集群規模擴大一倍。"
對方可能會推脫說還要經過采購流程,需要 6 個月時間之類的。這時馬斯克就會皺起眉頭,說:" 好,我要和黃仁勳談談。" 然後他就會直接鏟除項目障礙。
所以我認爲大家并沒有真正意識到他是如何深度參與各項工作,掃清障礙,施加影響力的。
老實說,離開這樣的環境去一家普通公司,你真的會想念這些獨特的地方。
視頻鏈接:
https://www.youtube.com/watch?v=c3b-JASoPi0