文 | 烏鴉智能說
在紅杉資本 2024 年的 AI Ascent 上,Andrej Karpathy 與紅杉資本合夥人 Stephanie Zhan 深入探讨了 AI 的未來發展方向和對初創企業生态系統的影響。Andrej Karpathy 曾是 OpenAI 創始成員、前特斯拉人工智能高級總監。
在 Andrej 看來,Llama 和 Mistral 并不算真正意義上的開源,更像是一個二進制文件。同時,Andrej 分享了他與埃隆 · 馬斯克共事的經驗,揭示了馬斯克獨特的管理風格和對小而精技術團隊的偏好。他還讨論了 AI 技術的現狀,指出目前 AI 仍處于模仿學習的初級階段,距離實現強化學習的目标還有一段距離。
在與觀衆的互動環節中,他回答了關于模型合成、企業理念、以及如何平衡性能與成本的問題,并強調當下的 AI 發展應先追求大模型性能,再考慮降低成本。
目錄:
一、LLMOS:免費、高效的的 LLM API 平台
二、馬斯克的企業理念:小而精的技術團隊
三、初創公司:讓 AI 生态充滿活力
四、AI 界的研究生院:Reinforcement Learning 強化學習
五、開源,讓 AI 觸手可及
01 LLM OS:免費、高效的的 LLM API 平台
Stephen Zhan:Andrej,您如何看待 AGI 在未來的前景?
Andrej Karpathy:幾年前,我還不清楚 AGI 會如何發展。它非常學術化,你需要思考不同的方法。而現在,我覺得它非常清晰,有很多空間,每個人都在努力去填補。因此,需要進行大量的優化。
粗略地說,現在的情況是,每個人都在努力構建我所說的 LLmOS,爲開發人員提供免費、快速的 LLM API。它像一個操作系統,可以把一堆外設插入這個新的 CPU 或類似的東西。當然,這些外設包括文本、圖像、音頻和所有模式。然後是中央處理器,也就是 LLM 變壓器本身。然後,它還與我們已經建立起來的所有軟件 1.0 基礎設施相連。因此,我認爲每個人都在努力構建類似的東西,然後将其作爲可定制的東西提供給經濟領域的各個角落。
這大緻就是我們的方向。我們可以給相對獨立的 AI 代理分配高級任務,并以各種方式進行專業化。這将是非常有趣和令人興奮的。這不僅僅是一個代理。而是許多代理。
Stephen Zhan:我想談談一些在場都關心的事,那就是 OpenAI 正在主導生态系統。今天在座的大多數聽衆都是創始人,他們正試圖開辟一個小天地,祈禱 OpenAI 不會在一夜之間将他們淘汰出局。你認爲其他參與者在哪些領域有機會建立新的獨立公司?而 OpenAI 會在哪些領域繼續占據主導地位?
Andrej Karpathy:OpenAI 基本上是在試圖建立 LLmOS。我認爲,正如我們今天早些時候聽到的那樣,它正試圖開發這個平台,在這個平台之上,你可以定位不同垂直領域的不同公司。現在,我認爲操作系統的比喻也非常有趣。
因爲當你看到像 Windows 的操作系統,它會自帶一些默認應用程序,比如 Edge 浏覽器。所以,OpenAI 或其他大模型公司也會以同樣的方式推出一些默認應用程序,但這并不意味着你可以在其上運行不同的浏覽器,就像你可以在該基礎設施上運行不同的聊天代理一樣。因此,會有一些默認應用程序,但也可能會有一個由各種應用程序組成的充滿活力的基礎設施生态系統,這些應用程序會根據經濟的不同角落進行微調。我很喜歡早期 iPhone 應用程序的比喻,它們看起來就像笑話。
這需要時間來發展,我想我絕對同意,我們現在正經曆着同樣的事情。人們正試圖弄明白,這東西到底擅長什麽?它不擅長什麽?我該如何使用它?如何編程?如何調試?我怎樣才能讓它真正執行實際任務,以及怎樣對它進行監督?評估是什麽樣的?有很多事情需要思考,也需要了解其中的心理學原理。我認爲,這需要一些時間來弄清如何與這一基礎設施協同工作。我們會在未來幾年看到這一點。
Stephen Zhan:現在正在進行的是 LLMs 領域 OpenAI、Anthropic、Mistral、Llama、Gemini 的競賽。開源模型的整個生态系統現在已經成爲小型模型的長尾。你如何預見生态系統的未來?
Andrej Karpathy:這和操作系統很像,因爲電腦的操作系統也被寡頭壟斷了,比如 Windows、Mac OS 等。我認爲,大模型也許未來會出現類似的情況。
在我看來,你列舉的許多産品,如 Llama 和 Mistral 等不算是開源。他們有點像折騰操作系統的二進制文件,當你隻是得到一個二進制文件時,當然會更好,因爲你可以 finetune 模型,這是有用的,但這有點微妙,但你不能完全 finetune 模型,因爲你 finetune 模型越多,它就越可能在其他方面退化。
如果你想要增加能力,而不是回歸其他能力,可能就需要在以前的數據集分布和新的數據集分布的某種混合物上進行訓練。因爲你不想回歸舊的分布,你隻想增加知識。如果隻給你權重,實際上是做不到的。你需要訓練循環,需要數據集等等。因此,在如何使用這些模型方面,你實際上受到了限制。再說一遍,我認爲這絕對是有幫助的,但我認爲我們幾乎需要更好的語言來描述它。所以有開放權重模型、開源模型和專有模型,我想,這可能就是生态系統。是的,它很可能會和我們現在的系統非常相似。
Stephen Zhan:我想談談另外一個大家都關心的問題,那就是規模。簡單地說,規模似乎就是一切。數據規模、計算規模,因此大型研究實驗室、大型科技巨頭如今擁有巨大的優勢。你對此有何看法?這就是最重要的嗎?如果不是,還有什麽是重要的?
Andrej Karpathy:規模絕對是第一位的。我确實認爲有一些細節需要處理好,蔽日數據集的準備工作就很重要,要做得非常好、非常幹淨,等等。這些都是你可以獲得的計算效率提升。因此,數據、算法,當然還有模型的訓練,以及使其真正大型化。因此,我認爲規模将是主要決定因素。它就像事物的第一主要組成部分,但還有許多其他事情需要你去正确處理。因此,規模幾乎就像設定了某種速度限制,但你确實需要一些其他的東西,但就像如果你沒有規模,那麽如果你要訓練模型,從根本上說,你就無法訓練這些龐大的模型。如果你隻是要做微調之類的工作,那麽我認爲也許規模較小是必要的,但我們還沒有真正看到這一點完全發揮出來。
Stephen Zhan:你能分享更多你認爲也很重要,但優先級較低的因素嗎?
Andrej Karpathy:首先,你不能隻是訓練這些模型。如果隻給你錢和規模,實際上還是很難建立這些模型。部分原因是基礎設施還很新,還在開發中,還沒有完全到位。但大規模訓練這些模型極其困難,是一個非常複雜的分布式優化問題。實際上,現在這方面的人才相當稀缺。它基本上會變成一個在數以萬計的 GPU 上運行的瘋狂的東西。所有的 GPU 都會在不同的時間點随機失效。
因此,對其進行檢測并使其正常工作實際上是一項極其艱巨的挑戰。直到最近,GPU 才打算用于 10,000 GPU 的工作負載。因此,我認爲很多基礎架構都在這種壓力下吱吱作響。我們需要解決這個問題。但現在,如果你隻是給别人一大筆錢、一大堆規模或 GPU,我不認爲他們就能生産出這樣的模型,這就是爲什麽這不僅僅是規模的問題。實際上,你需要大量的專業知識,包括基礎設施方面、算法方面,以及數據方面和謹慎處理數據方面。因此,我認爲這些都是主要的組成部分。
Stephen Zhan:生态系統發展如此迅速。幻覺、語境窗口、多模态能力、推理變得更好、更快、更便宜。當今有哪些大語言模型的研究挑戰讓您徹夜難眠?你認爲哪些問題既迫在眉睫,又可以迎刃而解,我們還可以繼續探索?
Andrej Karpathy:在算法方面,我正在思考的一件事是擴散模型和自回歸模型之間的明顯區别。它們都是表示概率分布的方法。而事實證明,不同的模式顯然更适合這兩種模式中的一種。可能有一些空間可以将它們統一起來,或者以某種方式将它們連接起來,同時獲得一些兩全其美的方法,或者找出我們如何能獲得一種混合架構等等。
令我感到有些奇怪的是,在模型的空間裏,我們有兩個不同的點,它們都非常好,但中間卻什麽都沒有,這讓我覺得很不對勁。因此,我認爲我們會看到這種情況的出現。另外,我還想說的是,在運行這些東西的能量效率上,還有很大的差距。
就運行這些模型的效率而言,我們可能差了一千到一百萬倍。當然,我認爲部分原因是我們設計的計算機并不适合這種工作負載。我認爲,英偉達在這個方向上邁出了很好的一步,因爲你需要極高的并行性。實際上,我們并不關心以某種方式依賴數據的順序計算。我們隻需要在許多不同的數組元素或其他東西上執行相同的算法。因此,我認爲第一條就是讓計算機架構适應新的數據工作流。
第二點是推動我們目前看到的一些改進。第一項精度,我們看到精度從最初的雙倍 64 位下降到現在的四位、五位、六位,甚至 1 位。現在已經降到了,我不知道是多少,4、5、6,甚至 1.58,這取決于你讀的是哪篇論文。因此,精确度是第一個重要杠杆。
然後第二個當然是稀疏性,這也像另一個重要差距。你的大腦并不總是完全激活,稀疏性是另一個重要的杠杆。我也覺得馮 - 諾依曼架構的計算機,以及它們是如何構建的,以及它們在穿梭數據進出,在内存和進行所有計算的内核之間進行大量的數據移動。
這都是有問題的,因爲你的大腦不是這樣工作的,這也是它如此高效的原因。所以我認爲,在計算機架構領域,這将是一個非常激動人心的時刻。我不是計算機架構師,但我覺得,我們好像差了一百萬倍,一千到一百萬,差不多吧,應該會有令人興奮的創新來降低誤差。
02 馬斯克的企業理念:小而精的技術團隊
Stephen Zhan:在場或許有幾位算法工程師在研究這個問題。換個話題,你曾與 AI 界許多知名人物共事。比如,埃隆 - 馬斯克和 OpenAI 的 CEO 奧爾特曼、創始人格雷格•布羅克曼。你如何看待他們帶領團隊的文化和理念?
Andrej Karpathy:埃隆 · 馬斯克經營公司的風格非常獨特。第一點是,他喜歡非常小的、強大的、高度技術化的團隊。默認情況下,公司都喜歡團隊不斷壯大。埃隆總是喜歡反對擴大團隊。我必須努力工作,花大力氣才能雇到人。我不得不像懇求一樣去雇人。而且,埃隆 · 馬斯克還很喜歡裁人。所以,我必須幾番争取才能留下那些馬斯開默認要裁掉的人。他總是希望保持一個小而強、技術含量高的團隊。我們基本沒有管理人員,因爲他們不懂技術。這是第一點。
第二點是,他喜歡充滿活力的工作氛圍和環境。所以辦公室裏,人們經常走來走去。馬斯克必須看到,員工在繪制圖表,在編碼。他不喜歡閑散的氛圍。他也很抵觸開會,他讨厭沒有意義的會議。在馬斯克看來,隻要你不能對團隊有所貢獻,你就走人。在别的公司,這是很罕見的,很多大公司都很寵愛員工。因此, " 活躍的氛圍 " 是他管理團隊的第二個理念。馬斯克的企業文化就是,你要盡全力做好技術工作,還要有一定的強度。
最後一點其實很有趣、也很奇怪,那就是他與團隊的聯系是如此緊密。通常情況下,公司的首席執行官就像一個很遙遠的人,上至五層,與副總對話,與報告和總監對話,最後與你的經理對話。但馬斯克不是這樣的,他會來辦公室和工程師們談話。我們開過的很多會議都是,50 個人和埃隆在一個房間裏。他直接與工程師交談。他不想隻跟副總裁和總監談話。
通常情況下,CEO 會花 99% 的時間與副總交談。他可能隻花 50% 的時間。他隻想和工程師交談。在他看來,在一個小而強的團隊裏,工程師和代碼就是一切的基礎,而不是某個經理。他希望與工程師直接交談,以了解項目的實際進展,以及如何改進。因此,作爲 CEO 卻與技術工有如此緊密的聯系,也是馬斯克獨有的做派。
他經常問工程師在研發過程遇到了什麽困難。有時候他們會說,沒有足夠的 GPU 來運行這個程序。馬斯克就會讓 GPU 集群的負責人現在就把 GPU 集群加倍。他會讓負責人每天給他發更新,直到集群規模翻倍。負責人可能會誰,我們已經制定了采購計劃,但是英偉達現在沒有足夠的 GPU,需要六個月準備。然後你會看到馬斯克眉毛一挑,然後他就會說,那我和黃仁勳談談。這樣,他就解決了這個問題。
外界都不知道馬斯克在公司内部解決了多少像這樣瑣碎又關鍵的問題。其實,對一個 CEO 來說,這是很少見的,至少在大部分公司你都不會看到。馬斯克的管理風格真的非常獨特,也很有效,希望在座的也能從中汲取一二。
03 初創公司:讓 AI 生态充滿活力
Stephen Zhan:回到之前的話題,你參與創辦了一些在 AI 界頂級公司 。你也是許多人進入人工智能領域的領頭人,甚至很多就在今天的觀衆席上。據我了解,你最關心的是人工智能的普及、教育、工具,以及如何在整個 AI 生态系統中創造更多平等。在你步入生命的下一個階段前,你認爲什麽是最有意義的事?
Andrej Karpathy:我爲幾家公司工作過,但我最終關心的不是任何一家特定的公司。我更關心整個 AI 生态系統是否良性運作。我希望這個生态系統欣欣向榮,像珊瑚礁一樣彙聚了許多别具一格的、有創意的初創企業,觸及經濟的各個角落。這就是我愛創業公司的原因,我希望這裏有一個充滿活力的生态系統。但我擔心的是,基于 AGI 對資本放大和集中的能力,未來會有幾大巨頭控制這個遊戲。我始終期待健康的、充滿活力的生态系統。
Stephen Zhan:你說的很在理,現在是觀衆提問環節,我們請一些在座的聽衆互動。
Brian Halligan: 你會建議創始人效仿埃隆的管理方法,還是說這是他的獨特之處,你會模仿他嗎?
Andrej Karpathy:這取決于創始人的基因。你必須有相同的基因,這是一種與生俱來的氣質。當你在招聘團隊時,一定要在前面說清楚,這就是你的公司。一開始,當人們注冊時,員工會非常樂意接受。但如果你半途而廢突然改變,人們就感到很混亂。因此,隻要你從一開始就秉承這樣的态度,并且始終如一,你就可以這樣經營一家與馬斯克 風格類似的公司。但這也有它的利弊,這取決于不同的人,但我認爲這是一種值得效仿和借鑒的的公司建設和運行模式。
Alex:除了專家混合模型之外,您對其他類型的模型合成能力有沒有興趣?我不直到你對模型合并或其他任何使模型開發更具可組合性的東西有沒有什麽看法。
Andrej Karpathy:我看到過這方面的論文,但我不知道這會不會有長久的發展潛能。我不知道你具體指的是什麽,也許是可組合性,但有很多關于參數效率訓練之類的工作。我不知道按照我的理解,你是否會将其歸入可組合性的範疇,但這隻是傳統代碼可組合性很強的情況。
神經網絡在默認情況下連接更緊密,可組合性更低,但它們确實可以組合,可以作爲整體的一部分進行微調。舉個例子,如果你正在做一個系統,你想讓 Chat GPT 和圖像組合在一起。常見的做法是,你預先訓練組件,然後将它們插入并微調整個系統。從在這些方面講,是具有可組合性的,你可以在外部預先訓練大腦皮層的小部分,然後再通過初始化和微調将它們組合起來。也許這些是我對它的零散想法,但目前我還沒有形成一整套較爲連冠的理論。
04 AI 界的研究生院:Reinforcement Learning 強化學習
Nick:AI 接下來的一個方向是詞語預測,所以我們有了下一個詞的預測。你認爲有沒有辦法建立一個物理學家或者一個馮 · 諾依曼類型的模型,這個模型有一個自洽的物理心理模型,可以産生新的想法,來指導你如何進行聚變?如果可能的話,你怎麽能比光速旅行更快呢?有什麽辦法可以做到這一點嗎?或者,就這些人工智能模型的發展而言,它是一個根本不同的向量嗎?
Andrej Karpathy:是的,兩者之間有本質區别,這裏還有很多難關需要破解。在我看來,目前的 AI 發展離你口中的世界還很遙遠。粗略地說,我們已經完成了 AlphaGo 的第一步,機器的模仿學習部分。AlphaGo 的第二步是 RL(reinforcement learning,強化學習),現在的技術還沒有做到 RL。而 RL 将從根本上改變 AlphaGo,這是真正讓它成功并創造出超人的部分。這是我們需要攻克的難題,也有很多棘手的細節。長話短說,AI 還處在模仿階段,就是 AlphaGo 的第一階段。
人們并不會隻滿足現階段的 AI 發展。像 Chat GPT 這樣的數據收集推理并沒有我們想象中那麽強大。比如,當你遇到了一個問題,提示是某種數學問題,我們就想讓 ChatGPT 給出我們正确答案。問題在于,我們的問題不隻是數學問題。人類的心理與模型的心理是不同的。人類思維的難易程度與模型的難易程度不同。人類在處理問題的時候會有一個抽絲剝繭的邏輯推理過程。但其中有推理對模型來說很容易理解,有些推理過程則就像天書一般,模型是無法理解的。
從根本上說,我們需要的是讓模型自己練習如何解決這些問題。它需要搞清楚什麽對它有用,什麽對它沒用。也許它不太擅長四位數加法,所以它會退回去使用計算器。但它需要根據自己的能力和知識自己學習。還有一點,現在的 AI 仍在從人類的反饋中進行強化學習,但這是一種超級弱的強化學習形式,這甚至不能算作強化學習。
AlphaGo 中的 RLHF 相當于什麽?獎勵模型是什麽?我稱之爲 " 氛圍檢查(vibe check)"。如果你想訓練一個 AlphaGo RLHF,你會給兩個人兩塊棋盤,然後說,你更喜歡哪一塊?然後你就會使用這些标簽來訓練模型,然後針對這些标簽進行強化學習。其次,如果獎勵模型是一個神經網絡,那麽你在優化模型時就很容易過度拟合獎勵模型,這樣就會找到所有這些虛假的方法來欺騙那個龐大的模型,這就是問題所在。
AlphaGo 可以解決這些問題,因爲他們有一個非常明确的目标函數,你可以用強化學習與之對抗。所以 RLHF(基于人工反饋的強化學習)遠遠不夠,我會說 RL 就像傻子一樣,另外模仿學習也超級傻。人們需要尋找更好的方法來訓練這些模型,使其與自身和自身心理保持一緻。在這個方向上我們還需要不斷探索進步,這有點像人工智能模型的研究生院。AI 也需要像我們一樣自己在圖書館捧着一本書自主學習。
舉個例子,當你在學習知識,教科書裏會有練習,也會有提示你練習教材的内容。但是,這不僅僅是從左往右讀(Alphago 的第一階段模仿學習)。你需要練習,做筆記,你要重新措辭,重新構思。就像你在學習這些知識的過程中,對這些知識進行了大量的操作。而我們在 llm 大語言模型中還沒有看到類似的事情。所以,AI 發展尚在早期。
Yuzi:同時兼顧最優性和實用性很酷。我想問的是,你們是如何将 A(降低成本、創造收入)和 B(尋找推理能力更強、質量更好的模型)這兩個優先事項結合起來的?你們将如何協調兩者?
Andrej Karpathy:一般做法是,一開始就不計成本使用功能最強大的模型,比如同時使用 GPT-4 和超級提示,隻是想讓你的東西發揮作用。所以,首先要追求準确性,然後再做出讓步。你要檢查某些類型的查詢是否可以降到 3.5。然後再檢查是否可以降低成本。所以我會說,先追求性能,然後再降低成本。
如果你能讓它運轉起來,比如說你做了 10 個提示或 20 個提示,然後你挑出一個最好的,你進行了一些比較篩選,或者這就是最佳版本之前的試錯。通過不斷試錯,你就能得到大量可能的問題類型。在此基礎上,你可以運行程序來獲取标簽。然後,你可以得到一個更精簡、成本更低的模型,在上面進行微調。無論如何,我都會先盡可能做好工作,然後再降低成本,這是我的建議。
05 開源,讓 AI 觸手可及
Sam:在過去的一年裏,我們從開源生态系統中看到了很多令人印象深刻的成果。我很好奇,随着模型規模的不斷擴大,開源生态系統會繼續跟上閉源開發的步伐嗎?
Andrej Karpathy:從根本上說,我也不清楚。這些模式都是資本密集型的,比如 Facebook 和 Meta 等,他們有能力大規模培訓這些模型,但這并非他們的核心業務,因爲這并不是他們的搖錢樹。
因此,他們有實際的動力去發布其中的一些模型,從而增強整個生态系統的能力,這樣他們就能引入所有創新的點子。但到目前爲止,我認爲他們隻做到了開放權重模式。我認爲他們應該更進一步,這也是我希望看到的。這對大家都好。但是就模型訓練數據而言,社會一直存在一些争議。我不知道如何克服這一點。也許他們應該嘗試尋找他們認爲非常容易使用的數據源,或者類似的數據源,并嘗試将模型架在這些數據源上。
Meta 和 Facebook 做得很好,是這個領域的領頭羊。他們發布了論文、日志等。在促進生态系統方面,他們可以做得更好。我想,提高更多的透明性,這指日可待。
Peter:什麽會讓人工智能生态系統更酷、更有活力,同時,什麽阻礙了它的發展?是開放性,還是其他你認爲或許更重要的東西?
Andrej Karpathy:一個重要方面就是 AI 是否是開放的、可觸及的。我最近發過一條推特,說的是 " 第一,設計産品;第二,加速發展 "。我想說,有很多人都在做第一件事—設計更多的 AI 産品。但是,專注于創新加速發展的卻少得多。我們都是新手,都在試圖了解 AI 是如何工作的。我們都需要加強合作,以弄清如何有效地使用它。所以,我希望大家能更開放地分享他們的心得,他們是如何訓練這些東西的,哪些有效,哪些無效,這隻是爲了讓我們從彼此身上學到更多。第二,開放生态系統也展現了相當大的發展勢頭,也許還有一些我已經說過的改進機會。
Michael:要從模型中獲得下一個巨大的性能飛躍,您認爲用思想标記(thought tokens)或激活信标(activation beacons)修改 transformer 架構就足夠了嗎?還是我們需要完全抛棄它,并提出一個新的基本構建塊,将我們帶到下一個重大進步或 AGI?
Andrej Karpathy:首先,我要說的是 Transformer 太不可思議了。在 Transformer 問世之前,我曾一度以爲神經網絡會瘋狂地多樣化。但事實并非如此,甚至完全相反。所有的模型都是一樣的。能做到這一點真是不可思議。我不知道這是不是最終的神經網絡 ... 從這個領域的曆史來看,很難說這就是它的終結。在自回歸或融合方面,這有點像建模和損失設置,我想說的是,那裏肯定會有一些成果。但同樣在 Transformer 上,精度和稀疏性這些杠杆,在我們的推動下,加上硬件的協同設計以及可能的發展,使網絡架構更加适應這些約束條件,以及所有這些如何發揮作用。
在某種程度上,Transformer 是爲 GPU 而設計的。可以說,這是 Transformer 論文中的一大飛躍,也是他們的出發點,即我們想要一個從根本上來說非常可并行化的架構。由于遞歸神經網絡具有順序依賴性,這對 GPU 來說是非常可怕的,而 Transformer 則從根本上打破了這一限制。
但這也是一種針對現有硬件的算法。因此,我認爲這也是一種相同的精神。但長話短說,我認爲我們很可能還會看到它的變化。但不得不說,Transformer 在問世的 8 年間已經被證明具有非凡的适應能力。所以最初的 Transformer 和我們現在用的并沒有太大區别。
Stephen Zhan:臨别之際,您對在座的所有創始人和 AI 工程師有什麽建議?
Andrej Karpathy:我通常沒有什麽通用建議。我關心的事情是,創始人也會非常關心。我還想,比如我們如何才能擁有一個充滿活力的初創企業生态系統?初創企業如何繼續勝出,尤其是在與大型科技公司的競争中?生态系統如何變得更健康,你能做些什麽?
Stephen Zhan:聽起來你應該成爲一名投資者。非常感謝你的參與,Andrej,感謝你今天一整天的參與。