4月18日,Meta重磅推出Llama 3,稱其爲"迄今能力最強的開源大模型",Llama3的登場又一次影響着AI大模型的競争格局,引爆AI圈。
同日,Meta CEO 紮克伯格與知名科技播客主持人Dwarkesh Patel的專訪也同步發出,在這個長達80分鍾的訪談裏,主要圍繞Llama3、通用人工智能(AGI)、能源問題、AI安全問題、開源的風險以及意義進行了探讨。
紮克伯格稱,AI已成爲Meta的核心,Meta AI現在是目前可免費使用的最智能的人工智能助手,即将推出的Llama 3的大型版本将擁有超過4000億參數。
在AI模型的訓練和發展方面,小紮提到Llama 3的出現證實了大規模數據和計算資源對于AI模型的重要性,未來,訓練大型AI模型可能面臨資本和能源限制等挑戰,強調AI的出現不是試圖取代人類而是爲了賦予人們更強大的工具完成更有挑戰性的任務,以下爲訪談要點:
最小參數的Llama3 80億和最大參數的上一代Llama2 700億模型性能是同一量級,而最強大的4050億參數版本還在路上。
Llama 3的出現證實了大規模數據和計算資源對于AI模型的重要性,AI正在從一個"問答"工具,轉變爲一個更廣義的"推理"系統,它需要理解問題的上下文,融合多方面知識并運用邏輯推理得出結論。
多模态是Meta重點關注的領域,特别關注的一個模态是情感理解,如果能夠在這方面取得突破,使人工智能能夠真正理解并表達情感,那麽人與機器之間的互動将會變得前所未有的自然和深入。
AI确實會改變人類的工作方式,有望顯著提高程序員的工作效率,但AI的出現不是試圖取代人類,而是希望通過這些工具,賦予人們更強大的能力,讓他們能夠完成更多以前難以想象的工作。
AI将像電腦的出現一樣,從根本上改變人類的生活,帶來許多以前不可能的新應用,推理将深刻改變幾乎所有的産品形态。
在AI發展遇到GPU瓶頸時,或資金不足問題前,會首先遇到能源問題,如果人類能夠解決能源的問題,完全有可能建造出比現在規模更大的算力集群。
我認爲未來會出現META AI通用助理産品,每個企業都希望有一個代表他們利益的AI,AI将推進科學、醫療保健和各種領域的進步,最終會影響産品和經濟的方方面面。
我認爲未來如果人工智能過度集中化,其潛在風險可能不亞于它的廣泛傳播,如果一個機構擁有比其他所有人更強大的人工智能,這是否也是一件壞事?
我認爲訓練的發展有多種可能性,其中商品化确實是其中之一。商品化意味着随着市場上選擇的增多,訓練的成本将大大降低,變得更加親民。
關于存在性風險的問題确實值得我們深入關注,目前我們更關注的是内容風險,即模型可能被用于制造暴力、欺詐或其他傷害他人的行爲。
開源正成爲一種全新的、強大的構築大模型的方式。雖然具體的産品會随着時間的推移不斷發展、出現和消失,但它們對人類社會的貢獻卻是持久的。
Meta可能很快就會在自研芯片上訓練大模型,但Llama-4可能還無法做到。
以下是訪談全文:
Llama 3頂配版仍在訓練
Dwarkesh Patel: Mark,歡迎來到這個播客。
Mark Zuckerberg:謝謝你邀請我。我是您播客的忠實粉絲。
Dwarkesh Patel:非常感謝你的贊美。讓我們先聊聊這次采訪發布時也會同步發布的産品。能跟我講講關于Meta AI和相關模型的最新進展嗎?有哪些令人興奮的地方?
Mark Zuckerberg:我想大多數人會關注到的是Meta AI的新版本。我們正在做的最重要的事情是升級模型。我們發布了Llama-3。我們以開源的方式提供給開發者社區,同時它也将爲Meta AI提供支持。關于Llama-3有很多值得讨論的地方,但我認爲最重要的一點是,我們現在認爲Meta AI是人們可免費獲得的最智能的AI助手,我們還整合了Google和Bing以獲取實時知識。
我們将讓它在我們的應用中更加突出,在Facebook和Messenger的頂部,你可以直接使用搜索框來提出問題。我們還增加了一些我認爲非常酷、人們會喜歡的創作功能。我覺得動畫是個很好的例子,你基本上可以拿任何圖像,讓它動起來。
人們會覺得非常驚豔的一點是,它現在可以如此快速地生成高質量的圖像,實際上是在你輸入的同時實時生成和更新的。你輸入你的查詢,它就會去适配,比如"給我看一張牛站在有山脈背景的田野裏,吃着夏威夷果,喝着啤酒的圖片",它會實時更新圖像,這非常酷,我想人們會很喜歡的。我覺得這将是大多數人在現實世界中能感受到的。我們正在推出它,雖然不是所有地方,但我們從少數幾個國家開始,未來幾周和幾個月會擴大範圍。我認爲這将是一件很了不起的事情,我真的很興奮能把它交到人們手中。這是Meta AI的一大進步。
但如果你想深入了解一下,Llama-3顯然是技術上最有趣的。我們正在訓練三個版本:我們實際上訓練了三個版本,分别是80億、700億和4050億的密集模型,其中4050億的模型仍在訓練中,所以我們今天并未發布。但我對80億和700億的表現非常興奮,按照它們的規模來看是領先的。我們會發布一篇博客文章,附上所有的基準測試結果,人們可以自己去看看,它顯然是開源的,所以大家有機會去試用它。
我們有一個新版本的路線圖,将帶來多模态性、更多的多語言性以及更大的上下文窗口。希望在今年晚些時候,我們能推出4050億參數的版本。就目前的訓練情況來看,它在MMLU上已經達到了85分左右,我們預計它在許多基準測試中都會有領先的成績。我對這一切都非常興奮。700億的版本也非常棒。我們今天發布它。在MMLU上大約是82分,在數學和推理方面有領先的成績。我覺得把它交到人們手裏會非常酷。
Dwarkesh Patel:有意思,這是我第一次聽說MMLU作爲一個基準。這太令人印象深刻了。
Mark Zuckerberg:80億參數的版本幾乎與我們發布的最大版本的Llama-2一樣強大。所以最小的Llama-3基本上與最大的Llama-2一樣強大。
Dwarkesh Patel: 在我們深入讨論這些模型之前,我想回到過去。我猜想你們是在2022年開始采購這些H100的,或者你可以告訴我具體是什麽時候。當時股價受到重創。人們問這些資本支出是怎麽回事。人們不買賬元宇宙。我想你花費資本支出來購買這些H100。你當時是如何知道要買H100的?你怎麽知道你需要GPU?
Mark Zuckerberg: 我想是因爲我們當時在開發Reels。我們總是希望有足夠的算力來構建一些我們還看不到的未來的東西。我們在開發Reels時遇到了這樣的情況,我們需要更多的GPU來訓練模型。這是我們服務的一個重大進化。我們不僅僅是對你關注的人或主頁的内容進行排序,我們開始大力推薦我們所謂的非關聯内容,也就是來自你沒有關注的人或主頁的内容。
我們可能向你展示的内容候選庫從數千個量級擴大到數百萬個量級。它需要一個完全不同的基礎設施。我們開始着手進行這項工作,但在基礎設施方面受到限制,無法以我們想要的速度趕上TikTok的進度。我基本上是這樣看的,我想:"嘿,我們必須确保不再陷入這種境地。所以讓我們訂購足夠的GPU來完成Reels、内容排名和信息流方面需要做的事情。但讓我們再加倍。"再次強調,我們的普遍原則是,總會有一些我們還看不到的未來的事物。
通往AGI之路
Dwarkesh Patel:你知道那會是AI嗎?
Mark Zuckerberg:我們認爲那将是與訓練大型模型有關的事情。當時我認爲可能與内容有關。這隻是經營公司的一種模式匹配,總會有另一個需要應對的方向,當時我深陷于試圖讓Reels和其他内容的推薦系統運作良好。這對Instagram和Facebook來說是一個巨大的突破,能夠向人們展示來自他們甚至沒有關注的人的有趣内容。
但事後看來,這個決定非常正确,這決定源于我們的落後。這并不是因爲"哦,我想得太多了"。事實上,大多數時候,我們之所以做出一些後來看起來不錯的決定,是因爲我們之前搞砸了一些事情,隻是不想重複犯錯而已。
Dwarkesh Patel: 這完全是題外話,但我想趁現在問一下。我們一會兒再回到AI的話題。2006年你沒有以10億美元的價格出售,但我想你心裏肯定有一個你願意出售的價格,對吧?你有沒有心裏盤算過,"我認爲Facebook當時的實際估值是多少,而他們給的價格并不合理"?如果他們出價5萬億美元,你當然會賣。那麽你當時是如何權衡這個選擇的?
Mark Zuckerberg: 我覺得有些事情隻是個人層面的。我不知道當時我是否有足夠的精明去做那樣的分析。我周圍的人都在爲10億美元找各種論據,比如"我們需要創造這麽多收入,我們需要做到這麽大。這顯然是很多年以後的事了。"這遠遠超出了我們當時的規模。我當時并沒有真正具備參與那種辯論所需的金融專業知識。
内心深處,我相信我們正在做的事情。我做了一些分析,"如果我不做這個,我會做什麽?嗯,我真的喜歡創造東西,我喜歡幫助人們溝通。我喜歡了解人與人之間正在發生的事情和互動。所以我想,如果我賣掉這家公司,我可能會再建一家類似的公司,而我還挺喜歡現在這家的。那又何必呢?"我認爲人們做出的很多最大的賭注往往隻是基于信念和價值觀。其實要做前瞻性的分析往往是非常困難的。
Mark Zuckerberg: 我不知道時間表具體如何。我覺得這些事情都會随着時間逐步推進。
Dwarkesh Patel: 但最終情況下:Llama-10。
Mark Zuckerberg: 我覺得這個問題包含了很多内容。我不确定我們是在取代人,還是更多地在給人們提供工具來做更多的事情。
Dwarkesh Patel: 有了Llama-10之後,這棟大樓裏的程序員會變得生産力提高10倍嗎?
Mark Zuckerberg: 我希望不止10倍。我不認爲人類有一個單一的智力阈值,因爲人們有不同的技能。我認爲在某個時刻,AI可能會在大多數事情上超過人類,這取決于模型的強大程度。
但我認爲這是循序漸進的,我不認爲AGI隻是一件事。你基本上是在添加不同的能力。多模态是我們現在關注的一個關鍵點,最初是照片、圖像和文本,但最終會延伸到視頻。因爲我們非常關注元宇宙,所以3D類型的東西也很重要。我非常關注的一種模态,我沒有看到業内有很多其他人關注,那就是情感理解。人類大腦有如此多的部分隻是專門用來理解人、理解表情和情緒的。我認爲這本身就是一種完整的模态,使人工智能能夠真正理解并表達情感,那麽人與機器之間的互動将會變得前所未有的自然和深入。
所以除了在推理和記憶方面有很大的改進外,還有許多不同的能力是你希望訓練模型去關注的,而記憶本身就是一個完整的事情。我認爲未來我們不會主要把東西塞進一個查詢上下文窗口來提出更複雜的問題。會有不同的存儲器存儲或不同的定制模型,它們會更加個性化。這些都隻是不同的能力。顯然還有把它們做大做小。我們兩者都關注。如果你運行的是像Meta AI這樣的東西,那是非常基于服務器的。我們也希望它能在智能眼鏡上運行,而智能眼鏡中沒有太多空間。所以你希望有一個非常高效的東西來實現這一點。
Dwarkesh Patel: 如果你在工業規模上使用智能進行價值數百億美元,甚至最終價值數千億美元的推理,那麽用例是什麽?是模拟嗎?是元宇宙中的人工智能嗎?我們将把數據中心用于什麽?
Mark Zuckerberg: 我們的賭注是它基本上會改變所有的産品。我認爲将會有一種Meta AI通用助手産品。我認爲它将從一個更像聊天機器人的東西,你問一個問題,它會制定一個答案,轉變爲你給它更複雜的任務,然後它會離開并完成這些任務。因此,這需要大量的推理,也需要大量的計算和其他方式。
然後我認爲,與其他人的其他智能體互動将是我們所做的一大部分,無論是針對企業還是創作者。我對此的一個重要理論是,不會隻有一個你與之交互的單一AI,每個企業都會想要一個代表他們利益的AI。他們不會想主要通過一個會銷售競争對手産品的AI與你互動。
我認爲創作者将是一個很大的群體。我們的平台上大約有2億名創作者。他們基本上都有這樣的模式,他們想吸引他們的社區,但他們受到時間的限制。他們的社區通常想吸引他們,但他們不知道自己受到白天時間的限制。如果你能創造出一種東西,讓創作者基本上可以擁有AI,按照他們想要的方式訓練它,并讓他們的社區參與進來,我認爲這也會非常強大,所有這些事情都會有大量的參與。
這些隻是消費者使用案例。我和妻子經營我們的基金會,陳-紮克伯格倡議。我們在科學方面做了很多工作,顯然有很多AI工作将推進科學、醫療保健和所有這些事情。因此,它最終會影響産品和經濟的基本上每個領域。
Dwarkesh Patel: 你提到AI可以爲你做一些多步驟的事情。這是一個更大的模型嗎?例如,對于Llama-4,是否仍然會有一個700億參數的版本,但你隻需要在正确的數據上訓練它,它就會非常強大?進展是什麽樣的?是縱向擴展嗎?還是像你說的那樣,同樣大小但不同的數據庫?
Mark Zuckerberg: 我不知道我們是否知道這個問題的答案。我認爲一個似乎是一種模式的東西是,你有Llama模型,然後你在它周圍構建某種其他特定于應用程序的代碼。其中一些是針對用例的微調,但有些是,例如,Meta AI應該如何使用Google或Bing等工具來引入實時知識的邏輯。這不是基礎Llama模型的一部分。對于Llama-2,我們有一些這樣的東西,它更多的是手工設計的。我們對Llama-3的部分目标是将更多這樣的東西納入模型本身。對于Llama-3,當我們開始進入更多這些類似于agent的行爲時,我認爲其中一些将是更多手工設計的。我們對Llama-4的目标将是将更多這樣的東西納入模型。
在每一步中,你都會感覺到在地平線上什麽是可能的。你開始擺弄它,在它周圍做一些hack。我認爲這有助于你磨練你的直覺,知道你想嘗試在下一個版本的模型中訓練什麽。這使得它更加通用,因爲顯然對于任何你手動編碼的東西,你可以解鎖一些用例,但它本質上是脆弱的和非通用的。
Dwarkesh Patel: 當你說"納入模型本身"時,你是指在模型本身想要的東西上訓練它嗎?你說的"納入模型本身"是什麽意思?
Mark Zuckerberg: 對于Llama-2,工具的使用非常具體,而Llama-3在工具使用方面要好得多。我們不必手動編寫所有的東西來讓它使用Google并進行搜索。它可以直接做到這一點。類似地,對于編碼和運行代碼以及許多類似的東西也是如此。一旦你獲得了這種能力,你就可以瞥見我們接下來可以開始做什麽。我們不一定要等到Llama-4出現才開始構建這些功能,所以我們可以開始在它周圍做一些hack。你做了大量的手工編碼,至少在過渡期内,這會使産品變得更好。然後這有助于爲我們想要在下一個版本模型中構建的東西指明方向。
Dwarkesh Patel: 你最期待Llama-3的哪個社區微調?也許不是對你最有用的那個,而是你最享受玩的那個。他們在古代對它進行了微調,你就會和維吉爾交談之類的。你對什麽感興趣?
Mark Zuckerberg: 我認爲這類東西的本質是你會感到驚訝。任何我認爲有價值的具體事物,我們可能都在構建。我認爲你會得到蒸餾版本。我認爲你會得到較小的版本。有一點是,我認爲80億還不夠小,無法滿足大量用例。随着時間的推移,我很樂意得到一個10-20億參數的模型,甚至是一個5億參數的模型,看看你能用它做什麽。
如果有80億個參數,我們幾乎和最大的Llama-2模型一樣強大,那麽有10億個參數,你應該能做一些有趣的事情,而且速度更快。在将其提供給最強大的模型以完善提示應該是什麽之前,它非常适合于分類,或者人們在理解用戶查詢意圖方面所做的許多基本事情。我認爲這可能是社區可以幫助填補的一個空白。我們也在考慮自己開始蒸餾其中一些東西,但現在GPU都被用來訓練4050億的模型了。
Dwarkesh Patel: 你有所有這些GPU,我想你說過到今年年底會有35萬個。
Mark Zuckerberg: 那是整個系列。我們建造了兩個,我想是2.2萬或2.4萬的集群,這是我們用來訓練大型模型的單個集群,顯然是在我們所做的很多事情中。我們很多東西都用于訓練Reels模型、Facebook新聞源和Instagram信息流。推理對我們來說是一件大事,因爲我們爲大量人提供服務。考慮到我們所服務的社區的龐大規模,我們所需的推理計算與訓練之比可能比大多數從事這些工作的其他公司要高得多。
Dwarkesh Patel: 在他們事先與我分享的材料中,有一點很有趣,你在訓練時使用的數據比僅用于訓練的計算最優數據還要多。推理對你們來說是一個大問題,對社區也是如此,在裏面放入數萬億個token是有意義的。
Mark Zuckerberg: 盡管有了700億參數的模型,有一件有趣的事情是,我們認爲它會更加飽和。我們用大約15萬億個token對它進行了訓練。我想我們一開始的預測是它會更多地漸近,但即使在最後它仍在學習。我們可能本可以給它更多的token,它就會變得更好一些。
在某種程度上,你在經營一家公司,你需要做這些元推理問題。我是想把我們的GPU花在進一步訓練700億模型上?我們是想繼續下去,以便開始測試Llama-4的假設?我們需要做出這個決定,我認爲我們在這個版本的700億中取得了合理的平衡。未來還會有其他的700億,多模态的那個,會在接下來的一段時間内推出。但令人着迷的是,在這一點上,架構可以接受如此多的數據。
能源瓶頸制約發展
Dwarkesh Patel: 這真的很有趣。這對未來的模型意味着什麽?你提到Llama-3的80億比Llama-2的700億還要好。
Mark Zuckerberg: 不,不,它幾乎一樣好。我不想誇大其詞。它在同一數量級上。
Dwarkesh Patel: 這是否意味着Llama-4的700億将與Llama-3的4050億一樣好?未來看起來如何?
Mark Zuckerberg: 這是一個很棒的問題,對吧?我想沒有人知道。在這個世界上,計劃指數曲線是最棘手的事情之一。它會持續多久?我認爲我們很可能會繼續下去。我認爲值得投資數百億或超過1000億美元來構建基礎設施,并假設如果它繼續發展,你将獲得一些真正驚人的東西,這将創造出驚人的産品。我不認爲業界有任何人真的可以肯定地告訴你它肯定會以那種速度繼續擴展。一般來說,在曆史上,你在某些時候會遇到瓶頸。現在有如此多的能量投入到這個領域,也許那些瓶頸會很快被打破。我認爲這是一個有趣的問題。
Dwarkesh Patel: 在沒有這些瓶頸的世界裏會是什麽樣子?假設進展隻是以這種速度繼續下去,這似乎是可能的。從更廣的角度看,忘記Llamas...
Mark Zuckerberg: 嗯,會有不同的瓶頸。在過去幾年裏,我認爲有這個GPU生産的問題。即使是有錢購買GPU的公司也不一定能得到他們想要的那麽多,因爲有所有這些供應限制。現在我認爲這種情況正在減少。所以你看到一群公司現在正在考慮投入大量資金來建設這些東西。我認爲這将持續一段時間。有一個資本問題。在什麽時候投入資本就不值得了?
我實際上認爲在我們遇到這個問題之前,你将遇到能源限制。我不認爲有人已經建造了千兆瓦級的單一訓練集群。你遇到的這些東西最終會在世界上變得更慢。獲得能源許可是一項受到嚴格管制的政府職能。你從軟件開始,軟件在某種程度上受到監管,我認爲它比許多技術界人士認爲的要受到更多監管。顯然,如果你正在創辦一家小公司,也許你會感覺到這一點。我們與世界各地的不同政府和監管機構互動,我們有很多規則需要遵守并确保我們做得很好。毫無疑問,能源是受到嚴格管制的。
如果你在談論建設大型新電廠或大型擴建,然後建設穿越其他私人或公共土地的輸電線路,那隻是一件受到嚴格管制的事情。你說的是多年的準備時間。如果我們想建立一些大型設施,爲其供電是一個非常長期的項目。我認爲人們會這樣做,但我不認爲這是一件可以像達到一定的人工智能水平、籌集一大筆資金并投入進去,然後模型就會......你确實會在過程中遇到不同的瓶頸。
Dwarkesh Patel: 你提到Meta即使研發預算或資本支出預算是現在的10倍,也無法負擔得起的事情嗎?有沒有這樣的事情,也許是與人工智能相關的項目,也許不是,即使像Meta這樣的公司也沒有資源?有沒有你腦海中閃過的事情,但以現在的Meta,你甚至無法爲此發行股票或債券?它的規模比你的預算大10倍?
Mark Zuckerberg: 我認爲能源是一個方面。我認爲如果我們能獲得能源,我們可能會建造比目前更大的集群。
Dwarkesh Patel: 這在極限情況下從根本上受到資金的限制嗎?如果你有1萬億美元......
Mark Zuckerberg: 我認爲是時間問題。這取決于指數曲線走多遠。現在許多數據中心的規模在50兆瓦或100兆瓦左右,或者一個大的數據中心可能是150兆瓦。拿一個整個數據中心,裝滿你需要做訓練的所有東西,你建造你能建造的最大的集群。我認爲有一群公司正在做這樣的事情。
但是當你開始建造一個300兆瓦、500兆瓦或1吉瓦的數據中心時,還沒有人建造過1吉瓦的數據中心。我認爲這将發生。這隻是時間問題,但不會是明年的事。其中一些事情需要幾年的時間來建設。隻是爲了說明這一點,我認爲一個千兆瓦的數據中心相當于一個有意義的核電站,隻用于訓練一個模型。
Dwarkesh Patel: 亞馬遜沒有這樣做嗎?他們有950兆瓦的。
Mark Zuckerberg: 我不确切知道他們做了什麽。你得問他們。
Dwarkesh Patel: 但它不一定要在同一個地方,對吧?如果分布式訓練有效,它可以是分布式的。
Mark Zuckerberg: 嗯,我認爲這是一個大問題,它将如何工作。未來似乎很有可能,我們所說的這些大型模型的訓練實際上更接近于推理生成合成數據,然後再将其輸入模型。我不知道這個比例會是多少,但我認爲合成數據的生成比今天的訓練更像是推理。顯然,如果你這樣做是爲了訓練一個模型,它就是更廣泛的訓練過程的一部分。所以這是一個懸而未決的問題,這個平衡以及它将如何發展。
Dwarkesh Patel: 這是否也可能适用于Llama-3,也許從Llama-4開始?就像你把它放出來,如果有人有大量的計算能力,那麽他們就可以使用你放出的模型讓這些東西變得任意智能。假設有一些随機的國家,比如科威特或阿聯酋,它們有大量的計算能力,它們實際上可以隻使用Llama-4來制造更智能的東西。
Mark Zuckerberg: 我确實認爲會有這樣的動态,但我也認爲模型架構有一個根本的限制。我認爲像我們用Llama-3架構訓練的700億模型可以變得更好,它可以繼續發展。正如我所說,我們覺得如果我們繼續給它更多的數據或再次輪換高價值的token,它就會繼續變得更好。我們已經看到世界各地的一群不同的公司基本上采用Llama-2 700億模型架構,然後構建一個新的模型。但是當你對Llama-3 700億或Llama-3 4050億進行代際改進時,今天還沒有任何類似的開源模型。我認爲這是一個巨大的階躍。人們能夠在此基礎上建立的東西,我認爲不能無限地從那裏發展。在你達到下一個階躍之前,可以對其進行一些優化。
AI未來會發展到哪一步?
Dwarkesh Patel: 讓我們從具體的模型甚至你需要獲得能源審批的多年準備時間稍微放大一點。大局來看,未來幾十年人工智能會發生什麽?它感覺像是另一種技術,比如元宇宙或社交,還是感覺像是人類曆史進程中一個根本不同的東西?
Mark Zuckerberg: 我認爲它将是非常根本性的。我認爲它将更像是計算機本身的創造。你将獲得所有這些新的應用,就像你獲得網絡或移動電話時一樣。人們基本上重新思考了所有這些體驗,因爲以前不可能的很多事情都變得可能了。所以我認爲這将會發生,但我認爲這是一個低得多的創新層次。我的感覺是,它将更像是人們從沒有電腦到有電腦。
在宇宙尺度上,這顯然會在幾十年的時間内迅速發生。有一些人擔心它真的會失控,并在一夜之間從有點智能變成極其智能。我隻是認爲有所有這些物理限制使得這不太可能發生。我隻是不認爲這會發生。我想我們會有時間适應一點。但它确實會改變我們的工作方式,并爲人們提供所有這些創造性的工具來做不同的事情。我認爲它将真正使人們能夠做更多他們想做的事情。
Dwarkesh Patel: 所以也許不是在一夜之間,但從宇宙尺度來看,我們能以這種方式思考這些裏程碑嗎?人類進化了,然後人工智能出現了,然後他們去了銀河系。也許需要幾十年,也許需要一個世紀,但這就是現在正在曆史上發生的宏偉藍圖嗎?
Mark Zuckerberg: 抱歉,從什麽意義上說?
Dwarkesh Patel: 從這個意義上說,還有其他技術,如計算機,甚至是火,但人工智能本身的發展與人類進化一樣重要。
Mark Zuckerberg: 我認爲這很棘手。人類曆史就是人們基本上認爲人性的某些方面在不同方面真的很獨特,然後接受這不是真的這一事實,但人性實際上仍然非常特别。我們認爲地球是宇宙的中心,但事實并非如此,但人類仍然非常棒,非常獨特,對吧?
我認爲人們傾向于有的另一種偏見是認爲智能在某種程度上與生命有根本的聯系。它實際上并不清楚是否如此。我不知道我們是否有足夠清晰的意識或生命的定義來充分審視這一點。有所有這些科幻小說關于創造智能,它開始呈現出所有這些類人的行爲和類似的東西。目前所有這些東西的化身感覺它正朝着一個方向發展,在這個方向上,智能可以與意識、能動性和類似的東西相當分離,我認爲這隻是使它成爲一個超級有價值的工具。
Mark Zuckerberg: 顯然,随着時間的推移,很難預測這些東西會朝哪個方向發展,這就是爲什麽我認爲任何人都不應該教條地計劃如何開發它或計劃做什麽。你要随着每次發布來看待它。我們顯然非常支持開源,但我還沒有承諾要發布我們所做的每一件事。我基本上非常傾向于認爲,開源對社區有好處,也對我們有好處,因爲我們将從創新中受益。然而,如果在某個時刻,這個東西的能力發生了一些質的變化,而且我們覺得開源它是不負責任的,那麽我們就不會開源。這一切都很難預測。
開源的風險平衡
Dwarkesh Patel: 如果你在訓練Llama-5或Llama-4時看到了什麽具體的質變,會讓你覺得"你知道嗎,我不确定是否要開源它"?
Mark Zuckerberg: 抽象地回答這個問題有點困難,因爲任何産品都可能表現出負面行爲,隻要你能減輕這些行爲,就沒問題。社交媒體有不好的東西,我們努力去緩解。Llama-2也有不好的地方,我們花了很多時間努力确保它不會幫助人們實施暴力行爲或類似的事情。這并不意味着它是一種自主的或智能體,這隻是意味着它學到了很多關于世界的知識,它可以回答一些我們認爲讓它回答是沒有幫助的問題。我認爲問題不在于它會表現出什麽行爲,而在于它表現出這些行爲後,我們不能緩解什麽。
我認爲有太多方式可以讓事物變得好或壞,以至于很難事先列舉出所有這些方式。看看我們在社交媒體中不得不應對的情況和各種傷害。我們基本上已經總結出大約18或19類人們會做的有害事情,我們基本上已經建立了人工智能系統來識别這些事情是什麽,并盡可能确保這些事情不會在我們的網絡上發生。随着時間的推移,我認爲你也能把它分解成一個更詳細的分類。我認爲這是我們花時間研究的事情,因爲我們想确保我們理解這一點。
Dwarkesh Patel: 在我看來,這是個好主意。如果在未來,人工智能系統沒有廣泛部署,每個人都無法訪問它們,我會感到失望。同時,我想更好地理解緩解措施。如果緩解措施是微調,關于開放權重的問題是,你可以移除微調,而微調通常是在這些能力之上的表面功能。如果它就像在Slack上與生物學研究人員交談......我認爲模型離這還很遠。現在,它們就像Google搜索。但是如果我能向它們展示我的培養皿,它們能解釋爲什麽我的天花樣本沒有生長以及需要改變什麽,你如何緩解這個問題?因爲有人可以直接微調進去,對吧?
Mark Zuckerberg: 這是真的。我認爲,大多數人會選擇直接使用現成的模型,但也有一些心懷不軌的人可能會試圖利用這些模型進行不良行爲,另一方面,我在哲學上如此支持開源的原因之一是,我認爲未來如果人工智能過度集中化,其潛在風險可能不亞于它的廣泛傳播。許多人都在思考:"如果我們能夠做到這些,那麽這些技術在社會上的廣泛應用是否會成爲壞事?"同時,另一個值得思考的問題是,如果一個機構擁有比其他所有人更強大的人工智能,這是否也是一件壞事?
我想到一個安全類比,許多不同的事物中存在如此多的安全漏洞。如果你能回到一兩年前,假設你隻是多了一兩年關于安全漏洞的知識。你幾乎可以侵入任何系統。這不是人工智能。所以相信一個非常智能的人工智能可能能夠識别一些漏洞,基本上就像一個人類可以回到一兩年前并破壞所有這些系統,這并非完全是天方夜譚。
那麽我們作爲一個社會是如何應對這種情況的呢?一個重要部分是開源軟件,它使得當軟件得到改進時,它不會隻局限于一個公司的産品,而是可以廣泛部署到許多不同的系統中,無論是銀行、醫院還是政府的東西。随着軟件變得更加強大,這是因爲更多的人可以看到它,更多的人可以敲打它,關于這些東西如何工作有一些标準。世界可以一起很快升級。
我認爲,在一個人工智能被非常廣泛部署的世界裏,它已經随着時間的推移逐步得到強化,所有不同的系統都會以某種方式受到制約。在我看來,這從根本上比這種情況更集中要健康得多。所以各方面都有風險,但我認爲這是一種我沒聽到人們談論得那麽多的風險。有人工智能系統做壞事的風險。但我整夜擔心的是,一個不值得信賴的行爲者擁有超級強大的人工智能,無論是敵對的政府、不值得信賴的公司還是其他什麽。我認爲這可能是一個大得多的風險。
Dwarkesh Patel: 因爲他們有一種别人都沒有的武器?
Mark Zuckerberg: 或者隻是制造大量混亂。我的直覺是,由于經濟、安全和其他原因,這些東西最終變得非常重要和有價值。如果你不信任的人或對手得到了更強大的東西,那麽我認爲這可能是一個問題。也許緩解這種情況的最佳方式是擁有良好的開源人工智能,使其成爲标準,并在許多方面成爲領導者。它隻是确保這是一個更加公平和均衡的競争環境。
Dwarkesh Patel: 這在我看來似乎是合理的。如果這成爲現實,那将是我更喜歡的未來。我想從機制上理解,世界上存在開源人工智能系統這一事實如何防止有人用他們的人工智能系統制造混亂?以某人帶着生物武器的具體例子來說,是不是我們會在世界其他地方做一堆研發來快速找出疫苗?發生了什麽?
Mark Zuckerberg: 如果你以我提到的安全問題爲例,我認爲擁有較弱人工智能的人試圖侵入一個由較強人工智能保護的系統,成功的可能性會更小。就軟件安全而言。
Dwarkesh Patel: 我們怎麽知道世界上的一切都是這樣的?如果生物武器不是這樣呢?
Mark Zuckerberg: 我的意思是,我不知道世界上的一切都是這樣的。生物武器是最擔心這類事情的人關注的領域之一,我認爲這很有道理。有一些緩解措施。你可以嘗試不把某些知識訓練到模型中。有不同的做法,但在某種程度上,如果你遇到一個非常糟糕的行爲者,而且你沒有其他人工智能來平衡他們并了解威脅是什麽,那可能就是一種風險。這是我們需要注意的事情之一。
Dwarkesh Patel: 在部署這些系統時,你能看到什麽情況嗎?比如你在訓練Llama-4,它欺騙了你,因爲它認爲你沒有注意到什麽,然後你就想"哇,這是怎麽回事?"這在Llama-4這樣的系統中可能不太可能,但你能想象有什麽類似的情況會讓你真正擔心欺騙性,以及數十億個這樣的副本在野外傳播嗎?
Mark Zuckerberg: 我的意思是,現在我們看到很多幻覺。更多的是這樣。我認爲這是一個有趣的問題,你如何區分幻覺和欺騙。有很多風險和需要考慮的事情。至少在經營我們公司時,我努力在這些長期的理論風險與我實際認爲當今存在的相當真實的風險之間取得平衡。所以當你談到欺騙時,我最擔心的形式是人們利用這個來制造錯誤信息,然後通過我們的網絡或其他網絡來傳播。我們對抗這種有害内容的方式是建立比對抗性更智能的人工智能系統。
這也是我對此理論的一部分。如果你看看人們通過社交網絡做或試圖做的各種傷害,有一些并不是非常具有對抗性的。例如,仇恨言論在人們沒有在種族主義方面變得更好這個意義上并不是超級對抗性的。在這一點上,我認爲人工智能總體上變得越來越複雜,其速度比人們在這些問題上要快得多。我們兩方面都有問題。人們做壞事,無論是試圖煽動暴力還是其他什麽,但我們也有很多誤報,基本上是我們不應該審查的東西。我認爲這可以理解地讓很多人感到惱火。所以我認爲随着時間的推移,擁有一個在這方面越來越精确的人工智能将是好事。
在這些情況下,我仍然考慮讓我們的人工智能系統以比他們更快的速度變得更加複雜的能力。這是一場軍備競賽,但我認爲我們至少目前正在赢得這場軍備競賽。這是我花時間思考的很多東西。
是的,無論是Llama-4還是Llama-6,我們都需要思考我們觀察到的行爲
Dwarkesh Patel:你把它開源的部分原因是,還有很多其他人也在研究這個。
Mark Zuckerberg:所以,是的,我們想看看其他人在觀察什麽,我們在觀察什麽,我們可以改善什麽。然後我們會評估是否可以将其開源。但我認爲在可預見的未來,我對我們能夠做到這一點持樂觀态度。在短期内,我不想忽視人們今天試圖使用這些模型的實際壞事,即使它們不是存在的,但它們就像我們熟悉的和運行我們的服務的相當嚴重的日常危害。實際上,我認爲這也是我們必須花費大量時間的事情。
我發現合成數據的事情真的很奇怪,我實際上感興趣的是爲什麽你不像當前的模型那樣思考,爲什麽一遍又一遍地進行合成數據可能會有漸近線是有道理的。如果他們變得更聰明,并采用我在論文或博客文章中提到的那種技術,這些技術将在發布當天被廣泛應用,它将引領正确的思維鏈條。爲什麽這不會形成一個循環呢?
當然,這不會在一夜之間發生,而是需要經過數月甚至數年的訓練。可能會使用更智能的模型,它會變得更聰明,産生更好的輸出,然後再變得更聰明,如此循環。我認爲這是在模型架構的參數範圍内可以實現的。
在某種程度上,我并不确定,我認爲就像今天的80億參數模型一樣,我并不認爲你能夠像最先進的數千億參數模型那樣好,這些模型将新的研究融入到架構本身中。但這些模型也會是開源的,但我認爲這取決于我們剛才讨論的所有問題。
我們希望情況會是這樣。然而,在每個階段,就像你在開發軟件時,你可以用軟件做很多事情,但在某種程度上,你會受到運行它的芯片的限制,所以總是會有不同的物理限制。模型的大小會受到你可以獲得和用于推理的能量的限制。所以我同時非常樂觀地認爲這些東西會繼續快速改進。
我比有些人更謹慎,我隻是認爲失控的情況不太可能發生。我認爲保持選擇的開放是有意義的。我們面臨的未知事物太多了。有一種情況是,保持權力平衡真的很重要。就像有一場智力爆炸,他們喜歡赢得勝利。很多事情似乎都是可能的。就像保持你的選擇開放一樣,考慮所有的選擇似乎是合理的。
Dwarkesh Patel: Meta作爲一家大公司。你可以兩者兼顧。至于開源的其他危險,我認爲你提出了一些真正合理的觀點,關于力量平衡的問題、以及我們可以通過更好的對齊技術或其他方式消除的危害。我希望Meta有某種框架。其他實驗室有這樣的框架,他們會說"如果我們看到這個具體的事情,那就不能開源,甚至可能不能部署。"隻是把它寫下來,這樣公司就做好了準備,人們對此有所期待等等。
Mark Zuckerberg: 關于存在性風險方面,這是一個很好的觀點。現在我們更關注我們今天看到的風險類型,更多的是這些内容風險,我們不希望模型做一些幫助人們實施暴力、欺詐或以不同方式傷害人們的事情。談論存在性風險可能在智力上更有趣,但我實際上認爲,需要更多精力來緩解的真正危害是,有人拿着模型做一些傷害他人的事情。在實踐中,對于當前的模型,我猜測下一代模型,甚至再下一代模型,這些都是我們今天看到的更普通的危害,比如人們互相欺詐之類的。我隻是不想低估這一點。我認爲我們有責任确保在這方面做好工作。
Dwarkesh Patel: Meta是一家大公司。你可以兩者兼顧。
Mark Zuckerberg: 沒錯。
對元宇宙的看法
Dwarkesh Patel: 讓我們來談談其他事情。元宇宙。你最想去人類曆史上的哪個時期?從公元前10萬年到現在,你隻是想看看那時候是什麽樣子?
Mark Zuckerberg: 一定要是過去嗎?
Dwarkesh Patel: 是的一定是過去。
Mark Zuckerberg: 我對美國曆史和古典曆史非常感興趣。我對科學史也很感興趣。我實際上認爲看到并試圖了解更多關于一些重大進展是如何發生的會很有趣。關于這些東西,我們所擁有的隻是一些有限的知識。我不确定元宇宙是否能讓你做到這一點,因爲對于我們沒有記錄的事情要回到過去是很難的。我實際上不确定回到過去是否會是一件重要的事情。我認爲這對曆史課之類的東西會很酷,但這可能不是我對元宇宙整體最興奮的用例。
主要的事情就是能夠與人感覺在一起,無論你在哪裏。我認爲那将是緻命的。在我們進行的關于人工智能的對話中,很多内容都是關于所有這些背後的物理限制。
我認爲技術的一個教訓是,你要盡可能地将事物從物理約束領域轉移到軟件中,因爲軟件的構建和發展要容易得多。你可以讓它更加民主化,因爲不是每個人都會有數據中心,但很多人可以編寫代碼并修改開源代碼。元宇宙版本的目标是實現真實的數字化存在。這将是一個絕對巨大的差異,所以人們不會覺得他們必須爲很多事情在一起。現在我認爲,在一起可能會有一些更好的東西。這些事情不是非黑即白的。不會像是"好了,現在你不需要再這樣做了。"但總的來說,我認爲這對于社交、與人聯系、工作、工業的某些部分、醫學以及許多其他事情來說都将是非常強大的。
Dwarkesh Patel: 我想回到你在談話開始時說的一件事。你沒有以10億美元的價格出售公司。關于元宇宙,你知道你要做這件事,即使市場因此而猛烈抨擊你。我很好奇。這種優勢的來源是什麽?你說"哦,價值觀,我有這種直覺",但每個人都這麽說。如果你要說一些你特有的東西,你會如何表達?你爲什麽如此确信元宇宙?
Mark Zuckerberg: 我認爲這些是不同的問題。是什麽驅動着我?我們已經談了很多主題。我隻是真的喜歡創造東西,我特别喜歡圍繞人們如何交流以及理解人們如何表達自己和工作來創造事物。我上大學時學的是計算機科學和心理學,我認爲業内很多其他人學的是計算機科學。所以對我來說,這兩件事的交集一直很重要。
這也是一種非常深層的驅動力。我不知道如何解釋,但我從内心感到,如果我不創造新事物,我就是在做錯事。即使在我們爲投資1000億美元在人工智能上或在元宇宙投入巨額資金制定商業案例時,,我們有計劃,我認爲這些計劃非常明确,如果我們的東西有效,那将是一項很好的投資。但你不能從一開始就知道,而且,人們有各種各樣的争論,無論是與顧問還是不同的人。
Dwarkesh Patel: 好吧,你怎麽能,你怎麽有足夠的信心去做這件事?你不可能從一開始就确定無疑。人們有各種争論,與顧問或不同的人讨論。你怎麽有足夠的信心去做這件事?
Mark Zuckerberg: 我停止嘗試創造新事物的那一天,我就完了,我會去别的地方創造新事物。我從根本上無法經營一些東西或者在我自己的生活中,不去嘗試創造我認爲有趣的新事物。對我來說,我們是否要嘗試創造下一個東西,這甚至不是一個問題。我就是無法不這樣做,我不知道。
我在生活的方方面面都是這樣的。我們的家人在考艾島建造了這個牧場,我參與設計了所有這些建築。我們開始養牛,我就想"好吧,我想養出世界上最好的牛,那麽我們如何設計這個牧場,以便我們能夠弄清楚并建造我們需要嘗試做的所有東西。我不知道,這就是我。
Dwarkesh Patel: 我不确定,但我實際上對另一件事很好奇。19歲的你讀了很多古代和古典作品,包括高中和大學期間。你從中學到了什麽重要的一課?不僅僅是你發現的有趣的東西,而且像……到你19歲的時候,你消耗的Token并不多。其中很多都是關于經典的。顯然,這在某種程度上很重要。
Mark Zuckerberg: 你消耗的token并不多......這是個好問題。這是我認爲非常有趣的事情之一。奧古斯都成爲皇帝,他試圖建立和平。當時沒有真正的和平概念。人們對和平的理解是敵人不可避免地攻擊你之間的暫時時期。所以你可以得到短暫的休息。他有這樣一種觀點,即将經濟從雇傭兵和軍事主義的東西轉變爲實際上的正和遊戲。這在當時是一個非常新穎的想法。
這是一件非常根本的事情: 人們當時可以想象的作爲理性工作方式的界限。這既适用于元宇宙,也适用于人工智能的東西。許多投資者和其他人無法理解我們爲什麽要開源。就像是"我不明白,它是開源的。這一定隻是你讓事物成爲專有的臨時時期,對吧?"我認爲這是技術中一個非常深刻的東西,它實際上創造了很多赢家。
我不想過度強調這個類比,但我确實認爲,很多時候,有一些構建事物的模式是人們通常無法理解的。他們無法理解這對人們來說怎麽會是一件有價值的事情,或者它怎麽會是一種合理的世界狀态。我認爲,比人們想象的更合理的事情還有很多。
Dwarkesh Patel: 這非常有趣。我能告訴你我在想什麽嗎?關于你可能從中得到的東西?這可能完全不對,但我認爲關鍵是其中一些人有很重要的角色,他們在帝國中的年齡有多小。例如,凱撒·奧古斯都,在他19歲的時候,已經是羅馬政治中最重要的人物之一。他正在領導戰鬥,組建第二次三頭統治。我想知道19歲的你是否在想"我能做到這一點,因爲凱撒·奧古斯都做到了。"
Mark Zuckerberg: 這是一個有趣的例子,無論是在很多曆史還是美國曆史中都是如此。我最喜歡的一句話是畢加索的這句話,所有的孩子都是藝術家,挑戰在于随着年齡的增長保持藝術家的身份。當你年輕的時候,有瘋狂的想法更容易。在你的生活中,以及對于你的公司或你建立的任何東西,都存在着所有這些與創新者困境的類比。你在軌迹上處于較早的位置,所以更容易轉向并接受新的想法,而不會破壞對不同事物的其他承諾。我認爲這是經營公司的一個有趣的部分。你如何保持動态?
開源價值100億美元的模型
Dwarkesh Patel: 讓我們回到投資者和開源的話題。100億美元的模型,假設它是完全安全的。你已經做了這些評估,與本例不同的是,評估者也可以微調模型,希望在未來的模型中也是如此。你會開源這個100億美元的模型嗎?
Mark Zuckerberg: 隻要它對我們有幫助,那就會。
Dwarkesh Patel: 但會有幫助嗎?100億美元的研發,現在它是開源的。
Mark Zuckerberg: 這也是一個我們需要随着時間的推移進行評估的問題。我們有很長的開源軟件曆史,但我們不傾向于開源我們的産品,我們不會拿Instagram的代碼來開源。
我們采用了很多底層基礎設施,并将其開源。我們曆史上最大的一次可能是我們的Open Compute項目,我們采用了我們所有服務器、網絡交換機和數據中心的設計,并将其開源,最終它被證明非常有幫助。雖然很多人可以設計服務器,但業界現在都采用了我們的設計标準,這意味着供應鏈基本上都是圍繞我們的設計建立的。因此,産量上升,對每個人來說都更便宜,爲我們節省了數十億美元,這太棒了。
因此,開源可能對我們有幫助的方式有多種。一種是如果人們想出了如何更便宜地運行模型。随着時間的推移,我們将在所有這些東西上花費數百億美元甚至更多。因此,如果我們能提高10%的效率,我們就能節省數十億或數百億美元。這本身可能就值得很多。尤其是如果還有其他有競争力的模型,我們的東西并不是在贈送某種瘋狂的優勢。
Dwarkesh Patel: 那麽你的觀點是訓練将被商品化嗎?
Mark Zuckerberg: 我認爲這可能有很多種發展方式,這是其中之一。因此,"商品化"意味着它将變得非常便宜,因爲有很多選擇。這可能發展的另一個方向是質的改進。你提到了微調。現在,你可以用微調其他主要模型做的事情非常有限。有一些選擇,但通常不适用于最大的模型。有能力做到這一點,不同的特定應用程序的事情或特定用例的事情,或者将它們構建到特定的工具鏈中。我認爲這不僅會實現更高效的開發,還可能實現質的不同。
這裏有一個類比。我認爲移動生态系統普遍存在的一個問題是,你有這兩家把關公司,蘋果和谷歌,它們可以告訴你允許構建什麽。有一個經濟版本,就像我們構建一些東西,然後他們就拿走你一大筆錢。但還有一個質的版本,這實際上更讓我不高興。
有很多次,我們推出或想推出一些功能,而蘋果就說"不,你不能推出。"這很糟糕,對吧,所以問題是,我們是否爲人工智能建立了這樣一個世界?你将得到少數幾家運行這些封閉模型的公司,它們将控制API,因此能夠告訴你可以構建什麽?
對我們來說,我可以說爲了确保我們不處于那個位置,自己去構建一個模型是值得的。我不希望任何其他公司告訴我們可以構建什麽。從開源的角度來看,我認爲很多開發人員也不希望那些公司告訴他們可以構建什麽。
所以問題是,圍繞這一點構建的生态系統是什麽?有哪些有趣的新事物?這在多大程度上改善了我們的産品?我知道有很多情況下,如果這最終成爲我們的數據庫或緩存系統或架構,我們将從社區獲得寶貴的貢獻,這将使我們的産品更好。然後,我們所進行的特定應用程序的工作仍然具有如此大的差異性,以至于它實際上并不重要,對嗎?
也許該模型最終更像是産品本身,在這種情況下,我認爲是否開源就成了一個更爲複雜的經濟計算,因爲這樣做在很大程度上就是将自己商品化。但從我目前所看到的情況來看,我們似乎還沒有達到那個水平。
Dwarkesh Patel: 你是否期望從向雲提供商許可你的模型中獲得可觀的收入?所以他們必須支付費用才能實際提供該模型。
Mark Zuckerberg: 我們希望有這樣的安排,但我不知道它會有多重要。這基本上是我們對Llama的許可,在很多方面,它是一個非常寬松的開源許可,隻是我們對最大的公司使用它有一個限制。這就是我們設置這個限制的原因。我們不是試圖阻止他們使用它。我們隻是希望他們來與我們交談,如果他們打算基本上拿走我們構建的東西,轉售它并從中賺錢。如果你是像Microsoft Azure或Amazon這樣的公司,如果你打算轉售該模型,那麽我們應該在其中分一杯羹。所以在你去做之前,先來和我們談談。事情就是這樣發展的。
所以對于Llama-2,我們與基本上所有這些主要雲公司都有交易,Llama-2作爲托管服務在所有這些雲上都可用。我假設,随着我們發布越來越大的模型,這将成爲一件更大的事情。這不是我們正在做的主要事情,但我認爲,如果這些公司要銷售我們的模型,我們應該以某種方式分享其中的好處,這是有道理的。
Dwarkesh Patel: 關于開源的其他危險,我認爲你提出了一些真正合理的觀點,關于力量平衡的問題,以及我們可以通過更好的對齊技術或其他方式消除的危害。我希望Meta有某種框架。其他實驗室有這樣的框架,他們會說"如果我們看到這個具體的事情,那就不能開源,甚至可能不能部署。"隻是把它寫下來,這樣公司就做好了準備,人們對此有所期待等等。
Mark Zuckerberg: 關于存在性風險方面,這是一個很好的觀點。現在我們更關注我們今天看到的風險類型,更多的是這些内容風險。我們不希望模型做一些幫助人們實施暴力、欺詐或以不同方式傷害人們的事情。雖然談論存在性風險可能在智力上更有趣,但我實際上認爲,需要更多精力來緩解的真正危害是,有人拿着模型做一些傷害他人的事情。在實踐中,對于當前的模型,我猜測下一代模型,甚至再下一代模型,這些都是我們今天看到的更普通的危害,比如人們互相欺詐之類的。我隻是不想低估這一點。我認爲我們有責任确保在這方面做好工作。
Dwarkesh Patel: 就開源而言,我感到好奇的是,你認爲PyTorch、React、Open Compute等開源項目對世界的影響,是否有可能超越Meta在社交媒體方面的影響?我曾與這些服務的用戶交流過,他們認爲這種可能性是存在的,畢竟互聯網的大部分運行都依賴于這些開源項目。
Mark Zuckerberg: 我們的消費産品确實在全球範圍内擁有龐大的用戶基礎,幾乎覆蓋了全世界一半的人口。然而,我認爲開源正成爲一種全新的、強大的構建方式。它可能會像貝爾實驗室一樣,最初他們研發晶體管是爲了實現長途通話,這一目标确實實現了,并爲他們帶來了可觀的利潤。但5到10年後,當人們回顧他們最引以爲傲的發明時,可能會提到其他更有深遠影響的技術。
我堅信,我們構建的許多項目,如Reality Labs、某些AI項目以及一些開源項目,将對人類的進步産生持久而深遠的影響。雖然具體的産品會随着時間的推移不斷發展、出現和消失,但它們對人類社會的貢獻卻是持久的。這也是我們作爲技術從業者能夠共同參與的、令人振奮的部分。
自研芯片上訓練模型
Dwarkesh Patel: 關于你們的Llama模型,它何時會在你們自己的定制芯片上進行訓練?
Mark Zuckerberg: 很快,我們正在努力推動這一進程,但Llama-4可能不是首個在定制芯片上進行訓練的模型。我們采取的方法是,自研定制芯片先處理我們的排名和推薦類型的推理任務,比如Reels、新聞源廣告等。這一旦我們能夠将這些任務轉移到我們自己的芯片上,我們就能将更昂貴的英偉達GPU用于訓練更複雜的模型。
在不久的将來,我們有希望自己擁自己的芯片,我們可以首先用它來訓練一些比較簡單的東西,然後最終訓練這些非常大的模型。同時,我要說這個項目進展得很順利,我們正在有條不紊地推進,我們有一個長期的路線圖。
如果小紮成爲Google+的CEO
Dwarkesh Patel: 最後一個問題。這完全是題外話,如果你被任命爲Google+的CEO,你能讓它成功嗎?
Mark Zuckerberg:Google+?哦。好吧,我不知道。我不知道,這是一個非常困難的反事實。
Dwarkesh Patel: 好的,那真正的最後一個問題是:當Gemini推出時,辦公室裏有人說過 "Carthago delenda est"(迦太基必須被摧毀)嗎?
Mark Zuckerberg: 不,我想我們現在更溫和了。這是個好問題。問題是Google+沒有CEO。它隻是公司内部的一個部門。你之前問過什麽是最稀缺的商品,但你問的是美元方面的問題。我實際上認爲,對于大多數這種規模的公司來說,最稀缺的是專注。
當你是一家初創公司時,也許你在資金方面更受限制。你隻專注于一個想法,你可能沒有所有的資源。在某個時候,你會跨越一個門檻,進入你所做事情的本質。你正在構建多個東西,你在它們之間創造了更多價值,但你在能夠投入其中的精力上變得更加受限。
總有一些情況,組織中會随機發生一些很棒的事情,而我甚至都不知道。那些都很棒。但我認爲一般來說,組織的能力在很大程度上受到CEO和管理團隊能夠監督和管理的内容的限制。這對我們來說一直是一個重點。正如本•霍洛維茨所說,我們應該把主要的事情放在首位,并盡量專注于你的關鍵優先事項。
Dwarkesh Patel: 非常好,非常感謝。馬克,你做得太棒了。