文 | 闌夕
這幾天刷推很明顯的感覺到英文技術社區對中國 AI 産業的進步速度處于一種半震動半懵逼的狀态,應激來源主要是兩個,一個是宇樹(Unitree)的輪足式機器狗 B2-W,另一個是開源 MoE 模型 DeepSeek-V3。
宇樹在早年基本上屬于是波士頓動力的跟班,産品形态完全照貓畫虎,商業上瞄準的也是低配平替生态位,沒有太大的吸引力,但從 B 系列型号開始,宇樹的機器狗就在靈活性上可以和波士頓動力平起平坐了。



B2-W 的意外在于切換了技術線,用運動性更高但平衡性同時也更難的動輪方案取代了 B2 還在沿用四足方案,然後在一年時間裏完成了能在戶外環境裏跋山涉水的訓練,很多美國人在視頻底下說這一定是 CGI 的畫面,不知道是真假還是心态炸了。
波士頓在機器狗身上也曾短暫用過動輪方案,或者說它測過的方案遠比宇樹要多——公司成立時長擺在那裏——但是作爲行業先驅,它連保持一家美國公司的實體都辦不到了。
現代汽車 2020 年以打折價從軟銀手裏買了波士頓動力,正值軟銀賬面巨虧需要回血,而軟銀當初又是在 2017 年從 Google 那裏買到手的,Google 爲什麽賣呢,因爲覺得太燒錢了,虧不起。
這理由就很離譜,美國的風險資本系統對于虧損的容忍度本來就是全球最高的,沒有之一,對于前沿性的研究,砸錢畫餅是再尋常不過了的——看這兩年矽谷在 AI 上的投入産出比就知道了——但波士頓動力何以在獨一檔的地位上被當成不良資産賣來賣去?
那頭房間裏的大象,美國的科技行業普遍都裝作看不到:美國人,如今的美國人,從投行到企業,從 CEO 到程序員,從紐約到灣區,對制造業的厭棄已經成爲本能了。
A16Z 的合夥人馬克 · 安德森 2011 年在「華爾街 · 日報」寫了那篇流傳甚廣的代表作「軟件吞噬世界」,大概意思是,邊際成本極低的軟件公司注定接管一切水草繁盛之地,和這種可以提供指數級增長的生意比起來,其他的行業都不夠看。
并不是說馬克 · 安德森的表達有問題,後面這十幾年來的現實走向,也确實在證明這條攫取規模化利潤的回報是最高的,但美國人的路徑依賴到最後必然帶來一整代人喪失制造能力的結果。
這裏說的喪失制造能力,并不是說喪失制造興趣或是熱情,我前段時間拜訪了深圳一家逆向海淘公司,業務就是把華強北的電子配件做成可索引的結構化目錄,然後提供從采購到驗貨再到發包的全流程服務,最大的買方就是美國的 DIY 市場和高校學生,他們之所以要不遠萬裏的等上幾個星期委托中國人來買東西,就是因爲在諾大的美國本土,根本找不到供應鏈。
然後那些學生也隻有在讀書時才有真正嘗試制造某些東西的機會,到了要去大公司裏上班領薪後,再也沒人願意把手弄髒了。
但軟件終究不能脫離硬件運行,哪怕硬件生産的附加值再不夠看,基于采集一手物理數據的入口,制造商腰闆硬起來後去做全套解決方案,隻取決于能不能組建好的工程師團隊,反過來卻不一樣,制造訂單長期外包出去,它就變成産業鏈配套回不來了。
所以像是多旋翼無人機和四足機器狗這類新興科技萌芽的原型機一般都還是産自有着試錯資本的歐美,也就是所謂「從零到一」的過程,而在「從一到十」的落地階段,中國的追趕成果就會開始密集呈現,進入「從十到百」的量産之後,中國的供應鏈成本直接殺死比賽。
波士頓動力的機器人最早在網上爆火的時候,Google X 的負責人在内部備忘錄裏說他已經和媒體溝通了,希望不要讓視頻和 Google 扯上太大關系,是不是很迷惑,這麽牛逼的事情,你作爲母公司非但不高興,還想躲起來,現在你們懂得這種顧慮從何而來了,就是覺得貴爲軟件巨頭的 Google 去卷袖子幹制造的活兒太卑賤了呗。
當然美國也還有馬斯克這樣的建設者(Builder),但你要知道馬斯克的故事之所以動人,是因爲他這樣的人現在是極度稀缺的,而且長期以來不受主流科技業界待見,完全是靠逆常識的成就——造汽車,造火箭,造隧道,這都是矽谷唯恐避之不及的事情——去一步步打臉打出來的名聲。
如果說宇樹是在硬件上引起了一波懷疑現實的熱度,那麽 DeepSeek 則在軟件的原生地盤,把大模型廠商都給硬控住了。
在微軟、Meta、Google 都在奔着 10 萬卡集群去做大模型訓練時,DeepSeek 在 2000 個 GPU 上,花了不到 600 萬美金和 2 個月的時間,就實現了對齊 GPT-4o 和 Claude 3.5 Sonnet 的測試結果。

DeepSeek-V2 在半年前就火過一波,但那會兒的叙事還相對符合舊版本的預期:中國 AI 公司推出了低成本的開源模型,想要成爲行業裏的價格屠夫,中國人就擅長做這種便宜耐用的東西,隻要不去和頂級産品比較,能用是肯定的。
但 V3 則完全不同了,它把成本降了 10 倍以上,同時質量卻能比肩 t1 陣營,關鍵還是開源的,相關推文的評論區全是「中國人咋做到的?」
雖然但是,後發的大模型可以通過知識蒸餾等手段實現性價比更高的訓練——類似你學習牛頓三定律的速度降低的斜率也在有利于追趕者,肯定比牛頓本人琢磨出定律的速度要快——成本,但匪夷所思的效率提升,是很難用已知訓練方法來歸納的,它一定是在底層架構上做了不同于其他巨頭的創新。
另一個角度更有意思,如果針對中國的 AI 芯片禁售政策最後産生的後果,是讓中國的大模型公司不得不在算力受限的約束下實現了效率更高的解決方案,這種适得其反的劇情就太諷刺了。
DeepSeek 的創始人梁文鋒之前也說過,公司差的從來都不是錢,而是高端芯片被禁運。
所以中國的大模型公司,像是字節和阿裏這樣的大廠,卡能管夠,把年收入的 1/10 拿出來卷 AI,問題不大,但初創公司沒這麽多彈藥,保持不下牌桌的唯一方法就是玩命創新。
李開複今年也一直在表達一個觀點,中國做 AI 的優勢從來不是在不設預算上限的情況下去做突破性研究,而是在好、快、便宜和可靠性之間找出最優解。
零一和 DeepSeek 用的都是 MoE(混合專家)模式,相當于是在事先準備的高質量數據集上去做特定訓練,不能說在跑分上完全沒有水分,但市場并不關心原理,隻要質價比夠看,就一定會有競争力。
當然 DeepSeek 不太一樣的是,它不太缺卡,2021 年就囤了 1 萬張英偉達 A100,那會兒 ChatGPT 還沒影呢,和 Meta 爲了元宇宙囤卡卻陰差陽錯的趕上 AI 浪潮很像,DeepSeek 買那麽多卡,是爲了做量化交易⋯⋯
我最早對梁文鋒有印象,是「西蒙斯傳」裏有他寫的序,西蒙斯是文藝複興科技公司的創始人,用算法模型去做自動化投資的開創者,梁文鋒當時管着 600 億人民币的量化私募,寫序屬于順理成章的給行業祖師爺緻敬。
交待這個背景,是想說,梁文鋒的幾家公司,從量化交易做到大模型開發,并不是一個金融轉爲科技的過程,而是數學技能在兩個應用場景之間的切換,投資的目的是預測市場,大模型的原理也是預測 Token。
後來看過幾次梁文鋒的采訪,對他的印象很好,非常清醒和聰明的一個人,我貼幾段你們感受一下:

「暗湧」:大部分中國公司都選擇既要模型又要應用,爲什麽 DeepSeek 目前選擇隻做研究探索?
梁文鋒:因爲我們覺得現在最重要的是參與到全球創新的浪潮裏去。過去很多年,中國公司習慣了别人做技術創新,我們拿過來做應用變現,但這并非是一種理所當然。這一波浪潮裏,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生态發展。
「暗湧」:互聯網和移動互聯網時代留給大部分人的慣性認知是,美國擅長搞技術創新,中國更擅長做應用。
梁文鋒:我們認爲随着經濟發展,中國也要逐步成爲貢獻者,而不是一直搭便車。過去三十多年 IT 浪潮裏,我們基本沒有參與到真正的技術創新裏。我們已經習慣摩爾定律從天而降,躺在家裏 18 個月就會出來更好的硬件和軟件。Scaling Law 也在被如此對待。但其實,這是西方主導的技術社區一代代孜孜不倦創造出來的,隻因爲之前我們沒有參與這個過程,以至于忽視了它的存在。
「暗湧」:但這種選擇放在中國語境裏,也過于奢侈。大模型是一個重投入遊戲,不是所有公司都有資本隻去研究創新,而不是先考慮商業化。
梁文鋒:創新的成本肯定不低,過去那種拿來主義的慣性也和過去的國情有關。但現在,你看無論中國的經濟體量,還是字節、騰訊這些大廠的利潤,放在全球都不低。我們創新缺的肯定不是資本,而是缺乏信心以及不知道怎麽組織高密度的人才實現有效的創新。
「暗湧」:但做大模型,單純的技術領先也很難形成絕對優勢,你們賭的那個更大的東西是什麽?
梁文鋒:我們看到的是中國 AI 不可能永遠處在跟随的位置。我們經常說中國 AI 和美國有一兩年差距,但真實的 gap 是原創和模仿之差。如果這個不改變,中國永遠隻能是追随者,所以有些探索也是逃不掉的。英偉達的領先,不隻是一個公司的努力,而是整個西方技術社區和産業共同努力的結果。他們能看到下一代的技術趨勢,手裏有路線圖。中國 AI 的發展,同樣需要這樣的生态。很多國産芯片發展不起來,也是因爲缺乏配套的技術社區,隻有第二手消息,所以中國必然需要有人站到技術的前沿。
「暗湧」:很多大模型公司都執着地去海外挖人,很多人覺得這個領域前 50 名的頂尖人才可能都不在中國的公司,你們的人都來自哪裏?
梁文鋒:V2 模型沒有海外回來的人,都是本土的。前 50 名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。
「暗湧」:所以你對這件事也是樂觀的?
梁文鋒:我是八十年代在廣東一個五線城市長大的。我的父親是小學老師,九十年代,廣東賺錢機會很多,當時有不少家長到我家裏來,基本就是家長覺得讀書沒用。但現在回去看,觀念都變了。因爲錢不好賺了,連開出租車的機會可能都沒了。一代人的時間就變了。以後硬核創新會越來越多。現在可能還不容易被理解,是因爲整個社會群體需要被事實教育。當這個社會讓硬核創新的人功成名就,群體性想法就會改變。我們隻是還需要一堆事實和一個過程。
⋯⋯