The following article is from AI深度研究員 Author AI工作坊
、
第二期華夏基石數智時代領導力特訓營熱招中!
報名即送十月管理論壇名額一個!價值12800元!
來源 | AI工作坊,管理智慧
咨詢合作| 13699120588
文章僅代表作者本人觀點,圖片來源于pixabay
OpenAI投資的機器人創業公司1X宣布他們研發的家用雙足人形機器人原型NEO Beta正式問世。這款機器人不僅代表着人形機器人技術的重大進展,更預示着智能機器人即将走入普通家庭,開啓人機共存的新紀元。
在一次難得的機會中,1X Technologies的創始人兼首席執行官Bernt Bornich接受了深度采訪。這次對話不僅揭示了Bornich的個人背景和公司過去十年的發展曆程,更展現了1X令人驚歎的未來規劃。據Bornich透露,公司計劃在2025年生産數千台Neo機器人,2026年擴大到數萬台,2027年躍升至數十萬台,到2028年更是要實現驚人的數百萬台生産規模。這一雄心勃勃的目标背後,是1X對家庭機器人市場巨大潛力的堅定信念。
NEO Beta身高1.65米,體重30公斤,外形酷似成年人。它不僅能以每小時2.5英裏的速度行走,還可以以每小時7.5英裏的速度奔跑。這款機器人專爲家務設計,能夠承重20公斤,單次工作時間長達2到4小時。從做飯、端盤子到幫忙背包,NEO Beta幾乎可以勝任各種家庭日常任務。然而,NEO Beta的與衆不同之處不僅在于其出色的性能,更在于其獨特的交互方式。它在工作時保持"靜音",主要通過眼神交流和手勢來與人類溝通,營造出一種安靜而溫馨的陪伴感。這種設計理念體現了1X公司對未來人機關系的深刻思考——機器人不應僅僅是冰冷的工具,而應成爲家庭中溫暖的一員。
1:16 爲什麽是人形機器人?
8:40 規模的力量
18:35 讓機器人進行實驗
27:45 莫拉維克悖論
32:50 模型推理困難
40:40 人形生态系統
56:30 雇用誰你是就誰
1:00:00 相信你的直覺
1:05:50 2040
1:12:00 人生哲學
主持人: Bernt,對于那些還沒有看過這期節目的觀衆,你能簡單介紹一下1X Technologies正在做些什麽嗎?在我們開始之前,能否先爲我們簡單介紹一下自己?
嘉賓Bernt Bornich: 當然。1X的目标是通過将類人機器人引入家庭,解決人工智能領域一些尚未解決的關鍵挑戰。我們的機器人可以執行各種任務,從疊衣服到建造摩天大樓,真正讓它們對所有人都變得實用。
人形機器人未來巨大市場
Bernt Bornich: 當然。對我個人來說,這是我一生的夢想。從小時候起,我就知道自己要做這件事。如果我們從大局出發思考技術的重大突破,無論是在交通領域還是計算領域,我們可以看到技術通常會經曆一些周期。最開始,你會有一個非常專門化的系統,因爲問題非常複雜。以計算機爲例,早期的主機就是這樣。但到某個節點,技術發展足夠成熟,你可以制造出一個通用系統——就像計算機革命中的PC一樣。這時你就能獲得規模化效應,創造出龐大的生态系統,并實現廣泛的應用。即便有時你可以用更簡單的系統解決某些任務,通用系統的強大之處在于它能創造出完整的生态系統。如今,計算領域已經變得非常龐大,市場規模巨大,因此你可以開辟出一些專門化的領域,這些領域仍然很大,比如制造業或運輸業,而這些專門化的系統依然更有效率,因爲你在這些領域中仍然能獲得規模化效應。
主持人: 聽起來你們正試圖将這一理念帶入機器人領域,對吧?
Bernt Bornich: 沒錯。這正是機器人領域正在發生的事情。我們正從高度專業化的系統邁向通用系統,這樣可以獲得規模化效應和大規模的普及應用,構建生态系統。而我認爲人形機器人是最終解決方案中最通用的平台。因爲你需要一個系統能夠在物理空間内執行所有你想要的操作,才能開始看到我們在數字領域中已經體驗到的那種大規模效率提升。在自動化數字系統的幫助下,社會的效率得到了巨大的提升,但在物理領域這一切還未發生。我相信最終我們會回到最初的循環,我們将擁有數以億計的機器人,執行各種任務。到那時,可能會有更多的專門化,因爲我們的系統已經足夠強大了。然後,也許我們會像《星球大戰》一樣,擁有不同類型的機器人執行各種任務。但人形機器人依然會占據很大一部分,因爲它仍然是最通用的系統。還有一點非常重要的是,人類的知識是通過我們的身體體現出來的。如果你問一個大型語言模型如何打開果醬罐,它會告訴你用一隻手抓住罐子,用另一隻手擰開蓋子。人類如何在物理世界中行動,是我們最研究透徹的事情之一。你去看YouTube上的視頻,大多數視頻都是關于人類的。很有趣的是,即便如此,大型模型仍然不太理解人類的行爲及其運動方式。這是一個非常深奧的話題,我們可以稍後再深入讨論。
但我認爲能夠重複利用我們已有的知識非常有價值。而最後一點,不僅這個世界是爲我們所設計的,我們還希望讓世界對我們來說更加便利,對吧?我們想要創造适合我們生活的技術,而不是讓我們去适應技術。我們隻是想最大化自己的舒适度,享受更多樂趣,騰出時間去做我們真正想做的事情。
主持人: 你認爲人形機器人平台是實現這一目标的最佳方式嗎?因爲AI通過具身認知理解世界,而這個桌子剛好就是我的手臂高度,這樣的理解方式?
Bernt Bornich: 是的,還有知識的傳遞。我認爲我們應該讨論的最後一點是我們如何教導系統,比如Neo,去完成各種任務。事實上,這個過程幾乎是無限的。你戴上VR頭顯,可以通過機器人的眼睛看世界,你還能看到機器人的手,而這感覺就像是你自己的手。你的整個身體都映射到機器人的身體上。這樣你就可以執行你想做的所有任務,通過這種方式,你可以創造非常強大的專家示範,我們的AI可以據此進行訓練。如果沒有一個像人類一樣的形态,能像人類一樣行動——不僅是關節的角度問題,它還需要具備相同的動力學,甚至在物理反應上也應與人類相似——那麽你就不需要過多思考,隻需像自己在做任務一樣操作。如果機器人不是類人形的,比如帶輪子的手推車裝上機械臂,手上裝了攝像頭,它也許隻能做有限的動作,無法像人類那樣靈活,比如開門就會變得非常複雜。要讓這樣的機器人開門,反而增加了不必要的複雜性。這被稱爲"跨具身問題"。這樣的複雜性确實不必要。我們希望我們的技術能融入到現有的空間中。我們可以繼續讨論下去,因爲這背後有許多原因值得探讨。但我認爲,從進化的角度來看,最終我們勝出了,因爲我們擅長用手完成各種任務,利用工具等等。所有這些都值得強調。
主持人: 我發現很多時候,尤其是那些從事硬件開發的機器人專家,他們對類人形機器人有一種負面的本能反應,因爲他們意識到制造這樣的機器人有多難。他們可能覺得這并不是解決問題的最有效方式,或者認爲這隻是因爲從未成功過,所以不值得去做。你怎麽看這個問題?即使需要很長時間才能達到那個點,但一旦成功,那些工程時間就可以在大規模生産時得到回報,對嗎?
Bernt Bornich: 沒錯,100%正确。我認爲他們的主要論點是,人形機器人系統的制造複雜性很高。你可以說,如果這個項目成功了,你的工程時間是值得的,但你能否讓這個系統變得足夠簡單和高效,以至于能大規模生産,并且比專門化的系統更具成本效益?我認爲我們在這條道路上走得相當明确,但确實需要從基本原則出發,重新審視問題,而不是一味增加複雜性,這往往是機器人開發中的常見問題。如果我們能夠非常非常出色地制造類人機器人,我們也許能造出更便宜的機械臂,但我們不會生産那麽多機械臂。那些機械臂不會成爲你生活中的夥伴,幫助你處理各種事情。
規模無疑是最強大的推動力之一。我們在整個社會中都能看到這種現象,無論是消費産品的普及還是現代技術産品的應用,規模的力量是非常驚人的。你可以在非常複雜的系統中壓低成本。但我認爲,解決這個問題需要兩方面的努力:不僅要考慮如何使系統盡可能簡單,還要考慮如何大規模生産。
人形Neo是什麽樣
主持人: 在繼續深入探讨簡化、基本原則和制造問題之前,我想請你先爲那些還沒有看過主要集數的觀衆簡單介紹一下Eve的背景,以及Neo是什麽樣的機器人?
Bernt Bornich: 當然可以。WX公司始于2015年,至今已經走過了九年,Eve基本上是我們第一代技術的成果。在這過程中,我們開發了一些非常強大的、獨特類型的電機。事實上,Eve中的電機在扭矩和重量比方面仍然是市場上其他産品的兩倍半以上。爲了做到這一點,我們的制造技術與傳統的電機設計和制造方式完全不同。用于制造這些電機的機器也完全不同。我們将所有這些技術整合到一個平台中,能夠進行大規模部署,收集有效數據,總結經驗教訓,弄清楚如何讓這一切真正運作起來,以及如何使制造過程順利進行。對我來說,這就是Eve,這就是公司前六年的成果。而Neo則是基于相同技術的第二代産品。
每當你開始做一些全新的事情,尤其是一些前所未有的事情時,你還沒有進入"邊際收益遞減"的階段,進步的空間仍然很大。因此,第一代和第二代,甚至第三代産品之間會有巨大的提升。從Eve到Neo,我們在功率密度、能效、安全性等各項指标上都取得了巨大的飛躍。這也讓我們能夠從輪式平台轉向擁有雙足的類人平台,這個平台依然能夠執行數小時的任務,完成各種有用的勞動,并能适應任何環境,同時還可以大規模制造,并整合我們所學到的所有經驗。如果我們退一步思考,我們的系統通過一些非常強大的電機運作,這些電機能夠拉動松弛的肌腱,這個設計靈感來源于肌肉結構,因此它能夠實現我們在自然界中看到的那種優美動态,比如運動員奔跑或體操運動員做動作時展現出來的那種流暢運動。它的運動方式與我們通常想到的那種僵硬的機器人完全不同,我們稱它爲"機器人站立"的原因就在這裏。
主持人: 能解釋一下典型的諧波傳動和你們開發的這些電機之間的區别嗎?
Bernt Bornich: 機器人學的一個關鍵問題是,我們并不真正知道如何制造一個緻動器系統。通常,緻動器系統由電機、傳動裝置、電源電子設備和傳感器組成。在人體中,緻動器系統相當于肌肉和神經傳感系統,用于驅動和控制肌肉。而我們無法制造出無需大比例傳動裝置的系統。無論是制造割草機還是機器人,你都會遇到這樣的問題:電機可以産生大量的功率,可以快速旋轉,但它無法産生足夠的扭矩或力量。爲了解決這個問題,你必須将其減速。在機器人中,通常采用100:1的減速比。換句話說,當我做這個動作時,我的關節實際上比我的手臂快100倍。這種方法非常有效,因爲你通過減速裝置獲得了100倍的力量或扭矩,解決了問題。然而,挑戰在于動能。任何系統的動能等于質量乘以速度的平方。如果我們以一輛汽車爲例,汽車的速度加倍時,動能并不是兩倍,而是四倍。如果速度增加四倍,動能将增加16倍。動能會随着速度的平方快速增長。
如果你将這個概念應用到旋轉運動上,你會發現,電機和傳動裝置内部的質量也不是可以忽略不計的。它們的速度是原來的100倍,因此動能也會變成10,000倍。當你想象一個非常重的物體以極高的速度旋轉時,它不可能立即停止。這種情況适用于機器人臂,當你用機器人臂執行任務時,它的内部運動非常快,你無法察覺。當機器人臂碰到某個物體時,它不可能立即停止。你可以通過一個簡單的數學計算來分析這個問題。這隻是動能的計算,你可以說這個系統有一定的動能。如果我們移除這個系統,并試圖放一些重量在這裏,要求它在相同的速度下具有相同的動能,通常你會發現機器人的手臂重量大概相當于30到60磅左右。因此,當你看到工廠裏的機器人臂在移動時,即使它隻是在移動一個5公斤或10磅的物體,你可以想象有一個60磅重的壺鈴綁在機器人手臂的手腕上。這也是爲什麽工業機器人是如此危險,并且必須放置在籠子裏的原因。
這種方法在工業領域非常有效。這個系統實際上有另一個非常美妙的特性,因爲當初設計這個系統的人非常聰明,這些設計大多是在60年代完成的。當你有如此高的慣性或質量時,系統很難被擾動。比如說,如果你在移動,我試圖阻止你,但你根本停不下來。這意味着系統中的各個部分,比如多個關節等,它們彼此不會相互幹擾。這樣你就可以一次控制一個關節,整個系統将非常穩定且易于控制。在當時,你沒有足夠的計算能力來同時控制所有關節,因此這種方法是工廠中工作的必要條件。你隻需要校準好系統,知道什麽時候機器人應該碰觸某個物體,然後在該碰觸時減速,再迅速移動。在傳統機器人學中,我們稱任何碰觸到未預定的物體爲"碰撞",通常碰撞會導緻一些損壞,這顯然是不好的。如果你想想我們日常生活的方式,其實我們一直在碰撞——你剛剛還碰到自己的鼻子了,對吧?你邁出一步時,那就是與地面的碰撞。你永遠不知道什麽時候會發生碰撞,一切都不是預先計劃好的,而你的傳感器也不足以完全預知這一切。因此,在像家裏或者倉庫這樣的非結構化環境中,你需要一個能夠像人類一樣與世界互動的系統。我們動作中的能量非常少,這也是自然界的做法——最小化移動所需的能量。這樣你就能得到非常優雅的互動動态,比如說,即便我快速轉身不小心撞到你,雖然有點尴尬,但你不會因此受傷。
這其實有點違反直覺,爲什麽機器人會如此危險?原因是我們沒有真正意識到進化在這個問題上有多深入的研究。進化的核心問題之一就是如何最小化能量使用,這不僅對完成任務非常重要,對安全性同樣關鍵。我們的身體之所以相對安全,就是因爲我們與世界的碰撞不那麽猛烈。這也意味着我們可以探索世界。如果你考慮這些系統如何在現實世界中學習,能夠嘗試各種事情而不損壞自己或環境是學習的關鍵組成部分。如今的人工智能系統大多是通過觀察來學習的,我們基于人類的所有觀察數據進行訓練。而人類的學習則更多依賴于實驗。我們做出一個動作,這個動作改變了世界的狀态,然後我們觀察,得出"哦,這個動作會導緻那樣的結果"的結論。我們的推理很大程度上就是來自于這種因果關系的觀察。
主持人: 這确實非常有趣。那麽,你們如何設計機器人,讓它們能夠進行實驗并建立反饋循環呢?
Bernt Bornich: 首先,正如我們之前提到的,關鍵在于構建一個能量很小的系統,這樣當機器人與世界互動時,能量交換非常少。這使得系統本質上變得柔軟且安全。這意味着你可以讓機器人花上八個小時反複嘗試開門,而不會損壞門或機器人。它可以不斷嘗試,直到成功。我們确實會在這個過程中幫助機器人,比如通過VR模拟來教它如何開門,但這并不是完全基于視覺的。
主持人: 那你們的機器人可以感知觸覺嗎?
Bernt Bornich: 可以,機器人能夠感知觸覺。這也是爲什麽我們要用機器人而不是讓人類戴着攝像頭到處走動做任務的原因。機器人不僅能夠感知發生了什麽,它還知道自己的狀态。它知道自己正在執行的動作,知道自己的狀态,知道施加在它身上的力。同樣,也知道反作用力,這些力施加在外部世界中。而這些信息在現有的數據集中是不存在的。我們發現,這些模式對理解世界的工作原理有着巨大的幫助。很明顯,這将有助于學習物理學,因爲你通過實驗來探索物理世界的運作方式。但更有趣的是,思考如何通過這些物理行爲來構建各種模型。比如,你走進浴室,問"馬桶蓋是打開還是關閉的?"這是一個經典的有趣例子。我們今天還拍了這個例子的視頻。
因爲這是一個邊緣案例。通常情況下,像GPT-4這樣的現代模型能夠非常好地回答這個問題。不過這個問題很有趣,比如說馬桶蓋是打開還是關閉,GPT-4這樣的模型在回答這個問題時經常50/50會失敗。這種情況非常有趣,可以讨論爲什麽這一特定問題如此難解決。但重要的是,這種邊緣案例非常多,如何讓你的模型在現實中紮根,知道你得出的結論是否真的正确呢?比如說,如果你把馬桶蓋合上了,你知道它現在是合上的,因爲你剛剛合上了。這就是一個反饋循環,這也是我認爲非常有趣的一個點,尤其是在解決目前這些模型所面臨的挑戰時。當我們将這些多模态信息整合到系統中時,系統将對世界有更好的理解,進而能夠更好地推理任何任務。
Eve和Neo兩個人形機器人區别
主持人: 那麽,Eve和Neo之間的主要區别是什麽?顯然,最大的區别就是Neo有雙腿,而Eve則有一個很酷的滾動底盤。除此之外還有什麽其他區别?爲什麽需要一個全新的機器人呢?
Bernt Bornich: 我認爲Eve和Neo之間最大的區别,或者說不太容易看到的一個特點,是整個系統的被動安全性設計。我的意思是,我們希望将機器人對外界的沖擊能量控制在一個不會導緻嚴重傷害的阈值以下,即使一切都出錯了。比如說,機器人在跑動時不小心踢到了你,或者機器人摔倒了并砸在你身上。我們會盡一切努力防止這種情況發生,我們也在機器人基礎模型的安全性方面投入了大量工作。但如果我們想要在地球上部署數十億台機器人,它們在硬件層面上必須盡可能安全,因爲事情總是會出錯。我們不需要把機器人做成那種笨重的工業危險機器,也不必走到像自動駕駛汽車那樣的死胡同。我們可以盡可能讓它們安全。爲了做到這一點,首先你需要讓機器人非常輕便。Neo的重量隻有66磅,但它可以舉起150磅的物體。這相當于一個運動員的表現。而且機器人沒有任何夾手點,你的手指無論放在哪都不會被夾傷。此外,機器人在移動時的能量非常低,正如我們之前讨論過的,所以即使它在跑動時不小心撞到你,也不會造成太大傷害。
整個機器人實際上是軟的。如果你試圖壓縮它,它會像你一樣被壓縮。有趣的是,我們可以利用一些内部技術來支撐被壓縮的結構。這種組合使我們能夠制造出一個比任何其他系統都更加安全的機器人。我認爲,安全性是這個市場的最大進入門檻之一。如果你想把機器人放在人群中使用,這就必須非常安全;如果你隻是想把它放在工廠裏的籠子中,那就不是什麽大問題,但你不會從中學到太多東西。現在我們有很多數據表明,當你執行某個任務50次左右後,性能就不會有太大的提升了。這是基于大規模的數據,因爲我們的機器人基礎模型現在已經非常龐大了。當然,一開始你對任何任務都沒有直覺,因此你确實會看到性能提升。但一旦達到一定規模的數據後,你可以通過大約50個樣本學會一個新任務,并且表現相當不錯。如果你平衡好數據集,5,000次訓練會讓你表現得更好,但50次樣本學習的表現已經接近極限了。你希望能夠收集到每個世界上的每一個地方、每種文化背景、不同聲音和各種混亂環境中的數據。這種多樣性才是我們真正獲得智能的關鍵。這對人類也是如此。人們需要經曆很多多樣化的體驗才能真正擅長某件事。無論是推進科學,還是成爲世界上最優秀的物理學家,了解其他學科的知識對你都有很大的幫助。即使你隻是想成爲世界上最優秀的網球運動員,參與其他運動對你也會有很大的幫助。這對機器人并沒有什麽不同,對于語言模型也是如此。最好的模型是那些在訓練數據集中擁有最多樣化數據的模型。現在,大家已經廣泛知道這一點。如果你去讀Meta最新的關于Llama 3.1的論文,它接近當前的最先進水平。它們指出,Llama 1、2和3之間在架構上幾乎沒有區别,隻不過它們的訓練時間稍長了一些。
計算成本正在下降,但最大的區别在于他們擁有更爲多樣化的數據集。最關鍵的就是創建最爲多樣化的數據集,因爲性能和智能都來源于此。奇怪的是,很多人認爲這對具身智能體和機器人并不适用。他們以爲隻要從一個非常狹窄的領域開始,比如一個工業用例,或者每天隻執行一個動作,那就可以學會了。但事實并非如此,你不會學到太多東西。你必須置身于現實世界中,面對各種可能發生的情況,通過這種多樣性來創建一個真正智能的系統。這樣一來,你就可以應對其他所有問題空間了,可能隻需要50個樣本就能解決問題。這正是人類所做的,對吧?我向你展示如何做一件任務,如果這任務相對簡單,我教你一次後,你就能掌握,因爲你已經有了豐富的知識積累。我認爲,通向真正智能的安卓系統,并讓它們在地球上執行各種體力勞動的第一步,是通過家庭數據的多樣性,然後你才能擴展到制造業、服務業等各種場景。
主持人: 你是否記得那個關于"如果對人類來說容易的事情對機器人來說很難,而對機器人來說容易的事情對人類來說很難"的原理叫什麽?是"莫拉維克的悖論"嗎?
Bernt Bornich: 是的,莫拉維克的悖論。
主持人: 你對這個原理的理解如何?你在這八九年間構建機器人的過程中,它是否适用?有時它是否成立?在哪些情況下不成立?
Bernt Bornich: 關于Moravec悖論,确實有一些道理。我們已經經曆過一些事情,比如創造力比我們想象的要簡單,語言等方面也是如此。但當涉及到更高層次的推理時,我并不認爲我們在這方面已經解決了問題。因此,我并不完全同意這是一個有力的證明。不過,很多事情确實比我們想象的要容易。同樣地,有些任務我們認爲非常難,但實際上并不那麽難,反之亦然。所以我認爲這是一個過于簡單化的說法。我們有時發現,某些事情的解決比我們預期的要快,也許更多的問題并不是"莫拉維克的悖論"導緻的,而是因爲我們過去從未擁有過大規模的機器人數據。然而,這其中确實有一些道理。我覺得有趣的是,這些東西其實是緊密相連的。你若想在推理方面表現出色,操縱能力也是非常重要的。雖然二者看似無關,但如果你擅長操縱事物,你就能夠進行大量的實驗,而實驗和觀察則是推理能力的基礎。
主持人: 所以這是一個簡化的說法,但其中确實有些道理,對嗎?
Bernt Bornich: 是的,确實如此。但我還有一個有趣的哲學實驗,你聽說過"超級科學家瑪麗"嗎?
主持人: 沒有,能講講嗎?
Bernt Bornich: 可能我會說得不太準确,但我盡量簡單說明一下。瑪麗生活在一個隻有黑白屏幕的盒子裏,她是超級科學家,知道關于光和顔色的一切知識。她知道光如何撞擊物體,如何進入大腦,如何激發每個神經元,她了解關于光的所有知識。但有一天,盒子的門打開了,瑪麗走了出來。那麽問題是:她學到了什麽新東西嗎?這個實驗與我們讨論的機器人有相似之處。這個盒子隻能觀察,卻不能與外界互動。我們的直覺會告訴我們,瑪麗肯定學到了什麽,因爲她以前從未真正體驗過世界。這個問題非常難,關于這個實驗已經寫了好幾本書。她是否學到了什麽新東西?我們不能确定。
主持人: 但我認爲,即使你知道關于顔色的所有知識,當你進入三維空間、物體在時間中移動時,情況就會完全不同了。你可以将這個隐喻帶入機器人領域,讨論它如何理解世界。
Bernt Bornich: 我的觀點是,瑪麗擁有所有的信息,根據第一原理,她理論上應該沒有學到任何新東西。如果她确實學到了新東西,那我們就得承認,世界的理解是某種更高層次的存在,而不僅僅是信息的堆積。
主持人: 我明白你想表達的意思。
Bernt Bornich: 是的,你可以将這個問題引向更深的"上帝視角"讨論,但我的觀點是,這種方式解決問題非常困難。我甯願走出那個盒子去親自體驗世界。我覺得這裏重要的一點是,僅通過非常有限的模态被動觀察世界來讓AI學習是極其低效的。比如,要通過文本理解顔色,所需的信息量相比通過圖片甚至視頻來理解顔色是巨大的。雖然大型語言模型僅通過純文本訓練,對顔色的理解已經相當不錯,這确實是一個很好的例子,但這是一種非常低效的學習方式。作爲一名工程師,我會問,爲什麽要用這種方式?答案通常是,因爲我們沒有足夠的數據,所以不得不這樣做。但實際上,我們是可以獲得這些數據的。通過這種方式,我們可以在朝着更有用的智能方向邁出一些重要的步伐。
當前大模型的推理能力
主持人: 你剛才提到,你認爲我們還沒有解決高層次的推理問題,也沒有完全弄清楚它。你能詳細談談你的看法嗎?
Bernt Bornich: 我認爲當前的所有AI系統在大多數推理任務上都完全失敗了。推理任務。如果你真的需要推理某個問題并得出解決方案,這與僅僅總結我們在訓練過程中提供的觀察結果是非常不同的。你會發現,有一些"生命的迹象"表明推理能力似乎存在一些苗頭。其實在圖像模型中更容易展示這一點,比如DALL·E生成"牛油果椅子"這種概念,雖然數據集中根本沒有牛油果椅子,但你可以推斷出牛油果和椅子的組合。這是一種相對有限的推理,但仍然是一種推理。
推理能力通常是通過對世界的深刻理解而湧現出來的。通過實驗和觀察可以做到這一點,不一定要在物理世界中完成,盡管物理世界要豐富得多。舉個例子,DeepMind的AlphaZero論文非常有趣,因爲它結合了探索世界、觀察行爲結果和在該空間内進行搜索的能力。在現實世界中做到這一點非常讓人興奮。我們還不知道這具體會帶來什麽結果,但早期的成果非常有前景,我相信這能夠創造出很大的價值。
主持人: 那麽1X是如何看待智能和AI的呢?你們的模型如何處理不同的傳感器數據、圖像數據和反饋數據?你們的做法是什麽?
Bernt Bornich: 簡短的回答是,我們正在做所有這些工作。這些模态都是有用的。我們會用所有可用的文本進行訓練,也會用所有可用的圖像和視頻進行訓練,這讓我們能夠獲得非常基礎的理解,大緻達到了現代大型語言模型的水平。此外,我們還會用所有的機器人數據進行訓練,包括模拟數據。這一切都能幫助我們實現最終目标,即讓智能更好地推理現實世界,具備良好的空間理解能力。這是目前的大問題之一,對吧?例如,你問現代的視覺語言模型(VLM):"如果我向前走一米,我會碰到什麽嗎?" 它們的回答通常是錯誤的,因爲它們對空間的理解非常糟糕。它們從未經曆過這樣的動作。VM是視覺語言模型,基本上是一個不僅能理解語言,還能思考圖像的模型。如今,許多VM也能處理視頻,有時甚至可以處理音頻。你可以看到一個非常明顯的趨勢:随着添加的模态越來越多,系統會變得更智能。這一切都關乎于創建一個數據引擎,讓學習沒有限制。我真的相信,未來的科學将會是由數十億台機器人在全球各地的實驗室中運行實驗,通過這種方式推動我們對宇宙的理解。科學發現很難離開實驗的支持,而實驗正是我們理解世界的關鍵。
主持人: 很多人談到激勵他們不斷深入研究的動力,都是爲了更好地理解宇宙。你經常會聽到人們讨論太空探索,他們希望通過探索太空來更好地理解宇宙。我并不反對這種看法,我認爲我們确實應該進入太空。你提到通過數據和計算來解決問題,這與我們現在的大多數大型模型的訓練方式類似。能不能具體談談你們如何融合這些不同的數據?比如,你們提到訓練合成數據、傳感器數據等,這些是如何融合在一起的呢?
Bernt Bornich: 簡單的回答是,可以參考《苦澀的教訓》這篇文章,強烈推薦大家去讀一下。簡而言之,任何你試圖通過聰明的設計植入系統的額外智能,最終都會敗給更多的計算能力。所有的突破都來自于數據和搜索的擴展。我們正在研究如何設計更好的架構,以便能夠消化這些多模态數據,但我并不認爲這才是決定性勝利的地方。當我們談到大規模模型的學習時,好的架構和非常好的架構之間的差别并不大,真正的區别在于數據。數據的多樣性和豐富性才是決定性因素。數據中的模态越多,包括你對世界的改變有多大,這些信息越豐富,你的系統推理能力就越強。在未來,可能不是現在,但未來會有大量機器人在沒有任務時進行自我訓練。它們會不斷練習它們不擅長的任務,通過不同角度的數據學習來深入理解問題。所以要更具體地回答你的問題,我們和大多數訓練大模型的公司一樣,使用大型Transformer架構,将所有的數據以token的形式輸入模型。文本的token化現在已經非常成熟,圖像、視頻的token化也越來越普遍,音頻也開始逐漸進入這個領域。
人形機器人商業化
主持人: 你之前提到人形機器人是機器人生态系統的終極形态。你能不能詳細描述一下這個生态系統的理想狀态是什麽樣的?這是否意味着它會對開發者開放?或者機器人是否會像應用程序一樣?
Bernt Bornich: 在理想的世界裏,作爲消費者,你能夠非常輕松地教會機器人如何執行任務。這将打開一個全新的生态系統,大家可以分享各種技能和經驗。我家裏有一台Eve機器人,因爲我們需要進行測試,同時這也很有趣。
主持人: 你真的把Eve帶回家了嗎?
Bernt Bornich: 是的,我有一台Eve機器人在家,馬上也會收到Neo版本,真是令人期待。
主持人: 太酷了!你覺得機器人在家裏的哪些功能最有用?
Bernt Bornich: 有很多出乎意料的用途。比如,當我不在家時,隻要帶上頭顯,我就可以"回到家"。簡單的事情,比如在我去度假小屋時,可以遠程喂貓,或者接收門口的包裹。
主持人: 貓對Eve的反應如何?有沒有被吓到?
Bernt Bornich: 一開始沒有什麽特别的反應,因爲貓已經習慣了。但貓确實沒有表現出特别大的情感,比如蹭機器人或發出咕噜聲。但孩子們非常喜歡機器人,尤其是Eve這個版本,因爲它比較大,我們還要避免孩子們過于靠近機器人,他們太喜歡它了。
主持人: 顯然,機器人進入家庭的一個關鍵問題就是價格的可承受性。覺得傳統觀念是,高級類人機器人絕不可能比一輛法拉利便宜。然而,你們的機器人價格并不高,而且未來還會越來越便宜。我很好奇,你們是如何做到這一點的?能不能帶我回顧一下這個降低成本的過程?
Bernt Bornich: 這是一個非常複雜的過程。首先,任何你想要設計的産品,都不能在後期再去考慮成本問題。成本控制必須從第一天就開始。設計之初,你就得考慮如何讓它盡可能易于制造,這也會引導你在技術上的選擇。有很多簡單的"第一性原理"思考,這在現實世界中并不容易,因爲你會遇到各種問題,但你必須堅持下去,保持耐心。從第一天起,你就要考慮需要多少材料。如果我能制造一個非常輕巧、有效的機器人,它的重量隻有競争對手的一半,那麽我花在材料上的錢也會少一半。如果我能讓我的電機和驅動系統變得非常輕,我可以節省很多成本,因爲銅和钕磁鐵是機器人裏最昂貴的材料之一。因爲這些都是地球上稀有的金屬,價格非常高。所以你要盡量減少使用這些材料的數量。另一個需要考慮的是如何設計一個對制造公差要求不高的系統。你需要确保系統即使不那麽精确,也能通過校準來正常運行。我們采用的肌腱驅動系統具有非常優雅的特性,它并不需要特别精确。而像諧波傳動齒輪這樣的系統則需要極其精密的加工,使用特殊的合金來打包大量的齒輪,這會變得非常昂貴。如果你想讓機器人價格可負擔,就必須回過頭來重新思考,能否用其他方式來解決這個問題。
我認爲,最關鍵的是你必須掌控自己的命運,完全垂直整合生産鏈,掌控供應鏈和制造過程。你還需要自己制造機器設備,這樣不僅可以節省成本,更重要的是,你可以把工程設計和制造流程緊密結合起來。當某個設計難以實現時,制造人員可以直接告訴設計師:"你這樣設計行不通。"或者供應鏈負責人可以說:"你知道這個材料有多貴嗎?我們應該找到其他解決方案。"這種跨領域的協作正是你外包制造時會失去的優勢。
主持人: 你們已經在挪威建造了一家制造工廠,我看過一些相關的影像,工廠雖然不大,但能夠從原材料輸入到機器人産出,令人印象深刻。接下來你們計劃大規模生産,可以分享一下你們的産量目标和大緻時間表嗎?
Bernt Bornich: 當然可以。我們内部有一個已經堅持了一段時間的口号,那就是每年将産量擴大10倍。所以我們最初制造了10台Eve,然後接近100台,現在我們要生産數千台Neo。2025年,我們将生産數千台Neo,2026年生産數萬台,2027年生産數十萬台,2028年生産數百萬台。你可以自己計算,這個目标很難實現。到目前爲止,我們仍然在計劃軌道上,但過程非常痛苦。這并不容易,但我們也不是第一次面對這種挑戰。以Eve爲例,我們的産量峰值是每月10到20台,而現在我們計劃将這個數字擴大10倍。這對整個組織來說是巨大的挑戰。你需要建立一個适應大規模制造的體系,包括供應鏈、材料管理、流程以及追溯系統等。這一切都是一步一步來的。我覺得很多人常犯的一個錯誤是以爲可以直接從生産一台機器人到生産一百萬台。顯然這是不可能的,對吧?你必須一步一步來,雖然你可以加快速度,但步驟是不能跳過的。我們采取了一種相對謙遜的方式。我認爲需求會遠遠超過供給,但你仍然需要按部就班地進行。
現在我們已經在新的生産線上生産大量的Neo機器人了,我對明年的目标非常有信心。2026年,當你從數萬台擴大到數十萬、數百萬台時,會發生某種"神奇"的變化。很多公司在這一階段會失敗,這個過程非常痛苦。你需要确保團隊中有最好的人才,有過相關經驗的人,并且整個組織對産品有深入的理解。如果出現任何問題,你能夠迅速進行重新設計并修複問題。這也是爲什麽我們要垂直整合、掌控自己的供應鏈,這樣如果出現問題,我們就有能力解決,而不是去責怪别人。雖然這會帶來大量工作,但這是必須的。
主持人: 我對你們每年實現10倍增長的計劃非常期待!通常小公司在成長爲大公司後,會在溝通效率和人員質量上遇到挑戰。你們是如何規劃在擴大規模時保持良好溝通的?你有沒有一些應對團隊溝通的思路或方法?
Bernt Bornich: 首先,我完全同意,随着規模的擴大,效率肯定會下降。首先要意識到這一點,并坦然接受。核心研發是不具備可擴展性的,所以我們要保持團隊盡可能小。我常常用足球來做比喻,你場上最多能有11名球員,再多就會陷入混亂。因此,确保這11個人是世界上最優秀的,然後構建一個體系,讓他們專心踢球。從組織層面來說,像HR這樣的部門存在的目的不是爲了管你打卡或完成一些瑣事,而是爲了幫助你專注于自己的工作,最大化你的影響力。至于溝通,确實很難做得很好,所以我們要賦予團隊更多自主權,招募一些非常聰明且使命驅動的人。大家都在同一條船上,沒有自負和政治鬥争。我們正在構建類人機器人,将它們送到家庭中,解決實際問題,對人類産生巨大影響,這是我們最關心的事情,其他都不重要。
我們的幸運之處在于,我們的目标非常明确。很多公司還在探索做什麽,而我們非常使命導向。這種使命感應該反映在公司的結構中,保持盡量扁平的層級,雖然這會帶來一些混亂,但我們要接受這種混亂。我将流程視爲"必要的惡",如果沒有流程,事情無法完成,但你也不想讓流程過多,阻礙效率。與其讓公司90%的工作有用但大家都束手束腳,不如讓50%的工作有用,并讓每個人都能全力以赴。你需要非常嚴格地控制,不能因爲恐懼而做出決策。如果你想完全掌控一切,隻會拖慢進度。随着公司的成長,人員的角色會發生變化,溝通能力會變得更加重要。但我仍然認爲,保持團隊盡可能小,不要被傳統的商業建議所左右,比如流程、層級、彙報等。這些東西在某種程度上是需要的,但它們不應該成爲目的本身,隻有在絕對必要的情況下才存在,比如爲了完成任務或滿足某些法規要求。大多數時候,這些東西隻會成爲阻礙。尤其是在制造領域,情況更加複雜。你剛才提到的是你們如何運行研發部門,而制造部門更像是軍隊一樣的紀律嚴明,每個人都必須知道自己該做什麽。而将這兩者結合到同一個組織中,我認爲這是最大的挑戰,也是很多公司失敗的原因之一。如果你回想一下,這樣做得不錯的公司很少,至少在西方,我隻能想到一個成功的例子,那就是特斯拉。他們不僅成功擴大了制造規模,而且在組織内部保持了一種精益和敏捷的心态。不過,他們确實将研發和制造部門分開處理,研發是小規模的精英團隊,而制造則在全國各地大規模展開。
他們在早期确實也有很多研發和制造的合作。比如他們設計的新車,工程師通常會與制造工廠的建設同時進行,第一條生産線也是這樣構建的。之後再擴大規模時,情況就不同了,他們會将這一模式複制到全球。
公司團隊規模
主持人: 的确如此,不過你們現在的規模還沒有特斯拉那麽大,你們的團隊規模是多少?
Bernt Bornich: 我們現在有150人,已經開始遇到這些問題了。你剛才提到招聘,這是非常重要的一點。直到幾周前,我還親自面試了每一個被錄用的人,但到某個時刻,我意識到這減緩了整個招聘流程。我必須承認,招聘對我們非常重要,因爲我們需要學習如何招聘,學習應該招聘什麽樣的人,并通過這個過程來設定公司的文化。
主持人: 接下來這個問題有點特别,但我很喜歡問創始人這個問題,因爲我覺得很有趣。你能描述一下你覺得自己大腦的工作方式嗎?
Bernt Bornich: 如果我知道答案,我可能已經解決了機器人問題了(笑)。我覺得我是一個非常視覺化的思考者,我擅長開始一個項目,但不擅長完成它,甚至到了極端的程度。你可以問我妻子,我幾乎什麽都能開始,但從來不會把事情做完。不過,作爲創始人,我意識到了這個問題,所以我雇傭了能夠完成工作的團隊,并圍繞他們構建組織。
主持人: 看起來你的公司現在似乎能夠很好地完成任務了,對吧?
Bernt Bornich: 是的,因爲我知道自己的弱點,所以我雇傭了能夠彌補這些弱點的人。我盡量強迫自己保持專注,比如我們即将發布Neo,而我卻已經在考慮Neo 2了,但我必須告訴自己:"不,現在不能考慮這個,我們要先完成Neo的發布。"
主持人: 你如何在改變自己以适應公司的需求和雇傭适合自己的人之間找到平衡呢?
Bernt Bornich: 我傾向于選擇後者。我認爲作爲創始人,随着公司的成長,你确實需要自我提升,但我不能改變自己。所以,我會雇傭适合我的人。我學到的最多的事情是如何管理人,如何在保持公平和嚴格的同時,也能表現出同理心和友善。這對我這樣的工程師來說并不容易,但如果你想打造一家公司,讓大家高效并取得成功,你必須學會如何管理人。
主持人: 你們的公司文化中有一個非常有趣的價值觀——"友善",這讓我感到好奇。你們什麽時候決定将"友善"作爲公司價值觀之一的?爲什麽做出這個決定?
Bernt Bornich: 我們認爲,在一個以高強度和創新爲核心的公司中,保持友善非常重要。雖然在高壓環境中,有時你會覺得隻要完成工作,友善不是必須的,但我們相信兩者可以兼得。我們有明确的使命感,我們正在構建人形機器人,并将它們帶入家庭,這對人類的未來有巨大的影響。因此,我們需要創造一個合作、友善的環境,确保每個人都爲同一個目标努力。我覺得文化是因爲我的信念以及我們集體的信念而形成的。我們期望員工非常努力工作,對吧?你不可能不付出努力就赢得奧運會的金牌。我們也期望員工非常聰明。如果你能來我們這裏工作,那是因爲你是最優秀的人之一。如果你打算在這裏全力以赴地工作,作爲世界上最頂尖的人之一,那麽你最好也要友善。如果你不友善,這一切就行不通。畢竟,你要在一個地方花費那麽多時間,必須得有一些樂趣,這樣才更高效。
這就是爲什麽我認爲我們的文化現在是正确的。至于我們是如何具體提出這些價值觀的,這其實要簡單得多、也有趣得多。我們公司有一些最真實的核心價值觀,因爲這些價值觀并不是來自某個會議室裏聘請的咨詢顧問,而是某個深夜派對上我們的一位早期員工提出來的。他說:"這就是我們的樣子。"于是我們有了三個核心價值觀:我們聰明,我們非常努力工作,并且我們友善。這些聽起來很真實,大家都同意:"對,這就是我們。"你能想象如果我們說"我們不友善"會怎麽樣嗎?這些并不是從某個企業顧問的腦子裏想出來的東西,感覺不像是那種被硬性規定的公司價值觀,而是自然而然形成的,對吧?這才是核心價值觀應有的樣子。我們決定保持這種文化,因爲我認爲這是一種最有效率的文化。
創業公司管理模式
主持人: 我爲此感到敬佩。我覺得在那些做"硬核"工作的人當中,很多人并不認爲可以兼顧效率和友善,他們可能認爲在做艱難的事情時,"做該做的事"比"保持友善"更重要。但我認爲,如果能兩者兼顧,何樂而不爲?我很好奇,你有什麽特别的信念或觀點是你認爲其他人很少持有的?
Bernt Bornich: 我覺得是關于我們身體爲什麽會像現在這樣運作的背後原因。這是一個非常深的"兔子洞",每一個細微的細節都有其背後的原因。我對人體運作的理解比大多數人要好一些,從物理的第一性原理出發,我能理解我們是如何與世界互動的,以及這如何影響我們學習的方式。
主持人: 你提到的這個生物力學觀點很有趣。我認識很多機器人專家,他們會嘲笑如今還在使用肌腱驅動系統的人,認爲這種方式已經過時了,尤其是在80、90年代很流行,但現在已經沒人用了。他們可能會說:"工業機器人不使用這種方式,所以這已經沒有用了。"但你似乎不關心這些流行趨勢,而是基于第一性原理找到最好的系統來構建。我很好奇,你是如何在機器人學的背景下理解人體運作的?
Bernt Bornich: 我認爲很多創始人和公司失敗的原因之一是,他們在長期的實踐中逐漸相信自己是錯的。如果你花了一輩子思考一個問題,并且有直覺覺得某種方法是對的,然後你開始去做,每個人都會告訴你:"你瘋了吧,這行不通的。有人已經試過了,爲什麽你還要做?"然後,随着幾年過去,每天都有聲音告訴你:"你顯然是錯的。"很多人會因此放棄,但不要放棄。所有重大的創新都源自堅強的信念和毅力。我們花了六年的時間,從"我們覺得這能行"到"這真的能可靠地工作"。以肌腱驅動系統爲例,有很多人會說它有很多無法解決的問題,比如耐久性、可靠性、堅固性和可制造性。但這些問題都是可以解決的,隻不過無法在三個月的時間框架内解決。我可以列出很多公司,即使在機器人領域,它們一開始的直覺是正确的,但它們改變了方向,做了一些平庸的東西,聽從了别人的意見,最終也沒有比其他公司做得更好,最後消亡。如果它們堅持自己的直覺,專注于那個問題,或許結果會不一樣。如果你爲一個問題投入了你的全部,那麽你的直覺很可能是對的。我甯願錯得徹底,完全失敗,也不願做那些"平淡無奇"的事情。
主持人: 如果你對某件事有堅定的信念,并基于此創辦了公司,那就堅持到底,直到生命的盡頭。我很喜歡這個觀點。令人有趣的是,盡管有那麽多創新者和科學家證明了這一點,比如愛迪生、馬斯克等等,但我們還是很難記住并真正内化這一點。我覺得這很有趣。
Bernt Bornich: 是的,因爲這真的很痛苦。每天都有很多人告訴你,"這不行"。
主持人: 我現在正經曆這種情況,我在創辦公司時,一位員工曾告訴我:"這不現實,我們應該縮減規模。"當時我覺得他說得有道理,但一周後我又意識到:"不,他完全錯了!"雖然這聽起來很瘋狂,但我相信我們可以做到。所以我能理解這種感受。在談到1X時,你希望别人更多地問你什麽問題?
Bernt Bornich: 我希望人們更多地問我:"你覺得2040年會是什麽樣子?"大家總是關心接下來兩年、三年、五年會發生什麽,我們可以讨論AI是否會遇到瓶頸,制造業的擴展會如何進行,但如果我們跳過這些,問2040年會是什麽樣子呢?我們常常低估技術的長期影響。
主持人: 說得對,我們總是低估技術在長期中的發展。
Bernt Bornich: 首先,我非常高興自己能活在這個時代,感到非常幸運。我們正處在人類曆史上一個非常特殊的時間窗口,我們有機會參與創造人工生命。這簡直是不可思議的。
主持人: 是的,确實如此。不僅如此,我們還正好處在一個探索太空的時代,同時我們也在構建超強的計算機,不僅僅是AI。能活在這個時代真是太好了!
Bernt Bornich: 到了2040年,我認爲人類社會将完全不同。我們将解決能源問題,能夠獲取幾乎無限的能源。我們将能夠可持續地生産出無限的産品和服務,人人都能擁有自己想要的物質财富。這将比農業革命帶來的影響還要巨大。我相信,這将創造一個美麗的世界。雖然很多科幻作品都描繪了反烏托邦的未來,但我不認爲未來會是那樣。我們将構建一個更美好的未來,在這個世界裏,我們可以真正關心什麽讓我們成爲人類,這将是非常有趣的。
科幻作品與未來
主持人: 反烏托邦的科幻小說讓我很煩惱,很多故事都是那樣的設定。你最喜歡的科幻作品是什麽?
Bernt Bornich: 我最喜歡的還是《仿生人會夢見電子羊嗎?》,也就是《銀翼殺手》的原著,菲利普·K·迪克的作品。
主持人: 爲什麽這本書對你來說特别重要?
Bernt Bornich:它在我心中有特殊的位置,我從小就接觸這本書。我大概看了《銀翼殺手》500次,深深地影響了我所做的一切。想到這本書是在60年代寫的,真是不可思議,它充滿了遠見。這個故事将人性與我們如何将仿生人融入社會的議題聯系起來。這是個令人驚歎的故事,我很激動能夠參與到探索這些問題的工作中,并且希望能比《銀翼殺手》中的世界做得更好。
主持人: 但我認爲我們可以做得更好,應該讓更多的人關心建設未來,并爲此感到興奮,對吧?
Bernt Bornich: 當然,嗯,我感覺這個問題有點簡單,雖然我們可以深入探讨,但是的,毫無疑問,我們應該讓更多的人關心。我認爲我們應該讓人們關心一切。所有美好事物的根源就是人們的關心。如果人們在乎,事情通常會進展得很好。我覺得你引發了我的思考,我認爲今天社會上最大的一個問題就是,人們缺乏目标。沒有目标,你怎麽可能快樂呢?如果一切都隻是關于"我怎麽能做得更少卻得到更多",你不會擁有快樂的生活。你需要有一個目标。
主持人: 那你認爲我們爲什麽失去了目标感?
Bernt Bornich: 這是個很好的問題。我不認爲我們完全失去了目标感,但它确實變得模糊了。我覺得當事情非常艱難時,目标感就變得非常清晰。如果你處于生存的危機中,你就有很強的目标感,比如我要保護我的家人和朋友,這就給了你目标感。當然,我們并不想回到那個時代,我們希望過上盡可能舒适的生活。但在某個時候,我們可能走得太遠,過度強調個人主義,過度崇拜"自我"和"個體"。我認爲是這樣。很多目标感其實來自于社區和集體。如果你隻想着自己,就很難找到真正的幸福和目标感。你可以找到短暫的快樂,但無法找到持久的幸福和目标感。目标感是通過改善某些事物而獲得的,無論是爲你的妻子、孩子、朋友,還是爲社會、國家、甚至世界做出貢獻。這些層次沒有對錯之分,但我認爲,确保你的人生産生積極的影響,會讓你感到更加幸福。我們應該更加努力,确保我們的行動是有意義的。
主持人: 最後一個問題,我也很喜歡問創始人們這個問題。你的當前人生哲學是什麽?
Bernt Bornich: 我還沒有真正定義過這個問題,這是個非常深奧的問題。可能有點老套,但我會說"做你覺得對的事"。這并不是說追求當下的獎勵,而是我對社會規則并不在意。我喜歡研究類人機器人,我有妻子和兩個孩子,我的朋友也住在我們家裏,還有另一個朋友偶爾也會住在我們這裏。我們正在建一座新房子,會和很多朋友一起住,盡管是我和家人一起生活,但這真的會更有趣。所以,不要讓任何人告訴你該做什麽,隻要你不傷害别人,就去做你覺得能帶來最佳生活質量的事情。生活會變得更加有趣。