王堅對話波士頓動力創始人雷伯特：機器人進家庭是最後一步，至少還需10年

12 月 6 日 -7 日，2024 T-EDGE 創新大會暨钛媒體财經年會在北京市大興區舉辦，以 "ALL-in on Globalization ，ALL-in on AI" 爲主題，彙聚全球科技和商業領導者，共同探讨人工智能對全球各行業的巨大影響，以及企業全球化增長新格局新趨勢。作爲钛媒體集團每年年終舉辦的科技和财經領域的頂級盛會，T-EDGE 一直代表了钛媒體在科技與經濟前瞻性，以及推動國際創新交流上的高質量追求。

12 月 7 日 T-EDGE 全球 AI 論壇：All-in On AI 會議上，人工智能研究所執行董事、波士頓動力機器人創始人馬克 · 雷伯特（Marc Raibert），中國工程院院士、之江實驗室主任、阿裏雲創始人王堅，圍繞機器人領域的發展與 AI 賦能機器人應用等話題展開深度對話。

這是在國内中美AI與機器人領域頂尖創新者的首次探讨交流，在當前變局環境下極爲難得。

今年 75 歲的雷伯特，是 Boston Dynamics（波士頓動力機器人）創始人。在此之前，他曾任麻省理工學院計算機科學和電子工程系教授，以及卡内基 · 梅隆大學計算機科學和機器人學副教授。在卡内基 · 梅隆大學，雷伯特創立了一間研究動力機器人科學根據的實驗室，并研發出第一款能自己平衡的跳躍機器人。

雷伯特在圓桌對話中表示，AI 與機器人已經是一個交叉性學科體系，AI 技術對于機器人領域的發展起到重要推動作用。如今，人形機器人概念風靡全球，全球有超過 50 家人形機器人企業，中國不僅占比很高，而且還有大量的機器人領域優秀人才。但是，如果考慮機器人的商業化，未來 2-5 年，人形機器人會依然在做貨物的搬運，進入家庭實現商業化還是非常困難。

在美國有一種說法：" 如果它看起來像鴨子，走路像鴨子，叫聲像鴨子，那它就是鴨子。" 可在機器人領域不适用。我們可以讓人形機器人走路像人類，跳舞像人類，看起來像人類，但它的執行機構、控制方式、感知系統、甚至道德和野心都與人類不一樣。人形外形不等于人形内在，人們需要更清晰地思考自己的目标。所以，我們必須考慮機器人未來能發展成什麽，機器人的發展就像是登珠峰一樣（難）。" 雷伯特預測，未來十年，全球可以會産生一個實用但非全功能的機器人，幫助人類做更多任務。

而有着心理學研究背景的王堅則對機器人有着不同角度的思考，他表示：" 我見過一些用戶，他們買一個類人的機器人放在客廳，就是爲了和它對話，而不需要它真的像人類一樣幹活，這讓我真正受到了觸動。當我們希望一個機器人看着像人的時候，我們的潛意識實際上是希望和它交流的。這樣 AI 就成了關鍵，這已經超出傳統機器人技術的範疇，更像是産品設計問題：如何設計一個人們喜歡與之互動的機器人産品。因此，我對當下的技術倍感興奮，因爲機器人和 AI 的技術已經足夠好，可以做出真正好的産品，但挑戰是如何設計這樣的産品。"

王堅也認爲，未來 5-10 年，我們家庭中會出現類似機器人的産品，就像電視、洗衣機一樣，會有新的陪伴式 AI 機器人硬件産品進入家庭。

以下是波士頓動力創始人 Marc Raibert、王堅院士在钛媒體 2024T-EDGE 上的特别對話編譯和整理：

特别對話嘉賓：

馬克 · 雷伯特（Marc Raibert）：人工智能研究所執行董事、波士頓動力機器人創始人；王堅：中國工程院院士、之江實驗室主任、阿裏雲創始人；主持人 Craig Smith：美國知名媒體人、钛媒體駐美國特約作者、Eye-on.AI 創始人

Craig Smith：能夠見到在 AI 領域享譽全球的王堅真是太令人激動了，今天還能見到我一直以來就想見的 Marc，也很高興見到你。

我們今天要讨論的話題是我長期以來都很關注并常感困擾的一個問題，即公衆對機器人與 AI（人工智能）的混淆。它們是截然不同的學科領域，盡管兩者确實存在重疊，并且這種重疊還在不斷增加。但每當我看到一篇關于 AI 的報道卻配上機器人的圖片時，我都會有些不舒服。這正是我想先談談的一個點：區分機器人與 AI。Marc，你在波士頓動力（Boston Dynamics）一直在做機器人相關的工作，也許你可以解釋一下現有機器人中到底有多少是 AI 驅動的，又有多少是傳統控制理論（人工設計的控制方法）的産物？

然後還有一個延伸問題是：傳統控制理論式的工程設計，現在能在多大程度上被大型語言模型（LLM）所完成？換句話說，那些實際編程的工作能否由這些新型的生成模型來承擔？

Marc Raibert：我非常同意您所說的，機器人并不等同于 AI。最近我一直想用更寬泛的思路去定義什麽是機器人、什麽是 AI，但很多人會混爲一談。不過回到你的問題：你在波士頓動力看到的許多機器人行爲，很大程度上是所謂的傳統控制方法的結果。這些傳統控制方法是來自研究機器工作原理、機構運轉、視覺系統工作方式的專家們設計和開發的。現在的控制變得越來越複雜，如果你是做機器人技術的人，你可能知道 MPC（模型預測控制）在這些演示中起了很大作用。但強化學習（Reinforcement Learning）也已近在眼前，我認爲強化學習與傳統技術專家相結合，将在機器人能力上取得重大突破。

不過我也認爲人們對 " 學習驅動 " 的方法存在過度樂觀的傾向，這種樂觀目前還沒有完全被證明是合理的。許多人相信，也許是因爲語言模型的成功，認爲不久之後機器人控制就能全部依靠自我學習，甚至是端到端的全自學。但我覺得結論還未定。在我的研究所，我們确實有一些人緻力于這種極端的端到端數據驅動方法，同時也有一些人繼續研究理論和傳統方法。我堅信未來最好的解決方案會來自不同技術方法的交叉融合。

另一點是，這一切還要看時間尺度。在未來的某個時間點，也許學習型方法會全面占優。但如果你想在當下，或者未來幾年，甚至 5 到 7 年内，在産品中做出有用的東西，傳統方法依然會發揮巨大作用。我甚至不太喜歡用 " 傳統 " 這個詞來稱呼這些方法，因爲與過去兩年的新趨勢相比，它們才算 " 傳統 "。

Craig Smith：像 Atlas 這樣的機器人在做跳躍或翻筋鬥等動作時，這些程序設計如今有多少是能用 LLM 類型的代碼生成器完成的呢？不一定非要是 LLM，也可以是其它生成式或基礎模型。

Marc Raibert：我想越來越多的編程會借助這些模型來完成。我展示過的 Spot 和一些人形機器人仿真工作也都在朝這個方向推進。我相信在某些動作上，我們能用這些方法達到傳統 MPC 或控制方法無法實現的效果。但我仍然認爲，這是一種混合。當中那些有控制理論背景并實際搭建過硬件的人才仍是推動這一領域前進的重要因素。

我對純學習領域的一點抱怨是：他們對行爲标準的要求非常寬松，并非在做高性能又困難的任務，而是更關注 " 機器人在所給任務上的改善 " 而非 " 高水平完成有用的任務 "。

Craig Smith：我想問問王堅，目前中國在這個領域處于何種位置？中國要麽是領先，要麽是緊緊追随，很難分辨。就像網絡視頻裏，有些令人驚歎的機器，他們在杭州也有類似公司。請談談中國在這個領域的總體情況吧。

王堅：是的，就像 Marc 在展示中提到的，他列出的一家公司宇樹科技就在杭州。我認爲這不僅是中國，在美國以及全世界範圍内，人們都在探索這一激動人心的話題。Marc 在他的研究中提及了兩個重要概念。你提到兩種類型的智能，這給了我們一些有啓發性的思考方向，讓我們重新思考我們所處的位置和如何行動。

我認爲挑戰不僅僅存在于中國，而是普遍的。這就像你問機器人和 AI 的關系。對我來說，這就像 20、30 年前心理學中的一個基本問題，即 " 心智與身體 " 的問題。對當下的機器人和 AI 而言，也是一種 " 心智與身體 " 的關系問題。健康的心智必須依托于健康的軀體，沒有身體就沒有健康的心智。這是我們一直在追求的目标。

如今，我們讨論的是如何讓 " 心智 " 與 " 身體 " 作爲同一個系統協同運作，就像人類一樣。不過我會在機器人或 AI 前面加上一個定語，我想強調人類智能與機器智能是有區别的，人類的身體與機器的身體也是不同的，盡管架構看似相似，但本質可能有根本區别。這是我相信的。正因爲如此，在中國我們擁有足夠的資源去探索不同的路徑，這非常令人振奮。

Marc Raibert：我想補充一點：除了它們的差異之外，這些差異還意味着我們有改進 AI 的機會，比如用更少的數據實現更好的性能。" 一次性學習 "（one-shot learning）是許多人在努力的目标。現在這些語言模型已經很強大了，但并非終點。我相信未來還會有許多新方法出現，也許有些來自對人類的研究，也許有些來自全新的創意。

王堅：沒錯，以中文來理解 " 人工智能 " 這個詞，聽起來和英文的 Artificial Intelligence 并不完全一樣，更像是 " 模拟人類智能 " 的意思。雖然機器和人類不同，但當機器在某些方面表現優于人類時，并不能簡單說它 " 打敗 " 了人類，這與人類智力與機器智力的對比是不同層面的。今天的技術進步已經使我們超越了 1950 年代時将 AI 直接與人類做一對一比較的階段。我們現在應該思考如何将技術提升到新層次，而不是僅僅比較誰更強。

Craig Smith： Marc，你最初是以一條腿跳躍的 " 彈簧高跷 " 式機器人開始的，這并不像我見過的任何動物。你後來又發展出類動物或人形的機器人。有一個讓我印象深刻的是你們在倉庫裏用吸盤抓取盒子的機器人。展望未來，你認爲進入經濟領域的機器人會更傾向于人形？還是類似動物形态？或是完全不同，比如一個有吸盤手臂的機械裝置（自然界中并沒有類似的生物）？

Marc Raibert：這是一個非常好的問題，尤其是現在全世界至少有 50 家以上的公司在做類似人形機器人的項目，可能還不止 50 家。在中國，我在北京的世界機器人大會上看到 27 家公司展出人形機器人。北美也有六七家，我相信不斷有新公司出現。歐洲也是如此。

我認爲這要看你的時間預期。如果你想在未來 2 到 5 年内就想讓機器人盈利，完成一個高性能的特定任務，那麽你不應該追求通用形态的機器人，而要針對性設計能出色完成特定任務的機器人。比如我們那個隻用來搬運紙箱的機器人，它隻能搬紙箱，卻做得很好。有些人想，既然人類什麽都能做，那麽做個人形機器人也就能什麽都做。也許将來有一天會實現，但還需要很長的路要走。

還有一句話，在美國有一種說法：" 如果它看起來像鴨子，走路像鴨子，叫聲像鴨子，那它就是鴨子。" 可在機器人領域不适用。我們可以讓人形機器人走路像人類，跳舞像人類，看起來像人類，但它的執行機構、控制方式、感知系統、甚至道德和野心都與人類不一樣。人形外形不等于人形内在，人們需要更清晰地思考自己的目标。

我個人喜歡人形機器人，因爲那是像攀登珠穆朗瑪峰一樣的挑戰，但我并不是爲了明年就賺錢才去做它們的。

Craig Smith：在中國，很多人形機器人公司都在出現。你覺得這背後有某種雄心嗎？比如在日本，我知道他們因爲老齡化社會而投入大量資源于機器人，希望有朝一日能出現一支人形機器人隊伍幫助護理老人。中國也面對老齡化問題，這會不會成爲中國的關注點？

王堅：是的，這在中國也是一個話題。人們讨論機器人幫忙照顧老人，但我認爲這并不是唯一的焦點。放在更大圖景裏看，即便在今天的生成式 AI 出現之前，人形機器人就已是個大熱點，中國有很多公司在做。在問中國有多少公司在做機器人時，很難統計，因爲非常多。

我見過一些用戶，他們買一個類人的機器人放在客廳，就是爲了和它對話，而不需要它真的像人類一樣幹活，這讓我真正受到了觸動。當我們希望一個機器人看着像人的時候，我們的潛意識實際上是希望和它交流的。這樣 AI 就成了關鍵，這已經超出傳統機器人技術的範疇，更像是産品設計問題：如何設計一個人們喜歡與之互動的機器人産品。因此，我對當下的技術倍感興奮，因爲機器人和 AI 的技術已經足夠好，可以做出真正好的産品，但挑戰是如何設計這樣的産品。

Craig Smith：對，我也覺得在家中擺放一個可以交談的人形機器人很有價值。以色列有家公司在做一個 " 桌面頭部 " 機器人，雖然不像人頭，但專門用來和老人聊天陪伴。

Marc Raibert：還有很多公司在做所謂的寵物機器人、陪伴機器人，這些不一定像人。有的人甚至想做可以理解真實寵物意思的 AI，不管怎樣，人們普遍覺得需要陪伴。寵物是一種陪伴方式，也許機器人也是一種。不過說到商業化，我認爲家庭是最困難的地方，因爲安全問題、家庭環境的非結構化、多樣化、成本要求都很苛刻，在工廠和倉庫裏實現投入産出比要容易得多。

Craig Smith：對，在家中讓一個人形機器人坐在沙發上，萬一它站起來可能存在安全風險。我想到 Sony 的 Aibo 機器狗，當年停産時還引發了日本用戶的極度悲傷，人們像失去家人一樣。

Marc Raibert：那是個文化現象。我當年與索尼合作 Aibo 時，在東京做過一個面對 Aibo 愛好者的演講。台下很多人戴着 Aibo 吊墜，有人甚至舉辦過 Aibo 婚禮。Aibo 是一種文化現象。

Craig Smith：也許在未來的市場裏，會出現一條分界線：一種是人形或陪伴型機器人用于家庭，另一種則是工業或軍用機器人适合在複雜環境中工作。說到學習能力的問題：我們昨晚談過在機器人中融入強化學習。目前在研究将強化學習用于現有機器人訓練。你認爲要多久才能讓機器人像生成式模型那樣，從環境中自主學習并表現出超出設計者預期的行爲？

Marc Raibert：我知道豐田也在嘗試通過行爲克隆等方法，讓人類先遠程操作收集數據，再讓機器人用這些數據自行完成任務。許多人在追求這一方向。與語言模型從網絡抓取文本數據不同，機器人需要對觸覺、真實視覺進行數據收集，這種數據很難像文字那樣輕易獲得。現在已有一些公司專門爲此采集這類數據。

我認爲有一個連續光譜：從完全由人類設計到完全由機器人自學。從過去直到現在，我們一直有人類在回路中——由工程師通過機器人收集的數據來改進設計，真正的端到端全自學可能是最難的階段。我認爲在很長一段時間内，人類對機器的結構性設計依舊重要。也許終有一日某些問題能實現端到端自學，但那是比較久遠的事情。

王堅：談到機器人和人的互動，我們剛才提到了陪伴機器狗，大家特别喜歡這個陪伴機器狗，因爲它能夠陪伴，其實這涉及人機交互，人們會撫摸它，與它互動。這些觸覺數據和交互數據對機器學習也很重要。今天很多人都想要完全自主的機器人，但我不确定這種想法是否過于狹窄，是否限制了我們對其他方法的探索。就像今天的 LLM 很成功，但這并不意味着隻有 LLM 一種基礎模型方法，還有很多路線可以探索。

Craig Smith：我們日常使用的汽車本質上也是一種機器人，自主駕駛系統相當于在這個機器人裏裝上 " 大腦 "。在無人駕駛方面，中國的部署速度也很快，這讓我覺得中國願意承擔更多風險。

王堅：是的，中國很大，但不僅僅是一個大市場，更是一個能驗證和磨練技術的場所。大市場意味着你有機會将技術投入實際使用，驗證成熟度與可行性，而不隻是銷售。當技術尚未成熟時，中國廣闊的環境提供了快速叠代和驗證的機會。因此中國的确提供了一個測試技術成熟度的舞台。

Marc Raibert：當然，中國的機器人發展，我确實看到市場上有非常多有智慧的人，他們是非常認可這個領域的。對于任何一個公司來講，如果想要成功，就需要有人才庫，需要有這樣的一些人才，這肯定是一個非常令人敬佩的人才儲備。

王堅：是的，我完全同意 Marc 的看法。當有大量年輕人對這項技術充滿熱情，就能推動技術不斷前進。有了這種熱愛與激情，未來就有希望。

Marc Raibert：我有時都覺得自己有點走運，我能從事自己熱愛的工作，每天上班都不是負擔，還有人付我工資。我認爲對于任何一位能從事自己熱愛領域的人來說，這都是再好不過的境況。

Craig Smith：回到将 AI" 大腦 " 與機器人 " 身體 " 結合的問題：無論是通過控制理論還是極端的神經網絡方案，這種融合進展如何？現在有多少機器人具有 AI 大腦來輔助控制并允許與人類的交互？

Marc Raibert：我認爲随着對硬件和軟件雙方的深入理解，以及團隊之間的緊密合作，進展會更快。在早期模拟中，如果模拟開發者有硬件經驗，模拟的效果和對軟件的幫助就更大。如果隻懂軟件而不了解硬件，成效就差點。我有些擔心美國矽谷的軟件派認爲隻要軟件足夠智能，随便什麽硬件都行。我并不認同。即使現在軟件能推動硬件發展，但終有一天硬件會再次成爲瓶頸，到時鍾擺又會回到硬件這邊。

Craig Smith：我注意到美國 AI 機器人實驗室裏使用的機器人手臂大多是簡單的夾爪結構，這是相當粗糙的硬件。在中國情況如何？中國的 AI 機器人研究是不是也大多用這種簡單硬件，還是有人嘗試更複雜的人形或其他先進硬件？

王堅：我相信即便沒有特定硬件，我們也能利用 AI 做很多事情，畢竟有足夠的算力就行。但如果有了好的硬件配合 AI，就可能實現更驚豔的突破。許多中國公司都在嘗試，因爲他們相信在硬件、軟件與 AI 能力的結合上有巨大的潛力。深圳就是一座硬件之都，可以快速低成本地制造出各種原型，這對探索各種形态的機器人非常有利。還有許多城市裏大量的工程師同時嘗試不同方向，這種規模化工程與研究會加速技術積累與進步。

Marc Raibert：回到剛才提到的自動駕駛汽車，我想舉這樣一個例子，在舊金山有一個事故，其中有人死亡了。這個事故當中，有自動駕駛汽車，但其實我覺得是人類駕駛的汽車，是人錯誤駕駛汽車的責任，但因爲這個事故裏有自動駕駛汽車的參與，所以引起了很大的讨論。其實我覺得，自動汽車會比人類駕駛的汽車更爲安全，就像機器人一樣，我們會把機器人送去工廠，但可能會出現人受傷的情況，一旦出現了事故，人們可能就會不再使用機器人了。

王堅：即便使用了機器人，其實工人的安全反而能夠得到更好的保障，不管是在舊金山、中國或者是歐洲。我覺得不同的文化差異，可能會帶來不同的想法。我想到幾天前，我也讨論過這個問題，就像最開始人們會說 X 光對身體是有害的，但是後來人們會意識到 X 光其實是能夠給人類帶來幫助的，現在又到了這麽一個階段，我們認爲 AI 機器人有很大的力量，但我們還不知道它能夠做什麽。

就像你從家開車到機場，你在路上發生事故的可能性要比你坐飛機出事故的可能性要高得多。很多技術發展的曆史，其實都會有這麽一個階段，很多人因爲害怕 AI，所以他們希望 AI 受到更嚴格的監管。

Marc Raibert：我很贊同，我也覺得 AI 會解決很多問題，它解決問題的能力，要比它所帶來問題的能力要強得多。我自己并不害怕 AI，但我知道很多人都會很擔心，很害怕 AI，我不知道這是教育的問題，還是傳播的問題。

王堅：今年 9 月，我在紐約聯合國的辦公樓開了個會。在這個會上，聯合國發布了一個文件，在講治理 AI，我們參會的這些人都拿到了這份文件。在這個文件發布之後，我們參會的二十幾個人自己組織又開了一個閉門會，我們覺得 AI 當然有安全問題，但我們認爲安全并不是 AI 的全部，我們把這個認識叫做曼哈頓宣言，就是爲了表達我們代表科學界有了一個共識。AI 的能力不但包括機遇還有安全，這就是我們所談到的内容，我們必須把機遇和安全問題放在一起來讨論，我們也需要這樣的平衡。

Craig Smith：快到對話結束的環節了，我想問一個觀衆總愛問的問題（專家們也許不喜歡）：你們對人形機器人進入家庭有用武之地的時間表有什麽預測？

Marc Raibert：我覺得家用場景可能是最後的場景，而且我覺得會是有限的使用場景，就像剛才你談到的一些任務，我不知道。

Craig Smith：可能永遠都不會？

Marc Raibert：我不是說永遠都不會，但是會需要很長時間。

王堅：我可能更樂觀一些，我覺得 5-10 年我們會在家裏出現類似機器人這樣子的東西，就像電視、洗衣機，我想會有新的這樣的硬件進入到我們的家庭，我覺得是 5-10 年一定會出現。

Marc Raibert：我同意 10 年後肯定會有某種有用的機器人家電出現，但它可能不會是全能的人形機器人。

Craig Smith：10 年後如果我還在，我們再見面，到時候看有沒有實現！屆時身邊可能有個機器人給我們端茶倒水。

（本文首發钛媒體 App，編輯 | 劉湘明）