Vision Pro 又現火爆新玩法,這回還和具身智能聯動了 ~
就像這樣,MIT 小哥利用 Vision Pro 的手部追蹤功能,成功實現了對機器狗的實時控制。
不僅開門這樣的動作能精準 get:
也幾乎沒什麽延時。
Demo 一出,不僅網友們大贊鵝妹子嘤,各路具身智能研究人員也嗨了。
比如這位準清華叉院博士生:
還有人大膽預測:這就是我們與下一代機器互動的方式。
具體來看看作者小哥開發的 App ——Tracking Steamer。
顧名思義,這個應用程序旨在利用 Vision Pro 追蹤人類動作,并将這些動作數據實時傳輸到同一 WiFi 下的其他機器人設備上。
動作追蹤的部分,主要依靠蘋果的 ARKit 庫來實現。
其中頭部追蹤調用的是 queryDeviceAnchor。用戶可以通過長按數字表冠來重置頭部框架到當前位置。
手腕和手指追蹤則通過 HandTrackingProvider 實現。它能夠追蹤左右手腕相對于地面框架的位置和方向,以及每隻手 25 個手指關節相對于手腕框架的姿态。
網絡通信方面,這個 App 使用 gRPC 作爲網絡通信協議來流式傳輸數據。這使得數據能被更多設備訂閱,包括 Linux、Mac 和 Windows 設備。
另外,爲了方便數據傳輸,作者小哥還準備了一個 Python API,讓開發者能夠通過編程方式訂閱和接收從 Vision Pro 流式傳輸的追蹤數據。
API 返回的數據是字典形式,包含頭部、手腕、手指的 SE ( 3 ) 姿态信息,即三維位置和方向。開發者可以直接在 Python 中處理這些數據,用于對機器人的進一步分析和控制。
就像不少專業人士所指出的那樣,别看機器狗的動作還是由人類控制,事實上,相比于 " 操控 " 本身,結合模仿學習算法,人類在這個過程中,更像是機器人的教練。
而 Vision Pro 通過追蹤用戶的動作,提供了一種直觀、簡單的交互方式,使得非專業人員也能夠爲機器人提供精準的訓練數據。
作者本人也在論文中寫道:
在不久的将來,人們可能會像日常戴眼鏡一樣佩戴 Vision Pro 這樣的設備,想象一下我們可以從這個過程中收集多少數據!
這是一個充滿前景的數據源,機器人可以從中學習到,人類是如何與現實世界交互的。
最後,提醒一下,如果你想上手試一試這個開源項目,那麽除了必備一台 Vision Pro 之外,還需要準備:
蘋果開發者賬戶
Vision Pro 開發者配件(Developer Strap,售價 299 美元)
安裝了 Xcode 的 Mac 電腦
嗯,看樣子還是得先讓蘋果賺一筆了(doge)。
項目鏈接:
https://github.com/Improbable-AI/VisionProTeleop?tab=readme-ov-file
參考鏈接:
https://twitter.com/younghyo_park/status/1766274298422161830