作者|黃楠
編輯|袁斯來
對具身智能而言,開發環境感知和理解是核心能力。視覺感知作爲機器和物理世界交互的基礎,自 Transformer 架構誕生後,視覺模型與之結合、走上一條 " 從小變大,從 N 變 1" 之路,帶來了全場景視覺感知能力的提升,爲技術落地拓寬空間。
11 月 22 日,2024 IDEA 大會在深舉辦,IDEA 研究院現場發布了最新的 DINO-X 通用視覺大模型,它具備物體級别理解能力,無需用戶提示,即可實現對開放世界(Open-world)目标檢測;同時還推出行業平台架構,通過大模型基座結合通用識别技術結合,實現模型不需重新訓練就可邊用邊學,以支持多種應用需求。
以具身智能爲代表新一輪落地浪潮中,技術路徑更強調泛化性,追求現實場景适配。會上,IDEA 研究院宣布達成了三大合作:與騰訊,在深圳福田區、河套深港科技創新合作區落地建設福田實驗室,聚焦人居環境具身智能技術;與美團,探索無人機視覺智能技術;與比亞迪,拓展工業化機器人智能應用。
IDEA 研究院創院理事長、美國國家工程院外籍院士沈向洋
此前,機器人已進入工廠制造、汽車生産車間、物流倉儲碼頭等場景,可在半結構化領域中完成基礎性工作,但仍缺乏對真實場景的認知能力,應用空間局限;比如住宅區域地面車輛的物流配送,需要克服複雜的地面環境。
IDEA 研究院計算機視覺與機器人研究中心負責人張磊就指出," 機器人有不同的形态,有雙臂機器人、移動機器人,如果移動機器人分室内、室外,室外更像是無人駕駛,需要面對結構化、半結構化的道路環境,高速公路更結構化,進到城市再到小巷,面對的問題更複雜。"
而 AI 大模型的到來,大幅度提升了機器人認知和決策能力。騰訊 Robotics X 實驗室智能體中心負責人韓磊表示," 語言作爲人類知識或是思維的高度抽象,符号化的語言可進行長期且慢速的高維思考。而機器人是站在第一人稱視角看待這個世界的 Agent,所以首要的是從視覺理解這個世界。"
《從視覺到行動:具身智能的挑戰和機遇》圓桌
當機器人進行運動時,一個紙盒子的折疊、向某一方向的行進,往往難以用簡單的語言進行步驟描述,而有了多模态加入後,融合物理世界認知的具身智能可以有效增強機器人對世界的理解角度。
在落地方面,美團副總裁兼無人機業務部負責人毛一年認爲,機器人首要的應用場景,應該以人類的高風險任務作爲切入點,如上山巡檢、 深海檢測、油田鑽井、高樓清潔等," 随着全身控制、行動控制、手、視觸協同,從小場景做進去、用起來,用戶不會說它好,也不會罵它,不會一腳把它清出去。我們希望看到它不砸鍋,這件事很重要。"
IDEA 大會上,IDEA 研究院創院理事長、美國國家工程院外籍院士沈向洋指出,在技術大爆發時期開展創新,對技術的深度理解尤爲重要。而 " 深圳是一座用叠代軟件的速度叠代硬件的城市。"
除上述提及的福田實驗室外,IDEA 與前海深港合作區共建 IDEA 前海創新院,與深圳龍崗區合作建設 IDEA 低空經濟分院,與橫琴粵澳深度合作區共建 IDEA- 橫琴數字技術及人工智能測評中心。初創生态方面,IDEA 也孵化有識淵科技、AI 玩伴機器人愛小伴、GPU 加速電影工業渲染器 Smaray 慧光追等生态企業。