用視覺來做 Prompt,是種什麽體驗?
隻需在圖裏随便框一下,結果秒秒鍾圈出同一類别!
即便是那種 GPT-4V 都難搞定的數米粒的環節。隻需要你手動拉一下框,就能找出所有米粒來。
新的目标檢測範式,有了!
剛剛結束的 IDEA 年度大會上,IDEA 研究院創院理事長、美國國家工程院外籍院士沈向洋展示了最新研究成果——
基于視覺提示(Visual Prompt)模型 T-Rex。
整個流程交互,開箱即用,隻需幾步就可以完成。
此前,Meta 開源的 SAM 分割一切模型,直接讓 CV 領域迎來了 GPT-3 時刻,但仍是基于文本 prompt 的範式,在應對一些複雜、罕見場景就會比較難辦。
現在以圖換圖的方式,就能輕松迎刃而解。
除此之外,整場大會也是幹貨滿滿,比如 Think-on-Graph 知識驅動大模型、開發者平台 MoonBit 月兔、AI 科研神器 ReadPaper 更新 2.0、SPU 機密計算協處理器、可控人像視頻生成平台 HiveNet 等等。
最後,沈向洋還分享了過去幾年時間花時間最多的一個項目:低空經濟。
我相信當低空經濟發展到相對成熟時,同一個時間點,在深圳的天空中每天有 10 萬架無人機,每天飛起來的有百萬架無人機。
用視覺來做 Prompt
除了基礎的單輪提示功能,T-Rex 還支持三種進階模式。
多輪正例模式
有點像多輪對話,以得出更爲精确的結果,不至于出現漏檢的情況。
正例 + 負例模式
适用于視覺提示帶有二義性造成誤檢的場景。
* 跨圖模式。
用單張參考圖提示,來檢測其他的圖。
據介紹,T-Rex 不會受到預定義類别限制,能夠利用視覺示例指定檢測目标,這樣一來就克服有些物體難以用文字充分表達的問題,以提高提示效率。尤其像一些工業場景中的複雜組件等。
除此之外,通過與用戶交互的方式,也可以随時快速地評估檢測結果,并進行糾錯等。
T-Rex 主要由三個組件組成:圖像編碼器、提示編碼器以及框解碼器。
這項工作來自 IDEA 研究院計算機視覺與機器人研究中心。
該團隊此前開源的目标檢測模型 DINO 是首個在 COCO 目标檢測上取得榜單第一的 DETR 類模型;在 Github 上大火(至今狂攬 11K 星)的零樣本檢測器 Grounding DINO 與能夠檢測、分割一切的 Grounded SAM。更多技術細節可戳文末鏈接。
整場大會幹貨滿滿
除此之外,IDEA 大會上還重點分享了幾個研究成果。
比如Think-on-Graph 知識驅動大模型,簡單來說就是将大模型與知識圖譜結合。
大模型擅長意圖理解和自主學習,而知識圖譜因其結構化的知識存儲方式,更擅長邏輯鏈條推理。
Think-on-Graph 通過驅動大模型 agent 在知識圖譜上 " 思考 ",逐步搜索推理出最優答案(在知識圖譜的關聯實體上一步一步搜索推理)。每一步推理中,大模型都親自參與,與知識圖譜相互取長補短。
MoonBit 月兔,這是由 Wasm 驅動,專爲雲計算與邊緣計算設計的開發者平台。
它不僅提供通用程序語言設計,還整合了編譯器、構建系統、集成開發環境(IDE)、部署工具等版塊,來提升開發體驗與效率。
此前發布的科研神器 ReadPaper 也更新至 2.0,發布會現場演示了閱讀 copilot、潤色 copilot 等新功能。
發布會最後,沈向洋發布《低空經濟發展白皮書——深圳方案》,在其智能融合低空系統(Smart Integrated Lower Airspace System,SILAS)中,提出時空進程(Temporal Spatial Process)新概念。
T-Rex 鏈接:
https://trex-counting.github.io/