現在 AI 圈确實到了拼手速的時候啊。
這不,Meta 的 SAM 剛剛推出幾天,就有國内程序猿來了波 buff 疊加,把目标檢測、分割、生成幾大視覺 AI 功能 all in one!
比如基于 Stable Diffusion 和 SAM,就能讓照片中的椅子無縫換成沙發:
換裝、換發色也是 so easy:
項目一經發布就讓不少人驚呼:手速也太快了吧!
還有人表示:我和新垣結衣的新結婚照有了。
如上就是Gounded-SAM帶來的效果,項目在 GitHub 上已攬星 1.8k。
簡單來說,這就是一個 zero-shot 視覺應用,隻需要輸入圖片,就能自動化檢測和分割圖像。
該研究來自 IDEA 研究院(粵港澳大灣區數字經濟研究院),創始人兼理事長爲沈向洋。
無需額外訓練
Grounded SAM 主要由 Grounding DINO 和 SAM 兩個模型組成。
其中SAM(Segment Anything)是 4 天前 Meta 剛剛推出的零樣本分割模型。
它可以爲圖像 / 視頻中的任何物體生成 mask,包括訓練過程中沒出現過的物體和圖像。
通過讓 SAM 對于任何提示都返回有效的 mask, 能夠讓模型在即使提示是模糊的或者指向多個對象的情況下,輸出也應該是所有可能中一個合理的 mask。這一任務用于預訓練模型并通過提示解決一般的下遊分割任務。
模型框架主要由一個圖像編碼器、一個提示編碼器和一個快速 mask 解碼器組成。在計算圖像嵌入後,SAM 能夠在 50 毫秒内根據 web 中的任何提示生成一個分割。
Grounding DINO 是該研究團隊已有的成果。
這是一個零樣本檢測模型,能夠生成帶有文字描述的物體 box 和标簽。
二者結合後,可以通過文本描述找到圖片中的任意物體,然後通過 SAM 強大的分割能力,細粒度地分割出 mask.
在這些能力之上,他們還疊加了 Stable Diffusion 的能力,也就是開頭所展示的可控圖像生成。
值得一提的是,Stable Diffusion 此前也能夠實現類似功能。隻要塗抹掉想替換的圖像元素,再輸入文本提示就可以。
這一回,Grounded SAM 能夠省去手動選區這個步驟,直接通過文本描述來控制。
另外結合 BLIP(Bootstrapping Language-Image Pre-training),生成圖片标題、提取标簽,再生成物體 box 和 mask。
目前,還有更多有趣的功能正在開發中。
比如人物方面的一些拓展:更換衣服、發色、膚色等。
具體食用方法也已在 GitHub 上給出。項目需要 Python 3.8 以上版本,pytorch 1.7 以上版本,torchvision 0.8 以上版本,并要安裝相關依賴項。具體内容可看 GitHub 項目頁。
該研究團隊來自 IDEA 研究院(粵港澳大灣區數字經濟研究院)。
公開消息顯示,該研究院是一所面向人工智能、數字經濟産業及前沿科技的國際化創新型研究機構,前微軟亞研院首席科學家、前微軟全球智行副總裁沈向洋博士擔任創始人及理事長。
One More Thing
對于 Grounded SAM 的未來工作,團隊有幾點展望:
自動生成圖像構成新數據集
具有分割預訓練的強大基礎模型
和(Chat-)GPT 合作
構成一個自動生成圖像标簽、box 和 mask 的 pipeline,并能生成新的圖像。
值得一提的是,該項目的團隊成員中,有不少都是知乎 AI 領域活躍的答主,這次也在知乎上自答了關于 Grounded SAM 的内容,感興趣的童鞋可以去留言請教 ~
參考鏈接:
[ 1 ] https://zhuanlan.zhihu.com/p/620271321
[ 2 ] https://github.com/IDEA-Research/Grounded-Segment-Anything
[ 3 ] https://segment-anything.com/