比 Meta 的「分割一切模型」 ( SAM ) 更快的圖像分割工具,來了!
最近中科院團隊開源了 FastSAM 模型,能以50 倍的速度達到與原始 SAM 相同的效果,并實現 25FPS 的實時推理。
該成果在 Github 已經獲得 2.4K+ 次星标,在 Twitter、PaperswithCode 等平台也受到了廣泛關注。
相關論文預印本現已發表。
以下内容由投稿者提供
視覺基礎模型 SAM [ 1 ] 在許多計算機視覺任務中産⽣了重⼤影響。它已經成爲圖像分割、圖像描述和圖像編輯等任務的基礎。
然⽽,其巨⼤的計算成本阻礙了它在實際場景中的⼴泛應⽤。
最近,中科院⾃動化所提出并開源了⼀種加速替代⽅案 FastSAM。
通過将分割⼀切任務重新劃分爲全實例分割和提⽰指導選擇兩個⼦任務,⽤帶實例分割分⽀的常規 CNN 檢測器以⾼出 50 倍的運⾏速度實現了與 SAM ⽅法相當的性能,是⾸個實時分割⼀切的基礎模型。
意義與動機
SAM 的出現帶動了 " 分割⼀切 "(Segment Anything)任務的發展。這⼀任務由于其泛化性和可擴展性,有很⼤可能成爲未來⼴泛視覺任務的基礎。
FastSAM 爲該任務提供了⼀套實時解決⽅案,進⼀步推動了分割⼀切模型的實際應⽤和發展。
本⽂将 " 分割⼀切 " 任務解耦爲全實例分割和提⽰引導選擇兩階段,通過引⼊⼈⼯先驗結構,在提速 50 倍的情況下實現了與 SAM 相近的表現。
FastSAM 的優秀表現爲視覺任務的架構選擇提供了新的視角——對于特定任務,專用模型結構或許在計算效率和精确度上仍具有優勢。
從模型壓縮的⾓度看,FastSAM 也證明了基于大模型産生高質量數據,通過引⼊⼈⼯先驗結構大幅降低計算複雜度的路徑的可⾏性。
示例 Web DEMO
在 HuggingFace 的 Space 中,你可以快速體驗 FastSAM 的分割效果。
你可以上傳一張自定義的圖片,選擇模式并設置參數,點擊分割按鈕,就可以得到一個滿意的分割結果。
現在支持一切模式和點模式的交互,其他模式将在未來嘗試支持。在 Replicate 上已支持所有模式的在線體驗。
多種交互⽅式
FastSAM 目前共支持三種交互方式。
多點交互模式
FastSAM ⽀持多個帶有前景 / 背景标簽的點交互模式,可以很好地适應不同場景的應⽤需求。
以缺陷檢測場景爲例,隻需對缺陷部位添加前景點,對正常藥丸部分添加背景點,即可準确地檢測出物體缺陷。
框交互模式
FastSAM 也⽀持框交互模式。也以缺陷檢測爲例,隻需對缺陷⼤緻位置進⾏框選,即可準确檢測出物體缺陷。
⽂本交互模式
FastSAM 也⽀持并開源了⽂本交互模式。通過不同的⽂本提示,FastSAM 可以準确分割出不同顔⾊的⼩狗。
工作原理
如下圖所示,FastSAM 的網絡架構可分爲兩個階段:全實例分割和提示引導選擇。
在全實例分割階段,FastSAM 使用卷積神經網絡來對圖像中的所有對象或區域進行劃分。
在提示引導選擇階段,它采用包括點提示、框提示和文本提示的各種提示來選出關注對象。
與基于 Transformer 的方法不同,FastSAM 融合了與視覺分割任務緊密相關的先驗知識,例如局部連接和對象分配策略。這使得它以更低地參數量和計算量下更快地收斂。
定性與定量分析
測試結果表明,FastSAM 各方面的表現完全不輸于 Meta 的原始版本。
速度
從表中可以看出,FastSAM 取得了遠超 SAM 的速度表現,在「分割⼀切」模式下,SAM 的速度會受到均勻點提⽰數量的影響,⽽ FastSAM 由于結構的特點,運⾏時間不随點提⽰數量的增加⽽增加,這使得它成爲「分割⼀切」模式的更好選擇。
同時,由于 FastSAM 在結構設計中利⽤了⼈的先驗知識,使得它在實時推理的同時也具備了與 SAM 相當的性能。
邊緣檢測
下圖展⽰了具有代表性的邊緣檢測結果。經過定性觀察可以看出,盡管 FastSAM 的參數明顯較少(隻有 68M),但它也能産⽣很⾼質量的邊緣檢測結果。
從下表可以看出,FastSAM 取得了與 SAM 類似的性能。與 Ground Truth 相⽐,FastSAM 和 SAM 都傾向于預測更多的邊緣,這種偏差在表中得到了定量的反映。
物體候選
從下表可以看出,FastSAM 在 bbox AR@1000 的表現上超過了計算量最⼤的 SAM 模型(SAM-H E64),僅次于在 LVIS 數據集上監督訓練的 ViTDet-H [ 2 ] 。
可視化結果
SA-1B 分割結果:下圖展⽰了 FastSAM 在 SA-1B 數據集上不同場景和掩碼數量時的分割結果。
下遊應⽤對⽐:下⾯三張圖對⽐了 FastSAM 和 SAM 在異常檢測、顯著物體分割和建築物提取三個下遊任務的效果,FastSAM 在不同模式下均取得了和 SAM 相當的表現。
參考⽂獻
[ 1 ] Kirillov A, Mintun E, Ravi N, et al. Segment anything [ J ] . arXiv preprint arXiv:2304.02643, 2023.
[ 2 ] Li J, Yang T, Ji W, et al. Exploring denoised cross-video contrast for weakly-supervised temporal action localization [ C ] //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19914-19924.
論文地址:
https://arxiv.org/abs/2306.12156
GitHub 項目頁:
https://github.com/CASIA-IVA-Lab/FastSAM
HuggingFace DEMO:
https://huggingface.co/spaces/An-619/FastSAM
Replicate demo:
https://replicate.com/casia-iva-lab/fastsam