大模型時代,有個大家普遍焦慮的問題:如何落地 ? 往哪落地 ?
聚光燈下最耀眼的 OpenAI,最近也先被曝出資金告急,後又尋求新一輪 10 億美元新融資。
但在中國,有這麽一家公司:
它的多模态大模型不僅在多個權威數據集上的表現超過了 OpenAI,更是用一個個落地案例告訴大家,大模型并不僅僅包括大語言模型,視覺大模型和多模态大模型在産業界有更大的想象空間。
這家公司就是格靈深瞳,它曾因 "A 股 AI 視覺第一股 " 的标簽爲人熟知,如今以新姿态再次刷新外界認知:大模型落地先行者。
銀行安防領域,AI 算法規模化應用,落地 10000+ 銀行網點
城市管理領域,交通治理業務在 10 餘個省市開展試點及落地應用
商業零售領域,智慧案場解決方案落地全國 20 餘省市近 1000 個項目
體育教育領域,相關産品方案已在全國多個校園試點應用,爲 100000+ 名在校師生提供日常教學支持與考試服務
……
取得這樣的成績背後,離不開格靈深瞳在大模型技術層面取得的進展:
自研視覺大模型 Unicom v2,在多業務數據集上平均優于 OpenAI 的 CLIP、Meta 的 DINOv2 和蘋果的 DFN
基于 Unicom 的深瞳靈感 -7B 多模态大模型在業界同等規模的 VLM 模型中居領先地位,優于業界普遍使用的 OpenAI CLIP 和谷歌 SigLIP
其中,Unicom v2 相關論文還入選 AI 頂會 ECCV 2024。
雖然現在不加限定的使用 " 大模型 " 一詞,默認就是指 " 大型語言模型 ",Large Language Model。
但從格靈深瞳的故事中可以看到,視覺大模型、多模态大模型在原本視覺 AI 的存量市場依然大有可爲,而且壁壘依然深厚。
多模态給傳統視覺 AI 帶來什麽改變?
早在 2022 年,格靈深瞳就開始自研視覺大模型,但當時想要推進落地,還是遇到了瓶頸:
今天已爲人熟知的大模型、Transformer、Scaling Law 等等,當時還未成爲行業共識。彼時的主流是不斷優化卷積神經網絡,把模型做小、最好能直接在邊緣設備運行。
總而言之,當時很難說服客戶接受大模型這一前沿但成本高昂的技術。
然而 ChatGPT 橫空出世,徹底改變了這一切。
一方面,它以直觀的人機對話方式向公衆展示了算力與效果的正相關,人們終于意識到 " 大量投入算力,才能獲得理想中的效果 "。
另一方面,硬件也開始主動适配 Transformer 算法,比如英偉達在 Hopper 架構 GPU 中首次引入專用 Transformer 引擎。
從某種意義上說,ChatGPT 是替所有 AI 公司做好了教育市場的工作。
視覺 AI 在這一階段經曆了與語言模型類似的,從 " 模塊化 " 到 " 一體化 " 的範式轉變。
傳統的檢測、分割、分類等任務需要針對性設計複雜的特征工程和網絡結構,而視覺大模型則以統一的 Transformer 骨幹直接學習圖像到特征再到應用輸出的端到端映射。
格靈深瞳自研視覺大模型 Unicom 系列就是這一轉變的成果,通過做大數據的規模、做大計算的規模來做強通用能力,讓模型以統一的方式對世界進行 " 理解 " 和 " 泛化 "。
如果說視覺大模型是讓 AI" 看到了世界 ",再結合語言模型則是讓 AI 升級爲 " 看懂了世界 ",大大拓寬了應用邊界。
以格靈深瞳多年深耕的銀行安防行業爲例,如何讓 AI 判斷攝像頭畫面中是否有人在打架?
這涉及動作識别、對視角遮擋的推斷等等多項難點,在 AI 1.0 時代需要複雜的規則和阈值設計,再加上難以采集的數據樣本,工程量巨大且效果有限。
而加入語言模型後,隻需把視頻幀連續輸入并描述場景,模型就能從語義層面判斷這是否屬于打鬥行爲。
" 面對各種長尾、複雜場景,多模态的優勢就體現出來了。"格靈深瞳工程研發副總裁周瑞認爲," 它讓以前難以想象的應用變成了可能。"
同樣,在工業質檢領域,以前要針對每種缺陷去采集标注數據,代價高昂且泛化性差,更何況一些稀有缺陷數據總量根本就不夠。
而通用視覺大模型具備少樣本學習、跨場景泛化的能力,再結合上語言模型的多模态生成範式,現在 AI 隻要智能識别到缺陷,同時就能給出文字描述,供現場工作人員參考。
除了在單項任務中,多模态大模型的推理和生成能力,還可以在整個系統中承擔任務分配的 " 路由 " 作用。
例如格靈深瞳覆蓋某銀行 10000+ 網點的解決方案,形成總 - 分 - 支三層架構:總行利用大模型訓練通用模型,分發至各地分行。各省分行結合自身業務特點,定期微調優化模型。支行則直接應用本地分行下發的模型調用服務。
在視頻結構化方面,邊緣端負責提取人、車、物等目标的實時信息并上傳。若無法判别的複雜場景,則發送至中心端請求二次識别。雲端利用多模态大模型,從語義層面對場景内容做更全面的理解。
此外,基于多模态大模型強大的數據彙聚與語義理解能力,該行還打通了原本割裂的各類監控數據。目前正着手建設一套覆蓋全行的 "AI 中台 ",可靈活調度跨網點、跨系統的數據和算力,快速響應總分支的各種臨時需求。
這套架構能随時利用零散的多模态數據對大模型做增量學習提升,讓整個銀行集團的 AI 平台像一個不斷進化的 " 中央大腦 "。
弱監督學習開啓視覺的 Scaling Law
格靈深瞳視覺大模型的進化之路,開始于做自研的視覺基座模型 Unicom。
最初的 v1 版本參考人臉識别的特征學習方式,把網絡直接改成了 ViT 結構,數據也從人臉擴展到 4 億通用圖像,精度就超過了當時最好的對比學習模型。
但圖像數據不像文本,天然就有高密度的語義信息,無需标注就能通過 " 預測下一個 token" 任務進行無監督學習。
如何擴大視覺大模型數據規模,無需标注也能利用好更多圖像數據呢?
格靈深瞳團隊逐漸探索出一種新穎的弱監督方式:先用一個特征聚類模型,把相似圖片自動歸類到一起,視爲同一類别。然後基于聚類結果,爲每張圖像分配一個 " 軟标簽 ",作爲訓練目标。
這種做法爲無标簽數據注入了豐富的語義信息。
具體來說,格靈深瞳開發了多标簽聚類辨别 (MLCD)方法,在聚類步驟中爲每個圖像選擇多個最近的聚類中心作爲輔助類标簽,以考慮圖像中不同粒度的視覺信号。
與此配合,他們還設計了一種消除多标簽分類歧義的損失函數。
不同于常規的多标簽損失函數通過縮小類内相似度和類間相似度的相對差距來優化,本文引入了另外兩個優化目标:最小化類間相似度和最大化類内相似度,從而可以優雅地分離正類損失和負類損失,減輕決策邊界上的歧義。
團隊在更大規模的模型和數據集上進行了實驗驗證,進一步證明了所提出方法的有效性和可擴展性。
Unicom v2 正是基于這一思路,将數據規模、參數規模再次擴大,精度再創新高,成功刷新多項記錄。
有了 Unicom 強大的通用視覺理解能力,再結合上語言模型,就組成了深瞳靈感 -7B 多模态大模型。
該模型不僅在傳統的單圖問答上表現優異,在多圖推理、圖文增量學習等前沿任務上也展現出了巨大潛力。
正如格靈深瞳在 22 年就開始探索 ViT 架構的視覺大模型落地,現在研究團隊也在思考什麽是能超越 Transformer 的下一代架構。
最近,他們嘗試用RWKV(Receptance Weighted Key Value)這一基于 RNN 的序列建模方法替代主流的 ViT 架構,訓練出了視覺語言模型 RWKV-CLIP。
RWKV 能在線性時間内處理任意長度序列,大幅降低推理時的計算複雜度,有望釋放多模态 AI 能力在更多邊緣、終端設備上。
值得一提的是,格靈深瞳還将 RWKV-CLIP 代碼和模型權重開源到 GitHub,供業界一起探讨,共同進步。
視覺 AI 公司做多模态,是一種不同的打法
放眼當下,不乏大模型公司試水多模态應用。
但多是簡單的技術 Demo、帶上傳圖片的聊天機器人、個人 AI 助手等輕量級形态切入,真正深入産業的尚不多見。
歸根到底,把 AI 算法與特定行業場景深度融合的經驗,是難以在短期内獲得的。
讓多模态大模型技術在更多地方發揮價值,還需要有視覺 AI 基因、掌握行業場景的公司。
拿着大模型到處找落地場景,和在已深耕多年的場景用大模型做升級改造,是兩種完全不同的打法。
縱觀曆史,互聯網作爲現代社會的一種基礎設施,幾十年來積累的大量文本數據,最終成就了大語言模型公司。
接下來,視覺 AI 時代建設的大量攝像頭、積累的圖像視頻數據也會成就一批多模态大模型公司。
至于爲什麽是語言模型先一步完成蛻變,格靈深瞳認爲是圖像數據中的分布更不均勻,比如很容易獲得一家上市公司的财報文檔,但很難通過開放數據來獲取一家公司大量的圖像。
到了專業細分場景,如醫療影像、工業缺陷,可獲取的訓練數據體量更是遠不及互聯網語料。
但換個角度從應用價值來看,視覺數據直接反映現實世界,與城市治理、工業生産、商業運營等領域的痛點訴求高度契合。
從圖像數據中提取出價值更難,也更值得做。
格靈深瞳正是這樣一家将技術創新與行業理解相結合的先行者。十多年來,公司始終堅持在智慧金融、城市治理等領域精耕細作,打磨出一整套面向行業的數字化解決方案。
這些方案不僅考慮了算法本身的創新,更融入了大量行業知識和實踐經驗,形成獨特的競争壁壘。
這種積澱,讓格靈深瞳在多模态大模型應用落地中先人一步:既能洞悉行業痛點,設計好落地路徑,又能調動資源快速叠代。大到頂層的商業模式設計,小到一線的模型适配、部署,公司上下形成了一套成熟的方法論。
大模型帶來的是一個構建行業 AI 應用的全新技術範式。多模态感知、跨域推理、小樣本學習等能力的提升,從根本上拓展了 AI 的想象空間。
但歸根結底,技術隻是實現願景的工具,行業才是應用的土壤。惟有深耕行業,AI 才能開花結果。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>