阿裏開源,又拿第一了。
這次是在多模态領域:
就在剛剛,阿裏國際 AI 團隊開源多模态大模型Ovis1.6。在多模态權威綜合評測基準 OpenCompass 上,Ovis1.6-Gemma2-9B 版本綜合得分超越 Qwen2VL-7B、InternVL2-26B 和 MiniCPM-V-2.6 等主流開源模型,在 300 億以下參數開源模型中位居第一。
在數學推理和視覺理解等多項任務中,得分甚至超過了閉源的 GPT-4o-mini。
具體來說,Ovis1.6 能勝任視覺感知推理、數學和科學、生活場景等多種多模态任務。
拿大家夥兒都很關注的數理能力舉個,Ovis1.6 的表現是醬嬸的:
媽媽再也不用擔心我學不明白大學數學。
用來輔助讀讀論文:
分析财報,效果也相當不錯。
還能當場看圖教你做一道經典的炸魚薯條(手動狗頭)。
值得一提的是,阿裏國際的 Ovis 系列多模态大模型,遵循的是 Apache 2.0 開源協議。也就是說,協議很寬松,商用很友好。
從結構上對齊視覺和文本嵌入
話不多說,我們照例來拆解一下 Ovis 這個新科第一背後的技術細節。
根據 OpenCompass 評測基準,Ovis1.6-Gemma2-9B 超過了 Qwen2-VL-7B、MiniCPM-V-2.6 等一衆相同參數量級的知名多模态模型。
在數學等推理任務中,甚至有媲美 70B 參數模型的表現。
Ovis1.6 的幻覺現象和錯誤率也低于同級别模型,展現了更高的文本質量和準确率。
如何做到?阿裏國際 AI 團隊的核心思路是:從結構上對齊視覺和文本嵌入。
當前,多數開源多模态大語言模型(MLLM)并非從頭訓練整個模型,而是通過像多層感知機(MLP)這樣的連接器,将預訓練的大語言模型(LLM)和視覺 Transformer 集成起來,給 LLM 裝上 " 眼睛 "。
這樣一來,就導緻了一個問題:MLLM 的文本和視覺模塊采用不同的嵌入策略,使得視覺和文本信息沒辦法無縫融合,限制了模型性能的進一步提升。
針對這個問題,Ovis 采用了視覺 tokenizer+ 視覺嵌入表 + 大語言模型的架構。
Ovis 借鑒了大語言模型中的文本嵌入策略,引入了可學習的視覺嵌入表,将連續的視覺特征先轉換爲概率化的視覺 token,再經由視覺嵌入表多次索引加權得到結構化的視覺嵌入。
文本方面,Ovis 沿用當前大語言模型的處理方式,文本 tokenizer 将輸入文本轉化爲 one-hot token,并根據文本嵌入表查找到每個文本 token 對應的嵌入向量。
最後,Ovis 将所有視覺嵌入向量與文本嵌入向量拼接起來,經由 Transformer 處理,完成多模态任務。
此次開源的 Ovis1.6,相較于前代 Ovis1.5,還在架構、數據、訓練策略等方面做出了進一步優化。
架構方面,采用動态子圖方案,能靈活應對不同分辨率圖像特征,提升了模型處理複雜視覺任務的能力。
數據方面,Ovis1.6 在訓練中涵蓋了多種類型的數據集,包括 Caption、OCR、Table、Chart、Math 等,确保模型在廣泛的應用場景中都有出色表現。
訓練策略方面,采用 DPO 等方案持續優化模型性能,增強了模型在生成文本和理解複雜指令方面的能力,使得模型在複雜任務上的表現進一步提升。
消融實驗的結果還顯示,在訓練數據、模型參數、LLM 和視覺底座都保持相同的情況下,與基于 MLP 連接器的多模态大模型架構相比,Ovis 性能整體提升了 8.8%。
量子位還了解到,作爲一項基礎研究,Ovis 目前已經被廣泛應用到了阿裏國際的實際業務中。
AI 能力變革出海電商
正如大家所知,阿裏國際是一家 AI 驅動的、擁有多個全球知名電商的公司。
而事實上,出海電商這個場景,早已第一批被 AIGC" 滲透 "。
原因很直接:做出海生意,往往面臨海外市場複雜、成本和競争壓力大、跨境人才短缺等等共性問題,而多模态大模型這樣的 AIGC 技術,恰恰能在這些問題上,提供适配的降本增效方案。
舉個例子,在跨境電商領域,退貨退款一直是影響用戶體驗的重要因素。
傳統方案是人工進行退款退貨的審核和判責。這不僅需要大量審核人力和較久的審核時間,還會因爲人工主觀的評判标準不一,導緻判罰的不穩定性較高。多數平台爲了保證用戶體驗,傾向于給消費者更多的傾斜,但這也傷害了部分商家和平台的權益。
現在,基于 Ovis,阿裏國際融合過去積累的大量電商知識,上線了智能退款系統。
相比于人工,Ovis 針對用戶提供的退貨退款圖文和視頻詳情,可以提供秒級的審核服務,且具有高度穩定的一緻性。這就在保證消費者和商家公平權益的同時,實現了快速低成本的退貨退款方案。
另外,在商品屬性提取、生成賣點等場景中,Ovis 也已落地應用。
阿裏國際 AI 團隊,正是在如此預判下成立試跑的。而就在成立這一年多時間裏,阿裏國際已經實現 AI 能力在跨境電商領域的規模化應用:
AI 發布商品達到百萬規模,并且通過 AI 優化,這些産品在海外的搜索量提升了 37%。
AI 能力覆蓋營銷、客戶服務、商品發布、設計、合規等 40+ 應用場景,服務全球 50 萬商家。
阿裏國際 AI 能力日均超 5 千萬次調用,規模每兩月翻番。
……
Ovis 之外,阿裏國際還構建了多語言增強大模型 Marco,電商版多模态大模型 MarcoVL,提供的 MaaS 服務包括:
多語言文本生成技術:爲商品詳情描述适配當地語言,讓 AI 爲商品介紹改寫優化多語言标題,突破語言和文化壁壘。
AI 圖片處理,比如一鍵生成多張虛拟試衣效果。
以及智能消除、智能摳圖等圖像設計類能力。
可以說,從創立店鋪到市場營銷,再到售前售後,在出海電商的各個環節,阿裏國際都已提供相應的 AI 技術予以輔助——
潛移默化中,AI 已經完全改變商家的工作方式和生産效率。
△店鋪設計來自 AI
大模型之所以能在各行各業掀起驚濤駭浪,核心原因就是對生産力的解放和降本增效。
在這一波變革之中,對于阿裏國際這樣的平台而言,AI 技術能力再次成爲最受關注的核心競争力。
而借助平台之力,出海電商商家已經開始第一批享受擁抱 AI 的紅利。
對于廣大開發者而言,來自于實幹家們的開源貢獻,亦是福音。
Ovis1.6 開源地址和 Demo:
arXiv: https://arxiv.org/abs/2405.20797
Github: https://github.com/AIDC-AI/Ovis
Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>