香港也有大模型公司了。
Weitu AI,一家全力打造多模态 Native産品的公司,其創始人王曆偉博士在介紹時,特别強調了 " 多模态 Native" 這個關鍵詞 。
就在前不久,Weitu AI 推出了自家的150 億參數多模态大模型 WeituAI 1.0,在諸多國際權威評測榜單如 MMMU [ 1 ] ,MMBench [ 2 ] ,CMMMU [ 3 ] ,SEED-Bench [ 4 ] 和 MM-Vet [ 5 ] 等上一路高歌猛進。
雖然參數規模不算大,但不僅力壓 200 億參數量以下的同量級模型,甚至在一些榜單直接超車 LLaVA-NeXT-34B、MM1-30B-Chat 等更大模型。
這些評測結果不僅反映模型的性能優勢,也反映了其多模态能力的全面性。
例如,在由俄亥俄州立大學,滑鐵盧大學,卡内基梅隆大學和普林斯頓大學等機構聯合發布的大規模多學科多模态理解和推理數據集 MMMU 上,WeituAI 1.0 取得了百億參數模型中的優異成績,僅次于一系列規模更大的模型,如 GPT-4V 等 [ 1 ] 。
在由香港科技大學、中科院自動化所和北京大學等機構組織的中文學科多模态數據集 CMMMU 上,WeituAI 1.0 在 200 億參數量以下模型中排名第一 [ 3 ] 。
探索算法創新,瞄準多模态交互 Native
爲什麽首先是百億參數模型?
據王曆偉博士介紹,因爲這個參數規模的模型在打造實際多模态場景産品的時候,有非常靈活的想象空間。
此次在這些多模态大模型評測基準上展示了基礎的多模态理解能力,但是目前上述的評測基準大多以理解能力爲主,尚沒有完全展示 Weitu AI 大模型最擅長和最有特點的多模态交互能力。
Weitu AI 針對多模态交互做了很多結構優化,不僅讓 WeituAI 1.0 模型在傳統的多模态理解任務上保持優勢,更讓其在多模态交互 Native 場景大放異彩。
△王曆偉博士
事實上,作爲深耕多模态(視覺和自然語言結合領域)十多年的資深專家,王曆偉博士對當下大模型的局限有着敏銳洞察。
我自己從 10 多年前就開始了多模态人工智能的研究,比如當前非常重要的語言匹配到具體圖像内容(Visual Grounding)這樣的經典多模态任務也是我和合作者們一起在 10 年前就提出來的。雖然最近多模态大模型這個詞語被整個領域反複提及,多模态大模型的發展還有一些重要的問題亟待解決。即使是 GPT-4V 也在很多多模态的任務上表現出亟待提高的一面,比如對多模态細顆粒度的信息理解準确度需要提高等等。
當問到爲什麽會出現這樣的情況,王曆偉博士指出," 原因很多,但是有一個非常本質且當前諸多多模态模型尚未完全解決的問題是, 傳統的圖像文本映射到同一個向量特征空間 ( embedding ) 的表達方法對視覺和跨模态建模具有局限性。 "
目前基于向量空間做跨模态映射表達的局限性,雖然存在很多年,也還沒被完全解決。
舉個最簡單的例子,請思考一個問題,單一的圖像和文本向量空間映射是否具備能夠準确匹配所有細顆粒度信息的能力?
比如,一張圖有一隻白色的羊站在草地上吃草,那麽什麽樣的文本描述在映射空間裏面才真的是适合這張圖的? 是更加細顆粒度卻細節容易出錯的,還是更加粗顆粒度但不容易描述出錯的?
這個問題其實很本質,反映了單一的映射向量空間很難解決的問題。也恰恰是這一點,也體現在爲什麽現在許多多模态模型對數字,或者對圖像内容細粒度理解和可控的生成還有很多地方需要完善。
總結起來就是,多模态大模型技術其實還有很多可以改進的地方,而 Weitu AI 也在不斷探索算法上的創新。
尤其是,我們瞄準自己多模态的長期積累優勢,提出新的多模态大模型更多地側重在 " 多模态交互 Native", 因爲我們努力打造的也正是多模态交互 Native 産品。
技術驅動産品," 雙輪驅動 " 成就多模态新機遇
在王曆偉博士看來,一款成功的多模态 Native 産品,離不開技術和産品力的 " 雙輪驅動 ",缺一不可。
不論是 B to C 的平台産品,還是 C 端的 APP 産品,從多模态交互 Native 這一點來看,核心都是讓交互的效果和體驗因爲人工智能多模态技術的應用而達到最佳狀态, 從而成爲新的産品習慣。而這件事的意義絕對不亞于大家用鍵盤打字輸入搜索引擎框帶來的産品習慣。
和移動互聯網時代的産品相比,要打造一款成功的多模态 Native 産品有何不同?
王曆偉博士認爲,需要同時滿足兩個因素:第一個是産品力,第二個就是人工智能多模态技術。
這也讓真正好用的多模态智能産品的出現變得有挑戰,因爲這兩個要素是耦合在一起的。我覺得,多模态 AI 技術的臨界點和誕生成功的多模态産品的時間點也會是耦合在一起的,而能夠擁有這樣機會的公司,一定是同時具備多模态技術能力和産品力的公司。 我覺得 Weitu AI 正是往這個方向上努力,因爲我們具備對多模态場景的理解,對用戶的同理心,對技術的孜孜追求和自信。
據悉,截止到 4 月,Weitu AI 的多模态圖像語言理解等技術被全球化的産品公司調用功能即将超過一億次,而且這個數字會未來會持續增長。
但在王曆偉博士看來,這還遠遠不夠。
他認爲,Weitu AI 的細粒度跨模态理解能力持續給這些全球化的客戶平台公司輸送提高産品智能交互能力的 " 燃料 ",而且這種細顆粒度理解能力隻是 Weitu AI 多模态着力打造的多項技術優勢中的一種。
不僅如此,Weitu AI 自己的一款充滿想象力的 C 端産品也在努力打造中。未來 Weitu AI 将緻力于打造豐富的多模态交互 Native 産品矩陣,而這些産品矩陣的基礎,就是 Weitu AI 不斷進化和發展的多模态交互大模型。
大模型技術的發展,需要場景應用的叠代。而公司自建産品矩陣,正是構建場景閉環的關鍵一環。
好的商業模式和産品力,能讓有理想的多模态公司跑得更快、更有信心。
站在用戶和市場的角度,多模态大有可爲
最後,王曆偉博士分享了他對創業的感悟 :
創業者要有同理心。一方面,對用戶的同理心,能讓團隊打造出優秀的産品;另一方面,對市場和投資者的同理心,又能讓公司的技術理想走得更遠。
Weitu AI 的故事,恰恰诠釋了技術與産品力的 " 同理心 "。他們在多模态技術的攻堅上不遺餘力,更以對用戶痛點的洞察,爲這項前沿技術找到落地的場景。于是,我們看到的不再是簡單的技術堆砌,而是與人的交互習慣深度融合的 " 多模态新産品 "。
如果對打造這個新産品感興趣,歡迎多模态大模型、AIGC、模型訓練、推理和部署等方向的技術研發,前端和後端工程師,C 端産品經理、産品運營、産品增長等方向的優秀人才投送簡曆至: [email protected]
商務洽談,也歡迎郵件聯系[email protected]
評測榜單鏈接 (其中 WeituAI 1.0 模型名稱 Weitu-VL-1.0)
[ 1 ] https://mmmu-benchmark.github.io/
[ 2 ] https://mmbench.opencompass.org.cn/leaderboard
[ 3 ] https://cmmmu-benchmark.github.io/
[ 4 ] https://huggingface.co/spaces/AILab-CVC/SEED-Bench_Leaderboard
[ 5 ] https://paperswithcode.com/sota/visual-question-answering-on-mm-vet
* 本文系量子位獲授權刊載,觀點僅爲作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~