日前,支付寶上線了全新 AI 視覺搜索産品 " 探一下 "。用戶遇到感興趣的事物,就能夠讓 AI 通過攝像頭," 探一探 " 花草動物潮玩、做旅遊的随身講解、查詢商品藥品詳情等。
距離螞蟻集團正式提出 AI 戰略僅一年時間,AI 對傳統應用的覆蓋已如此全面而深入。就拿支付寶 App 來說,2024 年以來,支付寶接連發布 " 支小寶 " 等 AI 獨立應用以及智能體開發平台,支付寶 App 當中也集成了各種智能助理。支付寶此次的 " 探一下 " 則是聚焦視覺多模态賽道的一次嘗試,其體驗到底如何呢?
進入 " 探一下 " 主界面後的第一件事就是定格攝像頭獲得的畫面并開始生成分析結果,這一套操作差點讓小雷沒有反應過來。但換個角度想想," 探一下 " 本身是集成在支付寶掃一掃當中的擴展能力,并不是獨立的 App,通過搜索進入可能不是最好的交互方式。
功能劃分上," 探一下 " 主要有 " 探知識 "" 探靈感 "" 探文字 ""AR" 四個選項,最後兩個其實是常規的文字識别和 AR 顯示,小雷認爲前兩個功能才是 " 探一下 " 的核心能力所在。
(圖片來自雷科技攝制)
" 探一下 " 和其它主流視覺識别型 AI 的工作原理相差無多,都是通過識别并分析攝像頭傳來的畫面,不同之處在于," 探一下 " 會在捕捉畫面主體後主動生成識别結果,還可以根據圖片特征關聯商品信息,像是結合了拍圖搜物的能力。後者則是需要用戶向發起提問,比如希望獲得畫面當中的什麽信息,AI 才會分析,但可能由于沒有對應的接口,一般不會生成具體的産品型号等信息。
和常規的視覺識别大模型 APP 不一樣," 探一下 " 在生成識别結果之後會進一步發散,識别的範圍很大,綠植、飲料、食物等都可以識别。比如小雷識别了眼前的腸粉之後," 探一下 " 會基于識别結果提供額外的生成選項,例如 " 腸粉的起源地 "" 腸粉與廣東早茶文化有何聯系 " 之類的。個人感受來說,如果當下小雷遇到從未見過但又很好奇的事物," 探一下 " 的探知識能力的确會是一種相對有效的引導。
(圖片來自雷科技)
網傳 " 探一下 " 能夠準确識别各個版本的奧特曼,小雷用一個動漫手辦嘗試了一下,結果并沒有網傳的厲害,大概是數據庫沒有對應的角色。
換作是菊花茶這種有明顯商品特征的識别結果," 探一下 " 會在探知識的選項當中接入商品鏈接,這就是小雷前面提到的拍圖搜商品的能力,這在日常中可能會用得比較多。隻不過目前 " 探一下 " 識别結果的準确性還有提升空間,就比如它會将小雷手上的華爲 nova 13 Pro 識别成華爲 P50 Pro,猜測識别的準确性與數據庫、攝像頭畫面有一定的關聯。
小雷還發現 " 探一下 " 在識别上的一些細節,當系統直接框選或摳出重點物體時,識别結果和發散内容可能會多一些(增加探商品、探實物等詞條),如果保留原始畫面,一定程度上說明識别結果不一定準确。
而 " 探靈感 " 則類似于看圖配文,提供 " 幽默 " 和 " 治愈 " 兩種文本生成風格,前者會以漫畫對話氣泡展現,有點像是物品的 " 内心 OS" 之類的,看起來還算有趣," 治愈 " 就是正能量文本輸出,這些文本内容都是基于 AI 對畫面内容識别之後延伸出來的答案,把視覺識别與 AI 幫寫結合在了一起。
簡短體驗下來,小雷認爲支付寶 " 探一下 " 更像是一種帶有玩樂和創意屬性的生成式 AI 輕應用,它不會針對畫面内容輸出具體的識别結果,而是簡化識别結果,并以科普、搜同款、AI 創意文案這幾點爲核心,可以把它看作是 " 随身講解 "。
但本質上小雷認爲 " 探一下 " 的出現還是支付寶對本土服務的整合,比如以圖搜商品之類的,再通過 AI 視覺識别和知識科普、文字靈感推薦這樣的親民玩法,帶動更多人使用 AI 功能,亦或是引導用戶養成一種全新的搜索習慣。
前面聊了關于支付寶 " 探一下 " 的體驗和玩法分析,爲了弄清楚和常規的視覺模型 App 區别在哪裏,小雷找來了理想同學、智譜兩款支持視覺識别的 App 進行簡單對比。
小雷前面有提到,支付寶 " 探一下 " 不需要用戶主動發文,也不會輸出攝像頭畫面的具體分析結果,而是跳過這一步驟,直接提供知識科普、AI 個性化文案這樣的發散選項。作爲對比,常規的視覺大模型 App 先是收集畫面内容,再等待用戶提問,往往能夠得到十分具體的畫面解讀。另外," 探一下 " 不支持文字輸入,它就是單純的視覺識别。
都是畫面識别," 探一下 " 走的是一條不同于常規視覺大模型的道路,後者強調看到了什麽内容,前者強調的是物體背後的内容(購物鏈接、曆史背景等)。面對同樣的現代風格建築畫面,理想同學和智譜的解答方向是一緻的,智譜的解答更詳細,具體到畫面周邊的元素,以及建築表面可能會被植被覆蓋這樣的細節,甚至還會進一步猜測這張圖片所處的環境。
(圖片來自雷科技,圖一爲 " 探一下 ",圖二爲理想同學,圖三爲智譜)
而 " 探一下 " 直接跳過了畫面分析這個步驟,直接擺出 " 石材的使用如何提升建築物的視覺質感 "" 玻璃幕牆在節能方面有哪些技術優勢 " 等,來引導我們進一步了解。事實上,對于正在遊覽景點的人而言,這種發散式的知識科普可能比遊園内的講解器還有用。
識别花花草草,支付寶的 " 探一下 " 還是有點實力,和理想同學、智譜的對比當中," 探一下 " 和理想同學都能準确識别眼前的花卉的品種(千日紅),而智譜輸出成雞冠花。實際上千日紅和雞冠花兩個品種的顔色比較接近,隻在造型上有明顯區分,更考驗 AI 對畫面内容識别的準确性。
至于文字生成、圖片生成一類的,我們就沒有必要折騰支付寶的 " 探一下 " 了,它和理想同學、Kimi、豆包之類的大模型 App 并不在一條賽道上,并不具備查詢資料、寫作、畫圖之類的生産能力,本質上還是一個更趣味的以圖搜索的輕量 AI 工具。
單論視覺識别的話,雖說視覺模型對具體産品的識别能力普遍比較弱,但支付寶 " 探一下 " 的識别水平至少不弱于主流,得益于背後有本土服務等數據資源,它的周邊搜索能力可能還比常規的視覺模型更強,比如識别到具體的飲料或藥物,适合什麽時候、什麽人群服用," 探一下 " 更集中于這些日常生活的服務。
2023 年,螞蟻戰略集團對外宣布了 AI 提速戰略,确定了 "AI First",正式将 AI 作爲公司發展的核心戰略之一。如今,除了最近上線的 " 探一下 " 視覺 AI 産品外,支付寶今年也完成了 AI 智能助理的布局,出行、健康、政務等 30 多項場景服務當中,都接入了 AI 大模型能力。
支付寶推出 " 探一下 "AI 視覺産品,本身不是爲了和智譜、Kimi 等主流大模型展開競争,嚴格來說,支付寶和他們完全不在一條賽道上。在小雷看來,無論是智能助理還是 " 探一下 ",又或者是 " 支小寶 " 等 AI 獨立應用,幫助我們解決問題,
廠商狂卷 AI 大模型規模的 " 玩概念 " 時代已經過去,如何讓 AI 落到實處,引導用戶使用 AI 能力,才是當下行業普遍關注的重點。
官方表示,人類獲取的信息有超過 80% 來自視覺,以視覺爲中心的人工智能産品,可以極大地降低人與 AI 交互的門檻。事實上,AI 大模型供應商也在加緊視覺模型的鋪開和開發,Google Lens、理想同學、智譜等視覺模型,利用廣泛知識庫識别、理解視覺内容,已經成爲一種新浪潮。
再加上 " 探一下 " 這種本身帶有一定趣味性的視覺 AI 産品,主打普及知識和娛樂性,而不是常規 AI 大模型那種冰冷的文字輸出,一定程度上更容易讓普羅大衆接受,甚至是将其作爲常用的内容搜索方式。
另外考慮到當前的功能豐富度,小雷并不認爲 " 探一下 " 具備獨立出來的條件。
就目前來看,視覺作爲 " 探一下 " 唯一的識别手段和生成依據,準确度上還有待加強,畢竟它的任務就是做大家的 "AI 眼睛 ",更需要完善背後的知識庫,錯誤的識别結果有時候也會誤導用戶,這是 " 探一下 " 當前需要完善的地方。