從去年年底到現在,手機端側大模型可謂是 " 百花齊放 ",幾乎所有廠商都已經拿出來了自家大模型殺手锏,前有華爲通過手機助手接入,後有小米 OV 榮耀繼往開來,當然還有之前評測的三星,甚至連魅族都開始準備放棄造傳統 " 智能 " 手機轉而去造 AI 終端。
這樣下來确實能夠看到手機廠商爲了 " 争 " 這塊市場厮殺有多激烈,各種端側大模型排行層出不窮,都在想盡辦法苦口婆心地告訴消費者部署了幾十上百億參數自家算力有多強。
而且從手機端反饋來看,廠商們也都非常努力,還記得 OPPO 趕在大年三十還在開發布會宣布将全面進軍大模型,接着就是魅族的大模型開放計劃,這可讓手機圈再度因爲大模型興起而變得熱火朝天。
在之前評測的文章《三星 Galaxy S24:AI 的終極形态,就是讓你感受不到它的存在》中我也說過了,手機端側大模型實際上已經經曆過三個階段發展:
第一階段是利用問答窗口形式來集成大模型;
第二階段是通過一些具體應用場景,來接入大模型;
第三階段是用大模型 " 重構 " 系統底層功能,颠覆整個操作系統。
但從剛開始的語音對話到現在部分廠商在系統底層全面融合 AI ,在用戶感知這一層,似乎還沒有哪個廠商的 " 聲音 " 比 OPPO 的 AIGC 消除熱度高。
圖源:三星 AI 調整圖片功能
當然一方面 " 顯性 " 成因是 OPPO 推出的 " 時機 " 确實拿捏非常準确,春節期間大家都會外出拍照,AIGC 消除功能基本上能夠用上。而另一方面,對于拍照、消除這樣随時都會用到的功能,似乎是大模型未來發展的 " 隐性 " 發力點。
圖注:OPPO 的 AIGC 消除功能
所以當我第一次聽說小米要在最新影像旗艦上搭載影像大模型算法時,頓時來了興趣。
小米這次深度集成影像大模型算法的小米 14U,到底是否可以成爲大模型深入融合日常功能 " 第四階段 " 的代表呢?
影像大模型究竟是個啥?
認真細緻地使用一段時間後,發現小米 14U 集成的影像大模型優勢和劣勢都非常明顯,但首先需要明白一個事情:小米影像大腦升級爲 Xiaomi AISP,基本上算是對影像算法的重構,這比單純的硬件升級要重要。
簡單來講,小米影像大腦是一套包括融合光學、色彩引擎、仿生感知、加速引擎、生态引擎、ISP 等在内的新架構。這套算法的優勢在于,可以在硬件條件有限條件下,隻利用算法,如光學多領域融、空間融、時間融、光影融合,來提升對于光的使用效率,而且對于硬件性能需求門檻也相對低一些,所以就能夠看到在紅米 Note 這樣的千元機上,通過小米影像大腦也可以實現超低延遲快門以及不錯的成像品質。
圖源:小米
但升級的 Xiaomi AISP 就不一樣了,首先這項技術核心在于,它本身就是依托于 AI 影像大模型的影像架構,和影像大腦相對線性的布局方向不同,AISP 已經融合進入到了光學、影調、色彩、人像四個獨立引擎模塊中。
相當于需要多線程處理,如果想要 " 算得過來 " 就必須有高算力來支撐,而這需要 CPU、NPU、ISP 通力協作來提供,所以當小米中國區副總裁許雯宣布算力可以達到 60TOPS 時,心一緊,這意味着對于搭載老處理器的機型來講,很多功能都無法使用,換句話來講。
圖源:小米
Xiaomi AISP 因爲對于性能有極高要求,或許高通骁龍 8 Gen 3 是能夠實現完整功能的 " 最低要求 "。
此外,接下來問題是,在發布會上宣布的四大獨立模型,所體現出來的功能,真的就和沒有搭載的有翻天覆地的變化嗎?
影像大模型并沒有 " 物盡其用 "
正巧我這裏還有因爲折扣費實在太低,還沒來得及置換的小米 13U,這兩台機器除了主攝傳感器升級之外,副攝的傳感器幾乎完全一樣。13U 搭載的是最新小米影像大腦,在和小米 14U 對比使用影像功能後,我發現目前 AISP 所賦能的一些功能上的表現,确實有一定強化,但對于用戶 " 感知 " 層面來講,做得還不夠。
因爲小米 14U 中最能感受到大模型發揮作用的功能其實并不多。
使用下來,Ultra Zoom AI 超級長焦是影像大模型最接地氣的功能,它可以在 30 倍以上數字變焦拍攝時,調用 AI 大模型來提升光的重繪,進而提升畫面清晰度。
圖源:Ultra Zoom AI 超級長焦
這樣的功能,對于手不穩的用戶或者新手小白特别友好。需要注意的是,目前小米的 AISP 算力雖然已經名列前茅,但想實現計算後的實時渲染畫面還不現實。
那如何讓消費者能夠 " 感知 " 到大模型已經在計算了?小米 14U 解決方式是在取景框下方出現一個 AI 圖标,這就意味着在按下快門後就可以得到 AI 調整後的圖片。
圖源:30 倍以後的畫面會出現 AI 标識
不難看出,經過 AI 處理計算後的圖片在細節上相比 13U 的确提升了不少。不僅畫面清晰了,而且 AI 大模型可以自動識别 " 被瞄準 " 的對象,讓拍攝對象始終處于畫面中央,而小米 13U 在數碼變焦超過 30 倍,成片後雖然有小米影像大腦來進一步計算,但依舊無法和 14U 的畫面對比。
圖源:Ultra Zoom AI 超級長焦
當然這 Ultra Zoom AI 超級長焦也不意味着用起來就一勞永逸,在使用過程中我還是發現了一些問題:
其一,對于能夠激發條件有嚴格限制,必須在光線極好的環境;
其二,被識别物體需要有複雜層次,光滑平面很難激發 AI。
除了 Ultra Zoom AI 超級長焦外,擁有更線性色深和更高動态範圍的 Ultra RAW 功能并非小米 14U 獨占,在小米 13U 上也有這項功能,隻不過沒有經過 FusionLM 融合光學大模型計算罷了。除此以外,像 ToneLM 影調大模型、ColorLM 色彩大模型、PortraitLM 人像大模型這些都直接體現在影像計算中,并不能自主調節,在實用性上并沒有使用大模型消除背景來得更直觀。
圖源:不标注能分清哪張是小米 13U,哪張是小米 14U 拍攝的嗎?
揭曉答案,左邊爲小米 13U,右邊爲小米 14U。
圖源:Ultra RAW
小米 13U 也有 Ultra RAW,對于大衆用戶來講調節範圍足夠大,對于資深玩家來講,小米 14U 動态範圍更高。
影像大模型還有很長路要走
其實早在 2018 年,華爲發布的 P20 就已經利用麒麟 NPU 的算力,實現了多達 19 種場景、覆蓋 500 個識别目标的 AI 識圖功能,在識别後就可以自動調整手機曝光、影調、色彩等等 . 而之後随着影像硬件發展,以及算力的增強,如今我們看到了部分手機廠商提出了 AI 影像大模型概念并付之于應用。
但對于現階段搭載影像大模型的機型來講,能夠真正感受到大模型帶來的最終成片效果提升确實有限,一方面受限于 CPU、NPU 這樣的處理器算力,想有更複雜的拍攝實時預覽也不現實。
而另一方面,在 AI 影像大模型融入手機影像之前,硬件已經有了高速發展,像小米 13U 就通過大底 CMOS、高通光量孔徑、複雜的塗層技術來提升了成像質量,如果使用主攝拍攝幾乎難分伯仲。
但不管怎麽說,影像大模型 + 硬件 " 雙條腿 " 走路的組合,在一定程度上拓展了手機影像成像素質上限,但如何長久發展下去,讓影像大模型可以讓大衆有肉眼可見的提升,才是考驗手機廠商的終極測試。
接下來手機影像的發展,應該在現有尺寸的硬件基礎上,想辦法通過 "AI 計算攝影 " 能力獲得更好的畫面,而不是一味的采用更大的傳感器尺寸。
雖說 " 底大一級壓死人 ",但目前手機影像模塊已經嚴重影響了用戶握持時的使用手感,繼續增加傳感器和影像模組在手機内部的空間其實是一種 " 偷懶 " 的做法。
去年華爲 P60 Pro 之所以大賣,就是因爲它在有限的機身三圍尺寸下,将畫質做到了能夠匹配各家 " 影像旗艦 " 的畫面效果。
而早年間 Google Pixel 的 " 生存之道 ",也是用一顆不那麽主流的傳感器做到非常強大的成片表現,這都是計算攝影的能力,在手機傳感器已經來到 1 英寸的 " 瓶頸 " 之下,AI 計算攝影真的應該發揮更大的作用。