大模型的下一場戰争:帶攝像頭的智能眼鏡?
大模型之戰席卷了整個 2023 年,緊接着的是,各大科技巨頭似乎都瞄準了 AI 可穿戴設備,尤其是智能眼鏡!
智東西 12 月 18 日消息,據 The Information 報道,Meta、谷歌、微軟、亞馬遜、蘋果五大科技巨頭都準備将 AI 大模型應用在智能眼鏡等帶有攝像頭的可穿戴設備上。他們認爲智能眼鏡等硬件将成爲 AI 大模型的合适載體,因爲多模态 AI 大模型可以處理聲音、圖片、視頻等多類型的信息。
有知情人士透露,明星 AI 創業 OpenAI 最近也正在将 "GPT-4 with Vision" 的物體識别軟件嵌入到社交公司 Snap 的産品中。這或許将爲 Snap 的智能眼鏡 Spectacles 提供新功能。
Meta 在上周二展示了自己将 AI 功能融入至雷朋(Ray-Ban)智能眼鏡的效果。該智能眼鏡可以通過 AI 語音助手描述用戶看到哪些東西,同時能夠告訴用戶哪件襯衫适合哪件褲子,以及擁有西班牙語報紙翻譯成英語等一系列新功能。
亞馬遜 Alexa AI 助理團隊内同樣有個小組在研發一種新型帶有設覺功能的 AI 設備。此外,和多數手機廠商一樣,谷歌開始嘗試将 AI 功能應用到手機中。
不僅如此,今年 6 月,蘋果 Vision Pro 頭顯正式亮相,計劃在明年出售。但據 The Information 推測,該設備可能剛開始并不會具備多模态 AI 功能。
當一場新的移動終端變革開始,蘋果、微軟、谷歌、Meta 等科技巨頭将會如何布局新的戰場?他們又是如何在各大硬件中凸顯出自己的 AI 優勢?哪些新的 AI 硬件或成爲 AI 大模型的最佳載體?我們通過最新爆料可以看到一場 AI 硬件創新戰正在開始。
01. 谷歌:已适配手機 AI 助手 Pixie,借助軟件爲智能眼鏡提供搜索服務
在上周剛剛發布的 AI 大模型 Gemini 中,展示了一段 AI 是如何根據模仿者的動作,猜出電影名稱的視頻。它還展示了如何猜地圖、如何處理手工問題等細節。
盡管視頻内容可能有所編輯,但是該視頻也透出了谷歌想要傳達的基本思想:打造一款始終在線的 AI,它可以通過人們在看、在聽的東西,給用戶直接的反饋或者幫助。一位直接了解谷歌消費硬件戰略的人士表示,谷歌可能還需要數年時間才能提供這種體驗,因爲這種實施基于環境的計算将會耗費大量電力。
▲谷歌眼鏡
現如今,谷歌正在重新設計其 Pixel 手機的操作系統,希望嵌入較小規模的 Gemini 模型,爲其手機 AI 助手 Pixie 升級體驗,比如說告訴用戶周邊哪裏可以買到他們剛剛拍攝下來的産品。
基于谷歌在搜索技術上長期布局,The Information 覺得基于周圍環境信息,學習和預測人們需要或想要的 AI 設備似乎非常适合谷歌。盡管十年前,谷歌眼鏡失敗了,但是谷歌後續也推動安卓手機廠商們通過手機攝像頭掃描環境并将圖像推送到谷歌,然後基于雲系統進行分析,從而形成 "Google Lens" 的圖像搜索應用程序。
了解該戰略的人士表示,該公司最近取消了眼鏡式設備的開發,但仍在爲該類型的設備開發軟件。這些人士表示,谷歌計劃将圖像搜索軟件授權給硬件制造商,類似于爲三星等手機制造商開發安卓移動操作系統的方式,發揮其 AI 大模型的作用。
02. 微軟:在 HoloLens 上運行 AI 軟件,通過聊天機器人提供多模态語言
在多模态 AI 大模型的熱潮下,微軟研究人員和産品團隊也開始嘗試升級自己的語音助手,并且嘗試在一些小型設備上運行 AI 功能。
根據專利申請顯示以及知情人士透露,其模型可以爲一些平價的智能眼鏡或者其他硬件提供支持。微軟正計劃在其 AR 頭顯 HoloLens 上運行 AI 軟件。用戶将頭顯前置攝像頭對準物體,拍下照片發送給由 OpenAI 驅動的聊天機器人,讓聊天機器人直接識别物體。同時,用戶還可以通過對話的方式,從聊天機器人這裏獲得更多的信息。
▲ HoloLens
03. 蘋果:Vision Pro 發布時或不會搭載 AI 大模型
蘋果 Vision Pro 擁有不少多模态的新功能,但 AI 大模型方面的進展,和其他幾家相比略有落後。目前,沒有任何迹象表明 Vision Pro 在發布時将擁有複雜的物體識别或其他多模态 AI 功能。
但蘋果花了數年時間完善 Vision Pro 的計算機視覺功能,以便該設備能夠快速識别周圍環境。這包括快速識别家具并了解佩戴者是坐在客廳、廚房還是卧室。或許,蘋果正在開發可以識别圖像和視頻的多模态大模型。
▲ Vision Pro
但和其他公司正在開發的眼鏡形态相比,Vision Pro 又大又重,且不适合在戶外日常場景中使用。
另一方面,據報道,蘋果公司今年早些時候暫停了自己的 AR 眼鏡的開發工作,以專注于其頭顯的銷售。目前尚不清楚 AR 眼鏡的研發工作何時會恢複。
04.Meta:已适配雷朋眼鏡,提供 AI 新功能
Meta 首席技術官 Andrew Bosworth 周二在 Instagram 發帖說,部分雷朋(Ray-Ban)眼鏡用戶将能夠直接在智能眼鏡端訪問 AI 大模型。
▲ Ray-Ban
Meta 的一些領導者将雷朋眼鏡視爲 AR 眼鏡的 " 先驅 "。該設備可以将數字圖像與周圍現實世界融合在一起。按照原計劃,Meta 計劃在未來幾年推出 AR 眼鏡,但該計劃遇到了一系列困難。具體而言,有報道稱,智能眼鏡很難吸引用戶,并且新一代顯示器開發遇到了難題。
但多模态 AI 大模型的到來似乎讓 Bosworth 以及其團隊重新煥發了新活力,讓他們了解這款眼鏡在短期内可以爲客戶帶來一系列 AI 新功能。
05. 亞馬遜:開發新 AI 設備系列,或爲智能眼鏡提供支持
今年夏天,在亞馬遜每年兩次的産品規劃中,Alexa 團隊的工程師提出推出一款能夠運行多模态 AI 的新設備。
據直接了解相關項目的人士透露,該團隊特别關注的是如何減少在設備上處理圖像、視頻和語音等 AI 計算和内存的需求。目前尚不清楚該項目是否獲得了資金支持,也不清楚該設備打算爲客戶解決什麽問題,但它與該公司的 Echo 語音助理設備系列是分開的。
此前,Alexa 團隊也曾研發過一款名爲 Echo Frames 的智能音頻眼鏡。該設備不支持屏幕顯示器或攝像頭。目前尚不清楚亞馬遜是否會開發具有視覺識别功能的智能眼鏡。
06.AI 可穿戴設備 + 攝像頭,或成大模型最佳硬件載體
這不是矽谷巨頭們第一次設計這類帶有攝像頭的可穿戴設備産品。此前谷歌、微軟以及其他科技巨頭都曾研發過 AR 頭顯。他們當初希望能夠讓數字屏幕出現在頭顯的半透明屏幕上,逐步提供指引幫助用戶完成任務。但由于光學設計較複雜,最後多數産品反響不佳。
OpenAI 推出的多模态大語言模型,可以通過視覺識别功能,讓 AI 知道人們在看什麽,在做什麽,并且可以對這些行爲、事物提供進一步信息。當大語言模型開始輕量化,一些小型設備也可以搭載模型,能夠即時反饋用戶的請求。考慮到人們對隐私安全的重視,人們可能還需要一段時間才能接受智能眼鏡,以及一些内置攝像頭的 AI 設備。
The Information 覺得智能眼鏡擁有 AI 助手後,或許将會成爲像智能手機一樣變革性的産品。它不但能成爲指導學生數學問題或者論文問題的導師,還可以随時給周邊的人提供環境信息,如翻譯廣告牌、告訴用戶如何解決汽車故障等。
蘋果公司前工程經理,AI 搜索公司 Objective 的首席執行官巴勃羅 · 門德斯(Pablo Mendes)說:"AI 大模型對一切都至關重要,它們将在計算機、手機和其他設備的底層架構中起到作用 "。
07. 結語:科技巨頭尋求 AI 大模型最佳硬件載體
在由 ChatGPT 掀起的第三輪人工智能熱潮中,多模态大模型屬于底層基礎設施,ChatGPT 屬于直接應用,這些都是已經明晰的答案。但 ChatGPT 在哪些設備上才能最大發揮出其應用潛力,哪些設備又是大語言模型的最佳載體?這些成爲 OpenAI、微軟、谷歌等科技巨頭們如今開始摸索的方向。
從 The Information 最新爆料看來,帶有攝像頭的智能眼鏡成爲不少巨頭探索的重要方向,同時也有部分企業開始摸索研發新的可穿戴 AI 設備。又或者,嘗試在手機上适配各類 AI 大模型。
其實不僅是科技巨頭們如此思考。在國内,不少 AR 眼鏡廠商們同樣也認爲這是機遇所在。" 機器人和 AR 眼鏡或許将成爲這波 AI 大模型的最大受益者。" 一位關注 AI 産業十餘年的産業人士說道。
但在同一設計思路下,最後誰能調教出最好的輕量化 AI 模型?誰又能打造出最實用的智能眼鏡?我們将持續觀察各大科技巨頭的進展,找到答案。