圖片來源 @視覺中國
文 | 李智勇
突然看到小度科技景鲲和朱凱華要離職創業的消息,一下子就覺得很有必要再說下智能音箱。智能音箱當年紛繁亂戰,百度其實是其中一隻非常重要的力量,而代表人物無疑就是景鲲。本來以爲大模型可以讓這款産品迎來自己新的想象空間,沒想到卻看到這麽個消息。這實在是爲上一波的智能音箱徹底的畫上了個句号。
智能音箱:産品路線圖上的 "兵家必争之地"
爲什麽說智能音箱是産品路線圖上的兵家必争之地呢?因爲以 AI 爲主打的多模态産品怎麽都繞不過它。
就像喀什之所以重要就在于它是兩條西去路線的交彙處一樣,大山就留了這麽個口子,你想如果要像玄奘那樣西行就怎麽也繞不過這地兒。
智能音箱是智能産品的一個檻,它成了很多同種類産品比如故事機、鏡子等就成了,它不成 AI 大模型的力量其實就在純軟的空間裏憋着,我們設想的多模态産品等就止于想象。在從 Agent 到多模态,大模型想要什麽?中我畫了一張産品的圖,無意間也正好把智能音箱放到了這麽一個中間的位置上。
這産品非常的承上啓下。承上承的就是純軟的 Siri 類助理,啓下啓的的就是各種機器人。(兵家必争之地的一個隐含意義就是這地兒本身不一定有那麽大價值但丢了會很難受)
那爲什麽智能音箱會在這麽個位子呢?
原因也不複雜。
但在回答這問題之前需要區分兩類産品:一類是 AI 爲主打特征的産品,一類是 AI 是輔助特征的産品。
遙控器上也可以放語音交互功能,但那是輔助特征。智能音箱則不是。智能音箱如果 AI 不出彩,這産品就立不住。對于很多産品 AI 是作料,像遙控器那樣輔助其它特征,智能音箱這個産品上 AI 是主菜,别的功能特征輔助 AI。
這是很少的幾款真正靠 AI 特征驅動并且達到一定量級的産品(掃地機器人其實也是)。
對于 AI 主打的産品要麽你處理純粹的數字世界的工作,否則要想走出來和現實世界有交互則需要通過聲光電熱力磁各個維度的不同傳感器,感知現實世界并進行決策等,基于此提供新的體驗和功能。在其中智能音箱主要改變交互,感知和接入現實的程度最淺,也就意味着難度其實最低。如果這麽說不好理解,可以類比導購機器人,顯然的導購機器人需要對現實進行更深層次的感知。
最容易的産品立不立得住基本表示大模型等的新能力是不是能夠走出數字空間,走出想象,獲得一條商業上真的能夠通往現實世界的路。
當然智能音箱可以涵蓋帶屏不帶屏的版本。順道說一句電視不管加多少語音特征都不是 AI 主打的,電視主要還是依賴自己的内容分發通路,核心支撐是它的屏。依賴屏和依賴智能特征很容易混雜,但其實不是一個事。(這個區分和綜合後面會落在 AR 眼鏡上)
如果智能音箱能成立,具身機器人就肯定可以獲得一個比較堅實的基礎,在它上面進行生長,否則就得變成必須靠自己移動的特征、更深層的感知來獲得應用場景上的支撐,這顯然更困難。這就是爲什麽前面說智能音箱可以啓下。
當然反過來也成立,智能音箱都做不好,卻指望一個更難的能成立,這不虛妄麽。
過去做的怎麽樣呢?
我覺得有 70~80 分。
智能音箱的事業其實是一鍋燒成了 90 度的水,或者說打穿 80% 市場壁壘的事。
爲什麽這麽說呢?
因爲如果你說它不成立,它每年也有 3~4 千萬的銷量;如果你說它成立呢,它核心的産品支撐其實回歸到了音箱的特征,隻在極小的一些功能,比如天氣、鬧鍾上保留了一點智能的特色。當然它還可以負責鏈接,比如控制窗簾,但這事也就屬于能用,卻并不出彩。
每天的活躍很難超過 10 次,并且領域很窄。
這導緻了一個不上不下的局面。
所有當初的設想中和入口價值有關的部分都很難成立。沒太看重的,比如變成了單獨的一個消費電子品類,變成一個新的類似電視的産品,它卻逐漸成立了。從這個角度看,藍牙音箱到智能音箱更像是黑白電視到彩色電視的升級,而不是計算機變成電腦了。
從公司運轉的角度看,精細化運營是可以打平的,但很可能價值還不如掃地機器人,因爲單價太低。
從戰略意義上看,對大公司而言它就變的不怎麽有戰略意義了。
這就更讓智能音箱不單在技術上還在市場上成爲一個試金石。
在有用戶基礎的前提下,如果大模型的新勢能還是撐不起它來。那在現實空間大模型就隻能輔助做些邊緣型的産品比如故事機等。(當然這不妨礙純粹數字空間裏面 Copilot 這類産品成立)一旦跨過了這個檻,就不單是音箱,甚至可能會重構手機,讓機器人真的産品化。這就可以打開一個近乎無限的空間。
那實際情況更可能是什麽樣呢?這次能打穿這個應用壁壘,邁過這個坎麽。
有點夠嗆?
至少是下一波 3~5 年後的事了。不是眼前的事。
各種智能硬件所代表的硬應用本質都和感知反饋所能擴充的應用空間有關。
這麽說有點抽象,我們可以類比下智能音箱和 Siri 類助手。
Siri 類助手是真的助手,更像是一個軟的超級應用,實現現在微信借助小程序所能實現的一切功能,雖然也可以推個消息,但本質上是被動被用戶使用,不感知環境的。
但智能音箱則不一樣,它可以有耳朵聽你喊沒喊它,甚至聽是不是有異常的聲音;它可以有眼睛捕捉手勢,甚至看到是不是有老人摔倒然後報警。後者這類對環境感知所支撐的的價值越大,硬應用價值越大,越會成爲一個單獨的品類,否則裝 APP 就夠了,買個音箱幹啥!
所以此前的 GPT4 對智能音箱類産品本質幫助不大,内容生成等更匹配生産力工具(電腦、平闆)。
最近的多模态确實在支撐這個空間。讓感知、決策、反饋的鏈條可以更連貫。
而剛出來多模态版本顯然有很多路要走,但更關鍵的還不是這個,而是這個新品類要想成立,第一關鍵固然是依賴的技術要素成熟不成熟,但更關鍵是則是一種基于現實的想象力。在早期階段甚至都不需要更便宜,而是需要真的好用的新品類,否則和需求和市場之間的通路是堵着的。
挑動這個的難度恐怕不低于創造 iPhone。因爲這根本不是現在這條路繼續走下去,走快點就能走到目的地的工作。
對于智能音箱而言這需要再定義這個品類,打造出除了音樂等内容輸出外更有價值的功能點。這會很像 Pokemon Go 扮演的角色。如果整不出來,單純是裸的模型其實基本沒幫助,也拯救不了智能音箱。
這麽說估計還是抽象,我們舉幾個發散的、不一定行的例子:
比如做英語陪練,那智能音箱上的陪練要能聽的遠,看的見,要拟人真的像一個英語老師,否則就還是手機陰影下的産品。類似的可以有很多拟人的産品,它可以成爲一個能講故事、回答問題的啓蒙老師麽?
比如,在真的足夠豐富的元宇宙裏,它如果代表了你和元宇宙的連接,代表你的分身,那它就有獨立的價值。
這是真的麻煩。希望有人能肩負起這個使命,否則就隻能等 C2C。
而假如 C2C,再假如 open AI 這種公司帶頭來做,并且真的做出來了,那對于硬件産品再經過市場檢驗的兩三年,怎麽也是三年後的事了。
回到大分類
在AI 個體戶的崛起:普通人 " 屁胡 " 的機會、模式和風險中,我們做過一個這樣的總結:
長尾曲線最頭部是通用大模型以及配套的生态,次一級是現有應用的人工智能化和垂直領域的系統型超級應用,尾部會甩開大量人工智能的新應用。這個尾巴有可能比過去應用商店裏的應用甩的長。
現在看來大模型自身,系統型超級應用,長尾新應用中,現在看中間這節是最不通暢的。多模态應用比如智能音箱則正好是其中一個比較大的分支。
這其實很要命的,就像人的腰很關鍵一樣,如果這節起不來,那回卷會把一切基礎設施上比如英偉達、數據等的泡沫擠的幹幹淨淨。(我有個朋友經常關注基礎設施,但其實基礎設施後續走勢的關鍵可能并不在大模型,而在這裏)
小結
順道一說,近來經常看到很多人和 10 年前一樣,又去追論文,追那個科學家的什麽觀點,試圖弄清楚模型到底什麽技術源流,參數是什麽含義等。這些東西要知道,但實在離應用太遠,科研上越熱的離的越遠,所以更應該被折疊,知道一個相對确定的結果就可以了。從應用看技術,其實遠比比從技術看應用更關鍵。不管是 Mac,Windows,還是 iPhone 其實都是從應用看技術的結果,而非相反。