“AI視頻通話”産品化的三條路

" 做 AI 産品經理太難了。" 近期腦極體的同事參加了一場開發者大會，一位産品經理向我們坦言："AI 時代，做産品的方法論沒變，但以往熟悉的東西幾乎都被清零了。"

用戶需求被清零了，大模型到底能用來做什麽，用戶自己是不清楚的，需求是空白的，需求調研、産品定義，就要花費好幾個月的時間。

好不容易定義好了，基礎模型的一個更新，就有可能将前期所做的工作、功能規劃等推倒重來。

" 比如 GPT-4o 出現之後，語音對話的能力是我們完全意想不到的，就又得把産品開發過程再來一遍…… "

而縱觀一年多來推陳出新的數百個大模型，GPT-4o 可以說是産品化程度非常高的一個了。

比如 OpenAI 發布會上展示的 "AI 視頻通話 "，使用戶與 AI 進行實時的、跟真人對話一樣自然的視頻交流。國内模型廠商也很快推出了類似的 AI 視頻通話功能，不少媒體和用戶都表示 " 體驗炸裂 "。

但半年時間過去，發現在最初的震驚與新鮮感過後，在真正的軟件生态裏，還是沒有看到 "AI 視頻通話 " 被大規模、高頻率地用起來，更别提激活用戶的付費欲望了。爲什麽會這樣？

我們就從 "AI 視頻通話 " 說開去，聊聊 AI 産品化、商業化到底要經過哪些磨砺。

鑽石原礦被開采出來，其實并不璀璨奪目，是經由工匠們的切割打磨，被鑲嵌成鑽石首飾，包裝爲 " 愛情象征 "，才走進大衆消費市場，價值實現了百倍千倍攀升。

類 GPT-4o 大模型就類似于原礦，作爲 " 交互天花闆 "，潛在商業價值很大，但必須經過産品化的精細打磨與包裝，才能被大衆用戶廣泛接受，實現其真正的價值和應用潛力。

而基于類 GPT-4o 所誕生的 "AI 視頻通話 "，雖然向産品化邁進了一步，但依然屬于原型的基礎能力。

盡管 OpenAI、智譜等模廠已經針對 "AI 視頻通話 " 這一應用，打磨了諸如響應速度、具體用例等産品側的細節，并融入到 ChatGPT、智譜清言 APP 等産品當中。但作爲一種軟件應用來說，這種與通用場景相結合的落地模式，還是比較粗陋。

首先，需求過于寬泛。

AI 視頻通話，技術上相當于讓 AI 擁有 " 眼睛 " 和 " 嘴 "，具備察言觀色、跟真人對話的能力。這很容易就讓人想到 AI 陪伴，人與 AI 談天說地、談情說愛。

直接将 AI 視頻通話能力嫁接在聊天機器人上，本質依然是 AI 聊天，能力升級，但無法解決 chatbot 商業價值低的核心問題。

AI 視頻聊天，用戶容錯率高，不在乎 AI 偶爾犯錯或出現幻覺，這也意味着對基礎模型能力要求不嚴苛，無法在技術層面拉開差距。曾經的智能音箱大戰、智能助手紅海，也會在 AI 視頻聊天領域出現，并且由于聊天并不能幫助用戶完成具體任務或解決問題，用戶還得自己琢磨在視頻裏跟 AI 聊什麽，沒一會兒就隻能跟 AI 面面相觑，難以帶來确定性的産品滿足和持久粘性，新鮮感過後就會流失。

而一些直接用途，想要普遍應用，也有大量細節仍待填充。

比如基于 AI 視頻通話的無障礙功能，是一個非常直接的落地場景。AI 視頻通話，可以将設備攝像頭作爲 " 眼睛 "，幫助人去理解物理世界，這對視障人群豈不是很友好？

但實際上，大模型 APP 的視頻通話功能，是無法直接被視障人群用起來的，還有大量的産品細節需要考慮。比如我們曾體驗過實時圖像識别，AI 隻能認出 " 面前有兩張卡 "，但哪張是公交卡，哪張是銀行卡，是無法準确識别的，這就需要基于視障群體出行接觸的高頻物體，進行針對性地精調。

而且，在飛機、高鐵、地鐵等弱網、無網環境下，也要保證視障人群與 AI 視頻通話的實時性，就需要純端側運行的多模态大模型，将模型做小、計算效率做高。

産品設計層面，還有大量的細節，還等待着填充，才能轉化爲用戶可以方便使用的産品和服務。

可以看到，沒有更細緻的産品化，盡管 "AI 視頻通話 " 這一基礎能力很厲害，卻不知道能用來幹什麽，很可能導緻技術找不到市場，倒在了産品化變現的黎明到來之前。

這個 " 至暗時刻 " 會發生嗎？

欣慰的是，我們發現 "AI 視頻通話 " 能力，已經開始向行業輸送了，意味着這座 AI 基礎能力的 " 原礦 "，終于開始被打磨成晶光四射的鑽石。

我們就從 " 原礦 " 流向的應用領域，來分享幾個 "AI 視頻通話 " 的産品化方向。

大模型怎麽落地？智能體是方向。

智能體怎麽服務？+AI 視頻通話事半功倍。

如今，手機軟件承載着我們日常的絕大多數服務，在各個應用中來回跳轉、操作是非常繁瑣的。

今年以來，榮耀、vivo 等廠商都在基于智能體打造一系列創新功能體驗，比如 " 一句話點奶茶 "" 一句話訂餐廳 " 等。用戶隻需要向手機助手發出指令，手機智能體會自動理解需求、拆解任務步驟、調取相關功能，一站到底地完成任務。

Agent 手機就很好地解決了數字服務鏈路長、操作繁瑣的問題，但新的問題又來了，那就是智能體還需要 " 看得懂 "" 能交流 "。

舉個例子，在外賣小程序下單時，遇到廣告是常态，這時候需要智能體 agent 執行準确的操作，比如 " 點擊關閉 "" 跳過 " 等，來推進到下一步。如果智能體無法識别相關内容，必須用戶自己動手操作，那整個鏈路就被打斷了，用戶體驗會非常不好。有跟智能助手通過文字 prompt 交流的功夫，用戶自己就能點開程序完成下單了。

Agent 手機 + 視頻通話，就能用戶體驗更進一步。

比起打字的繁瑣、語音尴尬症，在人機對話時，像跟真人面對面交流一樣，通過語音對話完成下單，更符合直覺，也更有被服務的舒适感。對話之後，大模型對視頻畫面進行實時分析，指導智能體來自動執行，整個體驗會從頭到尾絲滑無感。

目前，國内終端廠商在端側智能體方面走得是更快的。腦極體在 VDC 2024 大會上了解到，藍河操作系統增添了視覺感知能力，讓系統像人類一樣 " 聽得懂 "" 看得清 "。智能體能夠模拟人類的智能，助力操作系統像人一樣進行溝通、執行智能任務。

如果說，智能體可以讓人成爲數字服務的最小參與者，那麽在智能體手機中打磨的 AI 視頻通話，則讓人機交互朝着更理想、更符合直覺的體驗靠近，讓數字生活管家走進現實。

将 AI 視頻通話功能集成到垂直應用軟件中，可以變成拟人化的垂域專家，提供更專業的服務，解決更具體的問題，從而激活用戶的付費意願和模型 API 經濟。

目前，OpenAI 爲 GPT-4o 預設了十幾個場景，清言視頻通話 API 上線智譜開放平台時，也列出了智能硬件（VR 眼鏡）、教育培訓 AI 私教、文旅場景 AI 向導、具身智能等落地方向。通過将 AI 視頻通話 API 開放出來，鼓勵開發者在産品中集成 "AI 視頻通話 " 功能。

9 月 24 日，多鄰國（Duolingo）在第六屆全球分享大會上，推出了 AI 視頻通話（Video Call）。Duolingo Max 用戶可以與多鄰國的角色 Lily（拽姐）進行視頻通話，進行個性化的互動練習。在對話中，AI 會根據用戶的語言水平靈活調整内容。

學習語言最難的就是高頻使用環境和開口說話的心理障礙，通過 AI 視頻通話提供實時的對話機會，可以讓小白初學者也能自信開口，進行有效聯系。據說，多鄰國的這一新功能接入了 OpenAI 的高級語音 API 功能。

國内頭部社交軟件 Soul，也上線了 AI 聊天機器人 "AI 苟蛋 "，可以主動跟用戶找話題，并且年底将開啓 AI 陪聊機器人的視頻通話服務。不同于泛泛聊天，Soul 主打的是靈魂交友，平台用戶傾向于開展深層交流，探讨深度話題，尋求心靈共鳴。

在這種較爲成熟的社區氛圍下，用戶在使用 AI 視頻通話的預期、内容也是較爲明确的，不會出現不知道聊什麽的情況。

各行各業都存在大量需要互動的場景，可以跟 "AI 視頻通話 " 相結合提供拟人化體驗。但用戶能否由此對應用和 AI 視頻通話産生黏性，還需要行業夥伴把使用門檻降到最低，這不僅需要行業擁有産品開發的能力與意願，能夠洞察缺口與機遇，也需要模廠的生态支持。

從哆啦 A 夢到阿童木、賈維斯、Her，這些讓人類感覺友好溫暖的 AI，都是拟人化的。也許說明，我們更願意跟更像人類的 AI 打交道，而不是冰冷無形的機器。

一位智能機器從業者告訴我們，一開始設計的新車隻有虛拟的語音助手，用戶上車之後覺得跟空氣說話很尴尬，激活率不高，所以設計了一個帶有屏幕的車載控件，可以跟車主打招呼、有表情，車主很喜歡跟它對話，逢年過節還會爲它買各種裝飾物，把它當作用車場景中的家庭一員。

從這個思路看，AI 視頻通話其實可以被加入各種硬件當中，與用戶展開真人一般的對話，從而成爲情感共同體，由此衍生的商業空間也非常充裕。

透過 AI 視頻通話，相信大家能夠感受到，無論是 AI 企業或普通大衆，對于 AI 産品化的需求越來越實質。

模型技術隻是能力，是原型，而遠不到普遍可用的階段。唯有通過産品化的細緻打磨，AI 這座商業富礦，才能真正顯露出鑽石般的光芒。