文 | AI 鲸選社,作者 | 曉睿,編輯 | 楊曉鶴
2023 年的這時候,很多人都在講,所有的産品都值得用 AI 再做一遍。
前阿裏的 CEO 張勇說:" 面向 AI 時代,所有産品都值得用大模型重新升級。"
百度的 CEO 李彥宏說:" 百度還要做第一個把全部産品重新做一遍的公司,用 AI 原生的思維重構産品。"
不過,這些都是大佬們發表在去年的話。在國内大廠卷了一年後,大模型的概念炒作階段已經過去,随着 AI 升級後的效果顯現,人們對大模型技術逐漸祛魅,大佬們開始思考,AI 的機會到底在哪。
尤其近期有媒體報道,被稱爲 "AI 六小虎 " 的 6 家中國大模型獨角獸(智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰)中,已經有兩家逐步放棄預訓練模型,業務重心轉向 AI 應用,但産品端并沒有見多大動作。
李彥宏也冷靜了下來,他開始思考大模型的能力如何在業務和場景中應用。" 簡單機械地往産品中集成大模型的能力,意義不大,純屬過度焦慮。"回望去年他曾發表過的言論,今年的這句話似乎有些反轉,但停下來思考技術如何服務于業務場景,确實是回到了正确的道路。
的确,這次 AIGC 的浪潮可以應用在非常廣泛的領域,如果 AI 真的如我們想象的那樣無所不能的話,那這些領域可能早就出現現象級的 AI 産品了。
但事實卻是,在現有 AI 能力的支撐下,可能隻有 10% 的産品值得用 AI 再做一遍,其他 90% 的産品加了 AI 後,90% 的人嘗鮮後就會忘記它,還有一部分人甚至會對 AI 産生反感,以及覺得 AI 很雞肋。
90% 的 AI 功能都很雞肋
如果我們把 AI 産品分爲兩類,一類是 AI native 的産品,像豆包、通義千問、文心一言這類純 AI 的對話類産品,這類産品如今已有了千萬級用戶量級的産品誕生,但和移動互聯網時代的微信 QQ 10 億 + 的用戶量級還差得很遠,留存率也是一個非常大的問題。
這類産品很受關注,但另一類 AI 産品也同樣值得關注,就是在原有的業務上如何利用 AI 做賦能,讓移動互聯網時代的 APP 能利用 AI 煥發新生。
最近新出的支小寶,就是這類産品的典型代表,它剛出現時讓不少人眼前一亮,用 AI 提升服務的質量的想法也很好。但細究整個操作路徑,改善有限。它本應該幫助人節省時間,提高效率,但支小寶有些能力反而拉長了原來支付寶的使用鏈路。
舉例,如果一個用戶想坐公交,需要刷公交碼,那他可以用手機的 NFC 直接刷碼上車,不需要打開任何 App 就完成了這個操作。即便是沒有 NFC,也可以把交通碼直接放在桌面,一鍵點開,耗費時長不到 2s。但如果我用支小寶坐公交,我需要把 APP 打開,點開對話,再輸入指令 " 我要坐公交 ",等待 2-3s 加載出來,這個過程至少需要 5s 以上。
其次,從支小寶的 AI 能力上來看,大部分功能并未發揮出 AI 的能力,隻要跳出産品定義好的指令模闆提問,支小寶很快就會出現難以識别用戶意圖,回答無意義或瞎答的情況。現在大部分的功能看起來是通過産品側,定義某個問題的回答模闆,然後調用之前支付寶已支持的接口。
拿【查下我的社保】來舉例,其實就是把原來支付寶社保小程序那個接口調了過來,然後 app 自動讀取了你支付寶的個人信息,通過你的個人信息決定調哪個城市的小程序,如果是北京就會調【京通】,然後你就能在支小寶裏進入這個小程序了。這個和你在支付寶裏搜【社保】顯示的内容沒有任何區别,這裏到底哪裏用到了 AI 能力,好像也沒有用到。
不管怎麽說,支小寶給 AI 服務生活開了個好頭,并且造勢造得很大,這點還是勇氣可嘉的。不像其他的一些我們熟知的 APP,大多都還在内測階段,産品經理們把 AI 助手的入口埋得很深,生怕用戶發現了它們的能力還很弱。
生活領域,頭部電商 APP 也在努力尋找 AI 的落地場景。淘寶在去年九月就上線了智能助手【淘寶問問】,但目前我隻在搜索欄找到了它的入口,目前主打的功能是輔助用戶購物決策,這的确是一個很好的切入點,但目前給的建議很空泛,對用戶幾乎産生不了價值。
例如,我提了一個 " 推薦幾款沖鋒衣 " 的問題,小淘給我推薦了幾個沖鋒衣品牌的特點,想看具體的還得點擊跳轉。後面綴了一個千元以内的沖鋒衣排行榜的卡片,但這并不是我想要的價位。說明 AI 還不能根據用戶的消費習慣特征進行推薦,這一點不如直接在淘寶的頁面搜索關鍵詞再做篩選,還能更直觀地看到詳情圖和價格。
同爲電商領域扛把子的京東也在瘋狂找 AI 購物助手的應用場景,和淘寶問問的定位很像,京東京言 1.0 同樣也在幫用戶做購物決策,它通過和用戶對話的方式推薦商品,同時可以讓 AI 劃重點總結評論。
體驗下來,發現京東京言的多輪對話理解能力較差,我上個問題在說推薦鼠标墊,中間插了一句無關緊要的話,再回去點我想要的鼠标墊款式,再推薦就變成了 T 裇 ?。
同樣讓我覺得對用戶産生不了價值的還有 AI 劃重點功能,基本隻能對好評進行總結,衆所周知,電商的好評大多是被刷出來的,這種被濾鏡過的内容生成 AI 評價,屬于人爲地讓 AI『報喜不報憂』,看了之後對用戶沒有任何意義。
無獨有偶,用 AI 對評價進行總結的能力在餓了麽也曾上線過,但是目前這個 APP 的 AI 入口都難以尋覓,據說之前上線過又很快下線了,原因可能是産品經理們也發現了,這一功能不僅礙眼,還對用戶産生不了價值,并且還要浪費調用大模型的費用。
未來,或許這一功能可以叠代成讓 AI 能識别真實的評價和刷單的評價,并對用戶評價做出更加客觀的總結和統計分析,差評好評都用更加多維和量化的方式展現出來,還能追溯到原評價的内容,做個完全公正的第三方 AI,但這樣一來,亮出差評又有可能會傷害商家的利益,這确實是一個很難權衡的問題。
再說說國内 Top1 的旅遊類産品,在首頁懸浮球上線了一個 " 攜程問道 ",它能幫助用戶做旅行規劃,也能推薦一些景點,但說實話,攜程問道生成的幹巴巴文字,并且你不知道它基于什麽維度推薦。
所以,我更愛看小紅書的真實用戶給出的圖文并茂的内容,或者直接去看攜程的口碑榜和社區版塊 UGC 發布的内容,現在攜程問道給我的感覺是,很像搜索,但又沒有搜索好用。
大廠産品經理,找不到 AI 的使用場景
吐槽了那麽多,我并不是覺得現有的移動互聯網 app 都不适合做 AI,而是因爲在已有的成熟移動互聯網應用中嵌入 AI 能力,指望 AI 能爲應用帶來指數級的增長,這對目前的大模型能力來說,還有很長的路要走。
核心是很多産品是爲了跟上 AI 的潮流而做 AI,而不是真的在解決用戶的痛點問題。
一個好的産品,首先應該解決用戶的痛點,我們現在處在 AI 風口的時代,同時也是移動互聯網的末期,這個時代有個特點,用戶的痛點基本上都被挖掘完了,每當你發現一個用戶可能存在的某個痛點時,你就會發現市面上早就有對應的産品在做這件事了,很難挖掘到某個用戶沒被解決的需求。所以,通過挖掘用戶痛點,寄希望用 AI 來滿足用戶未被滿足的需求,就成爲一件非常困難的事情。
不可否認,的确有一些 AI native 産品找到了用戶的痛點,并且完成了市場落地。這些産品大多集中在幻覺率容錯程度高的場景。
例如 AI 占蔔,像之前鲸哥在《高學曆年輕人迷上 AI 占蔔》這篇文章裏提到的,月見塔羅這類小衆的 AI 占蔔應用現在都已經落地并且盈利了,其實本質上就是結合用戶的提問和塔羅牌的牌面檢索知識庫,并生成答案的過程,真人塔羅占蔔得到的答案本身就模棱兩可,所以即便是 AI 說錯了答案,用戶的感知也會非常非常低。
例如虛拟女友,也是 AI 應用中最早落地的,這是因爲在聊天的場景中,用戶允許不完美的回應,在聊天的過程中往往更注重情感上的陪伴和互動,而不是追求絕對正确的答案,因此會對虛拟女友的一些小錯誤或不完美之處更加包容。
這些産品發現了用戶的痛點—— AI 玄學産品,滿足了用戶對 24h 随時占蔔、價格又便宜的需求;AI 聊天類産品,滿足了下沉市場裏那些有情感陪伴需求的用戶。但這些需求隻是一小部分人群需要的,看起來并不是大衆普遍存在的一些痛點,因此也很難落地成爲現象級的應用。
幻覺率是大模型幾乎永遠無法避免的問題。因爲訓練 AI 的數據集不可能是完美的,存在着知識上的錯誤或某些内容的缺失,遇到未涵蓋的情況時,AI 就會編出一個答案,讓你覺得煞有其事,但仔細考究就會漏洞百出。
生成式 AI 的本質是是對已有的數據和知識進行向量化的歸納,總結出下一個字符出現的概率。就連蘋果也發文質疑——目前最先進的 GPTo1 根本不具備真正的邏輯推理能力,而是基于訓練數據中的模式進行匹配,而非像人類一樣進行符号和邏輯推導。
有人發現,此前測試回答正确的問題,隻要改動一個小數據,答案大概率就會出現偏差。
論文鏈接:https://arxiv.org/abs/2410.05229
在一些嚴肅場景中,我們發現 AI 落地成功的産品寥寥無幾。爲什麽?因爲嚴肅的場景不允許出現錯誤。
比如在銷售服務客戶的場景,設想如果 AI 來替代銷售服務客戶的話,一是很難對客戶的一些情緒做出回應,二是 AI 總是傾向于 " 讨好 " 用戶,如果 AI 給出了一個錯誤的成交價,這個錯誤到底應該歸結于誰?假使企業宣布 AI 說的不算話,那又會導緻越來越多的用戶不願意相信 AI,依然會直接轉接人工客服。
被寄予厚望的 AI 客服,雖然能給業務帶來銷量的提升,但卻使得客戶的滿意度降低了,有用戶評論:" 作爲消費者每次遇到 AI 客服真的就是怒火中燒,人工客服永遠排不上。"
再比如在出行的場景,AI 在某天告訴用戶的預計起飛時間錯了,導緻用戶錯誤地決定退票,這将給業務帶來多大的損失。
還有些場景 AI 可升級,是大家都明眼知道的,但是囿于其他因素,還不敢廣泛應用,因爲會影響核心蛋糕。
比如百度的 AI 搜索,李彥宏聲稱 AI 搜索的結果永遠不放廣告,用戶對百度上線 AI 搜索功能後評價卻褒貶不一,有人說搜索的效率顯著提升,有人則認爲 AI 生成的内容不僅慢還 " 驢頭不對馬嘴 "。
從百度近期的财報上看,目前 AI 搜索不僅對業務營收貢獻甚微,還影響了百度的廣告變現率,對傳統的搜索業務帶來了沖擊。
大廠難做 AI,小公司更難。因爲大模型需要的算力成本太高,小公司無法承擔得起。
如果是一家小型的創業公司,想要讓 LLM 實現在嚴肅場景下的準确回答,就需要提供大量的優質數據集來訓練模型,大量的人工來進行數據标注,那就要面臨着 GPU 算力、部署算法、大模型成本、人力成本相關的問題,這需要非常高昂的成本。
要不要免費開放給用戶使用,又是一個讓産品經理糾結的問題。如果免費,那就意味着用戶量級一旦增加,會面臨着高昂的成本,而目前 AI 産品又沒有找到合适的商業化方式;如果收費,那就意味着産品的競争力會變弱,一些本就需求不旺盛的用戶依然會選擇保持原有的習慣。
AI 如何賦能現有的業務?
爲什麽 AI 從出現到現在,兩年半的時間,還沒有出現一個殺手級的應用?就連有強大算力、有密集人才、願意投入資金做 AI 的大廠,諸如字節、阿裏、京東這類公司也難以讓 AI 成功賦能現有的業務?
一是因爲 AI 的使用門檻太高,它對于提問者的要求很高,而大多數人不會提問。就像 Perplexity AI 的 CEO 在訪談中說的 " 我們最大的障礙不是 Google,而是人們天生不會提問。" 沒有高質量的輸入就不會有高質量的輸出,這就是爲什麽需要有 AI 提示詞工程,因爲在不同水平的提示詞下,大模型的水平差異确實會非常大。
就拿我公司做的智能助手來說,我們後台看到的用戶提問大多是一些口語化的短句,有人甚至連問題都無法描述清楚,指望用幾個模糊不清的詞讓模型去理解,說實話一個碩士畢業的文科生都很難理解他的意圖,大模型在意圖理解能力上更弱了,它經常識别錯誤用戶的意圖,路由錯了,就會出現答非所問的情況。
爲了讓産品更好地落地,一方面需要提升大模型能力,通過不斷地修複 badcase 提升大模型在垂直領域的生成能力。另一方面,需要引導用戶學會提問,比如在文生圖場景下,将一塊隻有提問的白闆變成常用場景下關鍵詞的選擇,這樣一來用戶的使用門檻就會低很多。
二是目前 AI 還處在初期階段,複雜問題的處理還難解決。雖然在 Coze 上的智能體百花齊放,但這可能需要時間落地産業,就像是互聯網的初期個人建站曾掀起大浪,成爲大廠卻都需要 10 年以上的時間。
現在有一個閱讀類的智能體,主要功能是用戶提供書名,它提供書籍的核心内容和背景資料,使用人數達到了 46 萬。
現在市場共識,智能體是提升 AI 能力的捷徑,通過 Agent 實現複雜問題的拆解處理。很多大廠産品經理,确實在探索智能體解決目前的問題,當然,智能體的工作流如何發揮最大效果,還需要時間探索。
以上兩種方案是以發展的眼光解決問題,目前 AI 已經落地的業務就兩種:
第一種是 AI+ 寫作 / 圖像,AI 的确可以幫助創作者幾秒生成一篇文章或者一個圖像,一些創作者通過生成百次以上獲得滿意的作品,生成完之後還需要對一些細節問題進行二次加工。
不可否認的是,如果一個會提問的作者用上 AI,在信息搜集、内容整理、文章潤色上的效率會翻倍。這一點的确賦能了無數自媒體創作者,有人成功做出來了百萬粉絲的賬号,有人運用 AI 洗稿一個人批量運營了上百個賬号。
圖像領域借助 AI,很多傳統産品也取得了效果,美圖付費訂閱用戶數超 1081 萬,同比增長 50.1%,付費滲透率約爲 4.2%。美圖負責人吳欣鴻表示:" 目前美圖産品的 AI 含量已經達到 87% 以上。" 雖然開創性 AI 技術少,但美圖确實利用開源嘗到了 AI 紅利。
第二種就是 AI+ChatBot,除了我們熟知的豆包、文心一言、通義千問這類産品,AI 情感陪伴類産品也出現了大規模的增長,一些産品如星野、叨叨、Character AI 等一些含有擦邊的虛拟女友類産品已完成了商業落地。
在一些嚴肅場景下,也有一些面向 C 端用戶的 AI 産品,隻是目前還不成熟。例如 Chat Law 能提供基礎的法律咨詢,完成簡單的法律專業文書寫作,醫聯能給人們線上問診,多鄰國的教育大模型能提供語言陪練、學習内容規劃等,螞蟻的螞小财,能提供最新的财報資訊解讀,還能分析某個基金的走勢。
嚴肅場景下的垂直大模型通過增量預訓練,注入該領域的專業知識,并進行指令微調,再運用 RAG(檢索增強生成)來解決大模型在檢索和生成能力上的不足,它能夠讓大模型從外部知識中快速找到與問題相關的信息,然後将這些信息重新整合到現有的答案中,使答案更加豐富具體、符合要求。
但這些場景下的垂直大模型能力尚且不夠,距離能産品化還有很大的距離,還有很多的 corner case 沒有解決,例如如何拒識領域外的問題,如何避免領域外的問題大模型出現 " 幻覺 " 的情況。
不過我相信,随着技術的叠代,未來大模型的能力會越來越強,成本也會越來越低,最終成爲一個人人都用得起,真正走入人們生活,走入千家萬戶的生産力。這就像是在蒸汽機開始的時代,瓦特 1765 年發明的蒸汽機,但過了近百年後,蒸汽機才真正被廣泛使用,成爲高效又廉價的動力來源。
蔡崇信說:"AI 模型訓練就像在教育孩子。" 這句話告訴我們,要對 AI 有足夠的耐心,像培養一個孩子一樣不斷地喂給他成長所需的營養,也許在目前這個階段我們還不能明顯地感知到 AI 對我們的生活帶來的颠覆性改變,但是隻要我們足夠耐心地長期投入,我相信會有一天,AIGC 時代的 " 奇點 " 就會來臨。