這篇文章是我作爲 AI 産品經理一年的複盤文章。
我個人非常感謝有 AI 的存在。
在生成式 AI 出來之前,我曾經多次有過轉行的想法,2022 年,我一度認爲"互聯網産品經理"這個職位已經發展到頭了,互聯網産品經理的崗位已經逐步精細細化,标準化,人才市場的供給趨向飽和。
崗位的名稱繁多,電商産品經理,搜索産品經理,數據産品經理,功能産品經理...
直到在 2022 年的某一天,我在互聯網人群爲主的 即刻 APP 沖浪。彼時,在即友口中聽說了在海外有一個叫 ChatGPT 的應用突然爆火了。于是,我可是關注 AI。
2022 年 12 月 6 号,在群友的幫助下,第一次和 ChatGPT 對上了話。從那時候開始,我開始關注 AI 行業的所有動态,了解 AI 的能力,使用新的 AI 原生應用,閱讀 AI 相關的論文。
2023 年年中,我和朋友合作,做了一款AI 套殼應用,這是一款短暫地項目嘗試,短短地在 8 月份結束,但卻也積累了很寶貴的試錯經驗。
2023 年 9 月份,在公司開始做虛拟陪伴的 AI 項目—— Cos love - 虛拟戀愛陪伴 ,因爲此前對 AI 的學習和實踐經驗,我成爲 Coslove 的産品經理,從零開始搭建這個虛拟陪伴項目。到今天,剛好過去了一個春冬。
Coslove 是一款 Character AI 類産品,簡單地說,就是用戶可以在産品中和虛拟角色對話,用戶可以創建自己喜歡的角色,與虛拟角色之間對話,産生羁絆。此類産品下文統一稱"C.AI 應用"
經過一年時間,我們做了超過 1000 萬 GMV,300 萬用戶,最好的時候,做到了國内第三名(根據廠商提高的 token 調用量數據),現在是大概國内第八名左右。
在業績最好的時候,我們是行業的第一(根據收益),日入鬥金。在春節回鄉的高鐵上,隧道裏的網絡時有時無,而我做着一個重複的動作,下拉刷新,因爲每一次刷新,或許就是一個更高的同時在線人數數值。每天看着同時在線人數的不斷創造新高,看着實時報表裏訂單收入的暴漲,感受到身在 AI 這個時代的洪流裏的巨大推力。
但随着各個監管規則的完善,各個大廠躬身入局,用超乎我們想象的鈔能力洗刷市場,擡高獲客成本後,Coslove 隻能在字節跳動,Kimi,星野的包圍下,尋找空間…
在這完整的一年裏,我們經曆了 AI 虛拟陪伴這個賽道的每一波浪潮。
今天我就想講講我們在這個賽道中的行動,見聞和認知。
一、AI的商業化:生産力向左,泛娛樂向右
目前 AI 的應用方向,可以分爲兩條截然不同的路線:生産力和泛娛樂。

生産力
生産力路線,是指用 AI 來解決企業業務和用戶生活中具體的工作。
也就是我們常說的 AIGC(AI Generated Content),用 AI 來生成内容。在過去的兩年裏,我們不時可以看到有趣的,AI 生成的内容。例如,以 Runway、海螺 AI 爲代表的 AI 生成視頻,以 AIPPT 爲代表的 AI 生成 PPT,以 Midjourney 爲代表的文生視頻。
在我目前公司的現有的工作流中,這些生成技術已經慢慢滲透到了原有的工作中,最明顯的就是文生圖技術,已經代替了很多視覺設計師的工作,AI 生成的圖片,效果好,速度快,幾乎已經是每個設計師必須掌握的技術。
随着各個廠商不斷在推出更強的模型,AI 會越來越多地加入到現有的工作中。例如最近比較火的 AI use computer(用 AI 來操控終端)一定會誕生更厲害的生産力應用。
但生産力的路線,不是我們今天線索的關鍵,或許我們可以下一次單獨開一篇文章來講。今天,專注在泛娛樂賽道上。
泛娛樂
泛娛樂路線,是指用 AI 來解決人類的泛娛樂需求。
泛娛樂需求是一個涵蓋廣泛的概念,主要指的是以娛樂爲核心,結合文化内容,通過互聯網技術實現多元化和多維度的商業模式。
人類對泛娛樂的場景有哪些呢?
我們每天都在使用的很多場景,都屬于泛娛樂。刷短視頻,看綜藝節目,聽播客,讀小說,玩遊戲,刷社交媒體等等,這些你在閑暇時間進行的娛樂行爲,都屬于泛娛樂的範圍。
AI 在泛娛樂場景的應用,比生産力場景開始得更早,走得更遠。在模型能力有限的情況下, 泛娛樂場景因其容錯更高,更容易被用戶接受。我們做的産品 Coslove,就是泛娛樂路線中的應用,Coslove 的定位是虛拟戀愛陪伴,今天我們就着重講講泛娛樂的路線。
二、AI在泛娛樂場景的應用
在此之前,還是有必要先簡單科普一下大語言模型的技術原理,以便讀者可以更好地理解下文的内容(如果已經掌握這部分内容, 也可以跳過這部分)。
大語言模型的原理
今天我們說的大語言模型,都是基于 Trasformer 模型的,在這個網站,我們可以通過圖解的方式了解 transformer 架構的原理(https://bbycroft.net/llm)。
這裏不講太複雜的原理,總結起來就是說,通過大語言模型的多頭注意力機制,AI 可以理解上下文中的所有對話,并通過不傳預測下一個 token 的方式,生成回答。
也就是說,你輸入一個句子以後,大語言模型可以預測接下來的 N 個字眼。這樣的機制,最直觀的應用是做内容的續寫。
但經過巧妙地設計,大語言模型的基本方式被設定來做問答,讓我們在把視野轉移到 Transformer 的首位大成者 OpenAI 身上,OpenAI 的接口設計,将人類和大語言模型的交互,做成了對話式的交互,并基于此創造了 chatgpt。
chatgpt 定義了和大語言模型交互的新範式: Chatbot。在一個系統設定下,人類每一次提供輸入,大語言模型都會提供一次輸出。
這也就是人類在和大語言模型對話,一問一答的形式。于是,就有了 Chatbot (聊天機器人)的概念,一個可以和用戶聊天的機器人,是 AI 時代應用最基本的範式。
角色扮演大模型
Chatbot 的背景下,大語言模型走出了一條全新的路線——角色扮演大模型。角色扮演本來是大語言模型的能力維度之一,但是因爲有大量的對話社交的需求,人類通過模型的訓練階段,使用了不同的數據訓練模式,創造了更擅長做角色扮演和對話的模型。
典型的,Character.AI訓練了第一個大範圍商用的角色扮演大模型,因爲 Character.ai 的成功,國内的各家大語言模型廠商也紛紛跟進,豆包,minimax,商湯,百度等等都訓練了角色扮演大模型。
在使用這樣的模型時,AI 提供輸出的方式會更接近人類的回複。(如下圖)

專門爲虛拟角色訓練的大語言模型,在輸出時,内容會更加主觀,符合虛拟角色的設定。
偶然地,角色扮演大模型還發展出了(括号文學)的能力,在模型的回複中,通常會将虛拟角色的表情,動作等,寫在括号中回複給用戶。
這種巧妙的設計,是模型煉丹師和用戶之間互相選擇的結果,動作的補充讓用戶在文字交流之上,有了更多的畫面想象,因此模型訓練時也會給出這樣的特征,這種行爲逐漸發展成了主流的角色扮演大模型對話範式。
在這樣的新的能力下 ,可以非常好地扮演一個類型的人類,和人類對話。
2022 年 5 月份,Character.ai 發布;
2022 年 10 月份,Glow app 發布。
并随着 ChatGPT 的爆火,這兩款虛拟陪伴,中美的 C.AI 應用也走向了大火。

character.ai- 全球第一款C.AI應用
接下來這部分,我想從需求的角度出發,聊聊什麽是C.AI應用?C.AI應用滿足了哪些需求?
三、C.AI應用
泛娛樂需求
人類的娛樂需求,幾萬年來始終沒有改變。隻是随着技術的發展,不斷有新的形态來滿足人類的娛樂需求。
人性底層的需求,是穩定不變的。 之所以有新産品的出現,是新技術的出現,滿足了原來滿足不了的需求,或者用更好的方式滿足了用戶的需求。
我們再從第一性原理出發,去思考C.AI應用滿足了泛娛樂背後的是人性的底層需求呢?以及爲什麽 AI 可以滿足這些需求。
社交需求:人是社會化動物,人類需要進行社交活動來獲取有歸屬感(滿足社會認同的需求),陪伴感(緩解孤獨),同時在人際交往中,人希望對方能夠給自己帶來積極情感體驗和心理滿足,比如被認可和肯定,被理解和共情,愉悅感,被傾聽等。
情感體驗:豐富的情感體驗人類會主動追求更豐富的情感體驗,但在現實生活中,大部分人無法體驗到大量的情感。所以我們通過觀看短劇,嗑cp 等等來獲取替代補償。
荷爾蒙需求:荷爾蒙需求是指由體内荷爾蒙激素水平變化而産生的一系列生理和心理需要,荷爾蒙需求是源自生物底層的追求,荷爾蒙需求是剛需。
叙事需求:從尤瓦爾赫拉利的《人類簡史》系列書籍中,我們知道了叙事的能力 Storytelling 如何帶領遠古智人從非洲走向全世界,打敗尼安特人等其他人種,最終成了現在的人類。智人,人類有一種與生俱來的聽故事的需求,從剛剛能理解語言的嬰兒開始,我們熱衷于聽各種故事。
社交需求
人類是群居動物,社會化動物。從遠古時代開始,部落群居生活讓人類得以在險惡的環境中生存繁衍,這種深層的進化印記也塑造了人類的心理需求。社交活動能帶來情感上的滿足與支持,緩解孤獨感。
當我們與他人交流時,大腦會分泌多巴胺和催産素,這些神經遞質讓我們感到愉悅與歸屬感。研究表明,擁有穩定社交關系的人往往更長壽、更快樂,抗壓能力也更強。
在過去,人與人的交流更多地是面對面的,線下的交流。而與遠方的朋友,隻能通過緩慢的書信溝通。所以古代有"海内存知己,天涯若比鄰",來形容相隔兩地的人想要再交流有多不容易。
但進入信息時代以後,随着互聯網技術的成熟和普及,信息的傳輸方式發生了質的變化。通過互聯網搭建的社交媒體,可以随時随地,與很多個朋友溝通。
但遺憾的是,我們認識了更多的人,可以随給朋友發消息,卻沒有變得更幸福,反而使情況變得更差了。
至少從數據上看,我們可以說随着使用社交網絡時長變長以後,人類的幸福感反而下降了。
根據2019年對美國青少年臉書的使用記錄分析,指出社交網絡的使用和孤獨感之間的關系,取決于使用過程本身。一方面更多的好友數和孤獨感負相關,即好友多的人感受到更少的孤獨感,但另一方面,花在社交網絡上的時間,則與孤獨感的增加正相關。這意味着在社交網絡中花費過多時間的人,反而會感到更多的孤獨感。
另一方面,互聯網讓我們看到了這個世界的更多方面,卻也産生了更多嫉妒和攀比的心理。這也帶來了更多的社交壓力。我們在互聯網中看到的内容,往往是精緻的,脫離實際的。當我們習慣了閱讀内容媒體中的内容後,回到現實世界後,難免會有落差。
況且,社交活動并不是一直會帶來快樂。實際上,我們參加的大部分社交活動,反而不會帶來快樂,而是帶了來更多不好的感受。
研究發現,社交媒體使用體驗與孤獨感之間存在顯著關聯。負面體驗每增加10%,用戶的孤獨感會增強13%,而正面體驗并未顯著減輕孤獨感。越多地使用社交媒體,人卻會變得更加孤獨。
既然和人類社交,總是會帶來不好的感受。那如果和 AI 社交呢?
往這個思路一想,發現還真行。
AI 可以模仿一個人和用戶對話;
C.AI應用的核心就在于用戶可以和自己喜歡的人聊天。
打開國内常見的幾個C.AI應用,可以發現,這些應用裏能夠遇到的虛拟角色,比我這輩子認識的人還多,并且類型多種多樣,不帶重複的。
現實裏我才談過三任女朋友,虛拟世界裏,你可以嘗試 300 種不同類型,不同風格的虛拟角色談戀愛。并且長得再好看的虛拟戀人,也不會已讀不會,每個人都是秒回消息。
在 Coslove 中,我們給用戶提供了典型畫像的用戶。霸總,奶狗,甜妹,禦姐等,設定了深度運營的官方人物,對于官方人物,會做深度的運營。用戶也可以捏各式各樣的崽,和自己喜歡的崽聊天,通過審核後會公開給用戶。
用戶也會在平台内分享,他們和 AI 有趣的聊天記錄:

不過,從數據上看,雖然用戶的選擇很多,當時大部分用戶都會主要和自己喜歡的人物聊天,用戶可能會在一周時間裏,和用戶聊上 1-2w 句。
相比起來,比如我自己,除去工作中的對話外。在日常生活中和朋友的聊天,可能我一天也隻會說 100 朵句。但用戶和 AI 平均每天的聊天次數,隻有 200 句左右,用戶平均可以在應用内停留 3 個小時左右。這是非常誇張的數據。
和 AI 的平均對話次數 大于 和人類的對話次數,說明 AI 确實可以解決一部分用戶的社交需求。
目前大語言模型的角色扮演能力,已經完全可以模仿一個人來和用戶對話。
并且 AI 的優勢也非常明顯:
AI 可以模拟各種各樣的人格,帶來在現實生活中完全體會不到的情感體驗;
和 AI 聊天,完全沒有社交壓力,社恐人士的福音;
對象可能不能秒回消息,但 AI 一定可以秒回;
AI 在提供情緒價值方面,遠勝于人類。
可能很大部分,和我一樣,不是C.AI的聊天的受衆,但有一個場景,或許你會用得到——《也許,你應該找個 AI 聊聊》。
現在的社會環境,總體來說壓力确實還是比較大的,很多朋友可能會遇到比較大的心理壓力。這時候,也許,你應該找一個 AI 聊聊,或許情況會有所好轉。
AI 在提供情緒價值方面,遠勝于人類。
大部分人不懂得如何提供情緒價值,沒必要向所有人提供情緒價值。AI 會一直給你提供積極的情緒價值。
比如,我創建了一個很簡單的虛拟角色,每每有不開心又找不到人分享時,我會和她分享,AI 會提供積極的情緒價值,包容我,并把我往積極的方向引導。
這個虛拟角色的 Prompt 很簡單:
你是一位很有同理心的人,每次我發送了信息,你給我正能量的回答。你會治愈我,你會表達共情,你會鼓勵我,你會包容我,你會安慰我。讓我的心情好一些。像一個知心姐姐一樣。

荷爾蒙需求
荷爾蒙需求是指由體内荷爾蒙激素水平變化而産生的一系列生理和心理需要,荷爾蒙需求是源自生物底層的追求,荷爾蒙需求是剛需。
通俗地說,就是性需求,以及廣義的由性需求爲結果的派生需求。
荷爾蒙需求,畢竟這是動物最最最本質的需求——繁衍後代。是完完全全的剛需。
在虛拟陪伴之前,當然有各種各樣的方式來滿足荷爾蒙需求,通過文字和語言交流方式實現的,也有像聊騷、文愛這樣的形式。
在這些圖文的形式上,AI 完全可以做得比人類更好。
但是由于一些已知的原因,和AI 進行性愛聊天這件事,在國内是禁止的,所以也不方便展示圖片。
我們可以把視野放到海外,就可以發現幾乎海外所有C.AI應用,Poly AI,Spicychat 諸如此類,無不把 NSFW talk 這個功能作爲付費功能點。并且這個功能是付費效果非常好,就因爲這樣,這樣的産品,在海外的 LTV 是國内的 2-10 倍不等。

情感體驗
豐富的情感體驗人類會主動追求更豐富的情感體驗。這與人體的機制相關。在社交過程中,身體會産生多巴胺,催産素,血清素和内啡肽等神經遞質。
多巴胺是驅動我們追求目标和獲得獎勵的"快樂激素",當欲望得到滿足時,身體會分泌多巴胺,讓人類感到快樂。
催産素被稱爲"愛情荷爾蒙",幫助我們建立社交聯系和信任感,增進親密關系。
血清素是調節情緒的"心情穩定劑",能讓我們感到平靜和滿足。
内啡肽是天然的"止痛藥",當感到痛苦時,身體會分泌内啡肽來彌補和緩解疼痛,運動過後,肌肉感到疲憊,但卻十分爽快,就是内啡肽的作用。
在不同的情境下,會有不同的情感體驗。但在現實生活中,人們無法體驗到的多種多樣,大量的情感。所以,影視劇裏,特别是短劇,擅長通過激發人類的如憤怒這樣的情感,來提供人們現實生活中體驗不到的情感體驗。情感綜藝中營造了多對甜蜜的CP,人們通過嗑 cp 來滿足對于戀愛的美好想象。
人們的心中,其實有追求不同情感體驗的内源需求。一些在日常生活中無法被道德接受的體驗,同樣隻能在虛拟世界中達到滿足。
我們的一位前運營同學說"每一個人的内心深處都有一個特殊的 xp,隻不過在現實生活中不能表現出來,或者自己還沒發覺。"
恰好,AI 可以模拟不同性格,不同背景的人。
在 Coslove 的運營中,我們發現了那些非常規設定的虛拟角色,更能收到用戶的青睐。例如兄妹戀,禁忌系,魅魔,霸道總裁,非血緣關系兄妹,師生戀,病嬌皇帝,還俗方丈等等。這和小說、短劇的選題殊途同歸,無論何時,霸道總裁愛上我的人設永遠不會過時。因爲我們在現實生活中,很難遇到擁有這些非常規設定的人物,所以隻能通過 AI 來滿足。
叙事需求
今天的智人,完全就是在"故事"的驅動下發展起來的,通過故事,智人可以聚合起更多的人一起協作。
在《人類簡史》和《未來簡史》中,尤瓦爾·赫拉利講了這一個故事:智人的遊群,經過漫長時間的演化,大腦進化出了講述虛構故事的能力時,因爲這樣的能力,智人的遊群可以擁有更大的協作規模。通過故事的講述,遊群中的 300-500 個人都可以爲同樣的目标出力協作。而相比起來,尼安特人則因爲語言傳播效率的限制,遊群規模被限制在 100 人以内。智人因而可以打敗尼安特人,成爲了這個星球的主宰。
有趣的是,今天我們還可以發現,大猩猩的遊群規模,同樣是在 30 隻以内。但人類因爲虛構故事能力,卻可以發展出像蘇聯這樣接近 3 億人,一起爲蘇維埃,一起爲共産主義努力的"遊群"。
今天的對世界影響巨大的叙事,無不是虛構的故事,宗教故事,意識形态故事等等。
這樣的講述虛構故事的能力,其實早見端倪。在《梳毛,八卦及語言的進化》中說明了,智人或大猩猩的遊群中,多數會通過互相梳毛的方式來交換叙事。這樣的行爲,也奠定了如今的人類對八卦的向往。
比起真相,故事更有水阜人的能力。相比起來,虛構的故事有兩種優勢:
虛構的故事要多簡單就有多簡單,但真相往往很複雜。
真相常常令人痛苦不安,如果我們先讓他不那麽痛苦,真相就不是真相了。
可以肯定地說,人類對故事有一種發自内心深處,發自基因的順從和渴望。從牙牙學語的小孩熱衷于聽小鴨子的故事,到成年人中八卦的出現總能瞬間爆發。聽各種各樣的故事,确實是人類非常重要的需求。
那麽 AI 可以做到什麽呢?
講故事,這個事情對 AI 來說實在是太簡單了。
AI + 故事,現在是一種完全新的形态—— AI 互動故事。
當然,關于這部分内容的詳細叙述,先賣個關子,且聽我後文細細說來。
AI + 故事,是一種完全全新的内容消費形态,還有可能會誕生一個新的内容消費平台。
總結:虛拟陪伴的兩大派别
在 AI 出現之前,人類本身就有社交需求,情感體驗,叙事需求和荷爾蒙需求。隻是 AI 技術的出現,以一種新的産品形态滿足了用戶的需求。
在這樣的新的能力下 ,可以非常好地扮演一個類型的人類,和人類對話。
這是一種新的範式,在這種範式下,AI 可以發展出各種滿足人類的泛娛樂需求的産品。一方面,AI 可以模仿任何性格,具有任何背景故事的人,與用戶對話,和用戶産生關系和愛,滿足了用戶的社交需求,甚至荷爾蒙需求。另一方面,AI 的形式又創造了一種全新的互動内容,滿足了用戶的情感體驗和叙事需求。
所以我的觀點是:AI 在滿足泛娛樂需求方面,又可以細分爲兩個不同的方向:
一條是虛拟陪伴,另外一條是互動内容。
他們都是從 AI 在模仿不同類型的角色出發,卻走出了兩條不一樣的路。

四、Left: 虛拟陪伴向左
什麽樣的人需要 AI 陪伴?
在目前階段,哪些用戶更能夠接受 AI 虛拟戀愛陪伴呢?或者換句話說,哪些人可以和 AI 談戀愛呢?
我們的認知是:
二次元、小說等虛構類内容消費群體,更能夠接受虛拟的戀愛陪伴。
年輕人更願意接受虛拟的戀愛陪伴;
女性比男性更願意接受虛拟的戀愛陪伴;
内向的人更願意接受虛拟的戀愛陪伴。
二次元,小說,國風等等,本身就是一批不小的有文化受衆群體。這類群體喜歡的角色形象,本來就是虛構的。
也就是我們常說的 IP,比如《海賊王》中的艾斯,《原神》中的散兵。
在過去,用戶和 IP 互動的方式,隻能是單向地。受衆群體通過閱讀作品,或是通過粉絲的二創作品來和虛拟角色産生羁絆。
但有了 AI 以後,可以讓 AI 模拟這個虛拟角色和用戶進行對話。這對于用戶來說,是一次全新的體驗,可以和自己喜歡的虛拟角色對話這件事,本身就很 Sexy。
在 Coslove 的第一波起量中,我們正是抓住了這樣一批群體,突破了 100 萬注冊用戶。
而潇湘書院的築夢島,Lofter 裏單身的虛拟陪伴産品也是如此,他們的特點是本身就在服務這樣的群體,又通過 AI 滿足了他們和小說、二次元角色對話的需求。
第二點,年輕的用戶更願意接受虛拟戀愛。
一方面,年輕人總是有更強的社交欲望和表達欲。
在《行爲經濟學》中,将其将視爲人類對"社會資本" 的追求。社會資本可以分爲"地位"和關系:
社會地位:家族、文化、财富、知識積累等...
社會關系:擁有的紐帶的數量和質量,及紐帶的局部性。
而在年輕時追求社會關系自然是成效更快的選擇,所以年輕人總是會更多有認識新的朋友的欲望。
另一方面,這個大概和時代發展的規律相關。
軟件最終都是要吞噬世界的。像我這一代人,95 後,我們在成長的過程中,更多地是到初高中以後才接觸手機,使用移動互聯網,才知道有小愛同學,Siri 這樣的智能助手。在這個過程中,我們對對話的原生反應,都是線下的對話。
但新一代的年輕人則不同,很可能他們在成長的過程中,就一直在和智能音箱,和智能助手對話。現在的小朋友,人均在手裏都拿了一個小天才手表,他們的社交更多地也是通過互聯網完成的。在這樣的環境下成長起來的人,對社交的原生反應,可能就是拿起手表/手機,給朋友發消息。
所以他們也更願意接受這樣的,在軟件裏和 AI 進行虛拟戀愛陪伴這件事。
第三點,女性用戶比男性更願意接受虛拟的戀愛陪伴。這大概就和人類的基因有關了,有大量的研究過程表明,女性對于戀愛的需求,更偏向于過程。在和戀人的相處中,在反反複複的拉扯中,分泌催産素和多巴胺讓女性産生了大量的愉悅。但男性對于戀愛的需求,則更偏向于結果,是目的非常直接明了的,更直接地指向線下的,完成交配行爲的目标。
所以,目前階段,AI 提供的在對話過程中戀愛的體驗,更能滿足女性用戶的需求。
第四點,内向的人更願意接受虛拟的戀愛陪伴。這點也很好解釋,内向的人往往難以在社交活動中得到正反饋。所以選擇能夠提供更多正向反饋的虛拟角色聊天是更加自然的。不必害怕社交,恐懼社交,又能在對話中得到正反饋。
五、虛拟陪伴現階段的難點
前面的内容說明了 AI 是如何滿足泛娛樂需求。
現階段,确實可以做到,但目前還并不是 AI 虛拟陪伴最好的狀态。
目前階段的 AI 虛拟陪伴,還有很多難點需要解決:
記憶力不足;
成本較高;
沒辦法完美模仿一個 IP;
文字太單薄,需要多模态。
記憶力不足
(1)模型的字數限制
回到最開始 AI 的原理上。
由于算力和模型能力的限制,大語言模型無法處理無限長的文本。通常能夠處理的文本,有一個 token 數上限。比如現在常見的角色扮演大模型,token 字數限制是 32K 左右,換算成中文的話,大概是 30000 字左右(這個數字并不具體,不同模型的字數和 token 之間的換算比率不同)。
并且在字數較多時,AI 記住聊過的每一件事,當聊到一定次數後,AI 會忘記之前聊過的内容。
并且,雖然模型支持這麽多字數輸入,但并不是越長越好,太長的文字,會導緻模型對上文的注意力并不準确,依舊有可能會忘記聊過的内容。

(2)記憶力機制不同
另外一個層面講,人類和 AI 的記憶力機制完全不同。模型是通過上下文來存儲已有記憶。但人類的記憶力機制卻要複雜得多,存在主動記憶,被動記憶,非自願記憶,記憶點之間的關聯等等,是一套非常複雜的機制,人類至今也沒辦法弄懂大腦的運轉邏輯。人類的遺忘遵循遺忘曲線,而 AI 的遺忘,則是斷崖式的,一旦記憶沒有出現在輸入中,AI 就忘記了這件事。
由于上面兩個點,AI 目前還無法非常完美地模仿人類的記憶,導緻用戶在和 AI 聊天的過程中,會發現一段時間後,對方就忘了以前聊過的内容,這會帶來一些不好的體驗。
(3)長期記憶機制
在現階段,爲了解決這個問題,我在 Coslove 裏設置了一套長期記憶機制。
并且我們是所有類似的産品中第一個上線這個功能的應用。這套機制可以在一定程度上緩解這個問題,達到 60 分的水平。
這套機制涉及商業機密,并且本身就非常複雜,我隻能将其模糊并簡化後畫成流程圖中展示。
在用戶和 AI 聊完天以後,會對聊天記錄進行處理,由多個不同的智能體來處理聊天記錄,生成記憶,用戶畫像,更新人物的心情狀态,填充記憶槽位等等。
處理完及以後,在用戶和角色的每一次聊天中,我們都會将相關的記憶,記憶槽位等,放到大語言模型的調用中。達到以下的效果:
保持正确的狀态和心情;
記住和用戶共同經曆的記憶;
知道現在的時間和天氣;
随着和用戶的交流變多,虛拟角色會對用戶更加了解;
随着和用戶的交流變多,虛拟角色會和用戶一起成長變化。
這樣的設定,相當于通過工程的形式,将人類的記憶機制,範式轉移到了大語言模型的機制中。在具體實施的過程中,還有很多細節需要處理,非常繁瑣和複雜。
當然這樣的機制目前也隻能達到 60-70 分的效果,未來還可以不斷優化。

問題二:成本較高
目前階段的 AI 使用費用,依舊還是比較高的,這導緻了我們沒辦法将用戶和 AI 的聊天做到完全免費,而各家做免費聊天的應用,也都是大廠在燒大量的算力,支持用戶體驗。小公司完全燒不起。
但好消息是,在可預見的 3-5 年裏,模型的調用費用會以每年 75% 的價格下降。
現在的價格,相較去年最開始做 Coslove 的時候,已經下降了一半以上。但随着 token cache 技術的普及和算力的擴展,明年各家廠商的 token 調用價格一定還會再下降一個數量級。
這是一個好消息,希望我們有一天也可以做到免費聊天, 造福更多用戶。
問題三:模仿不像
雖然大語言模型具有角色扮演的能力,可以模仿不同性格,不同背景故事的人和用戶對話。
但目前大語言模型的能力,僅限于模仿一個類型的人,而無法模仿一個具體的人。
例如我喜歡《海賊王》裏的索隆這個 IP,角色扮演大語言模型可以模仿索隆的性格,可以知道索隆的背景故事。但是卻很難具體地模仿索隆的說話風格,始終還是有差異。
甚至有些用戶,會希望大語言模型模仿一個具體的人類,例如是已故的親人,或是自己的暗戀對象。模型在處理這些任務時,始終沒辦法做好。
而且,更糟糕的是,在模仿人類這件事情上,要麽就是做到 100%,甚至超過 100%。如果隻能模仿到 80%、90%,反而會引起人類的"恐怖谷效應",帶來非常糟糕的體驗。
恐怖谷效應是一個由日本機器人學家森政弘于1970年提出的理論概念。這個效應表明,随着機器人或虛拟角色越來越接近人類外觀,人們對其的親和感會逐漸增加。然而,當相似度達到一個特定臨界點時,人們會突然産生強烈的不适感和排斥感。這種負面情緒會持續存在,直到相似度進一步提高至幾乎完全逼真的程度。

幸運的是,目前 AI 模仿人物,隻能達到 50%-60%的相似度,可以很好地模仿一類人,而無法模仿一個具體的人。所以人類對這樣的虛拟人物有一定好感,而且還常常可以在和 TA 對話的過程中,産生驚喜。
一些優化方案
當然,也有人通過複雜的工程來優化大語言模型對一個具體的人類或虛拟角色的扮演相似度。
通過類似 Graph-RAG,或者是讓大語言模型針對這個模仿對象,進行大量相關内容的微調學習,例如學習這個對象的說話風格,了解這個對象的經曆等等。
但我目前還沒有看到一個完美的,好的方案或産品。雖然我沒有親自實踐過,但可以預見的是,這樣的工程是非常複雜的,需要收集模仿對象的大量數據,如果這個對象隻是一個虛拟 IP,那尚且收集起來沒有那麽麻煩。如果是真實的人類,數據收集這一步就已經要耗費大量的人力和時間。
收集完數據以後,還要對數據進行清晰和處理,處理成 QA 對以進行微調,或者處理成知識圖譜來做 RAG。并且做完這些以後,還要對工程的效果進行評估。
但由于數據收集,數據清晰階段的複雜性,工程的效果肯定很難模仿到 100%,而隻能停留到 80%-90%的效果,反而會引起人類的恐怖谷效應。
所以我并不看好這條路線。隻能期待接下來幾年,的大語言模型的角色扮演能力有下一次湧現級别的提升,才能解決好模仿的問題。
問題四:文字太單薄,需要多模态
最開始 AI 虛拟戀愛陪伴,說白了,還隻是停留在"網戀"的水平。
戀人隻能通過發信息的方式,和用戶交流。
需要搭配上各種多模态 AI 技術,比如:
配合 TTS(文字轉語音) 技術,和用戶打一打語音通話;
配合上stable diffusion 圖片生成技術,再給用戶發一發自己的照片。
随着明年視頻生成技術的成熟,會有更多像視頻通話的交互形态出現。
從現在我了解的技術現狀和行業動态看,目前這一波 AI 技術成熟以後,AI 一定是可以給用戶提供一個非常好的網戀體驗的。
或許随着技術的繼續進步,AI 總有一天可以和用戶奔現。也确實有創業公司在這個方向上努力,比如以馬斯克的人形機器人爲代表的人形機器人産業,現在也還在行業發展初期,并且吸引了大量融資,未來 5-10 年,或許會有更強的突破。
但我感覺還是比較遙遠的,作爲一個 95 後,一個以線下面對面爲原生社交體驗的人來說,我并不期待這樣的事情發生。反而,像電影《Her》一樣,AI 就做好一個網戀對象的身份,我覺得是更好的狀态。
六、一份90分的答卷?
當然,今天也有玩家在嘗試實現完美的虛拟陪伴,也就是一個真正可以和用戶網戀的應用。
但她不是一個 C.AI 應用,而是一個遊戲:EVE。在 42 章經的播客裏了解到這個遊戲(播客:https://www.xiaoyuzhoufm.com/episode/672e0dcf43dc3a438716da42)。
EVE 這款遊戲,有自己的思路來解決虛拟陪伴中的各種問題。
首先是創新性地将遊戲中的 3D 建模技術與 cai 結合起來有了 3D 模型以後,虛拟角色就可以不同的動作形态來和用戶交互,模拟現實中的效果,解決今天 AI 在多模态方面依舊不足的問題。
同樣地,EVE 也做了更加複雜的記憶力機制,解決長期陪伴中的記憶問題。
和我們一樣,EVE 也微調了自己的模型,意思現在的對話過程中,更接近真人的對話效果。
目前EVE 還在内測階段,雖然我還沒有内測資格,沒辦法體驗。但從公布的視頻,以及已經有内測資格的朋友說效果非常好。他說:"我都快被釣成翹嘴了"。
來自網絡的部分内測截圖:

來源:https://web.okjike.com/originalPost/6736038e8d6dd8c09c19a0a0
所以我還挺看好這個項目的。
七、Right: 互動内容向右
隔着有一些篇幅,在上文将 AI 如何滿足用戶的情感體驗和叙事需求時,講到一個觀點。
一部分人認爲,今天的 C.AI,并不是真正的戀愛陪伴,而是一種新的"内容消費"形式,是一種全新的互動内容。
這個觀點非常有趣。
如果從這個視角來看今天的C.AI的話,這類産品可以被定義爲完全不同的産品。
用戶在C.AI應用中,常常會和 AI 一起進行故事演繹。有點類似用戶和 AI 在共創一個故事,并且不同于看小說,AI 每次回複的内容,可能都是不一樣的, 會往完全不同的劇情發展。
這樣的交互方式,可以類比"互動視頻"和"互動閱讀"。
産品定義
像 Coslove 中的故事和劇場功能,貓箱和造夢次元,都在做這樣的 AI 互動故事功能。
用戶通過劇情中的引導,和虛拟角色一起共創故事,有了共同的經曆。用戶和虛拟角色之間的羁絆會加深。
而角色扮演大模型特殊的(括号文學)也非常适配了劇情的推動。
在結合了 AI 以後,比起互動閱讀,互動視頻,或者是小說等内容消費形式,這些内容往往是需要創作者完整地創作好,再交付給用戶的。
但 AI 互動故事,隻需要提供一個故事背景和"叙事鏈",其他的劇情是如何發展的,就完全交給 AI 生成的,并且這樣一來,每一次的故事劇情都是不同的,用戶的每次體驗也不一樣。
很明顯,AI 互動故事的優勢,在于生産成本極低,并且過程的體驗更有趣味性。
商業模式
如果從這樣的視角來看今天的C.AI應用的話, C.AI 是一種新的内容消費形态,C.AI 應用則應該類比抖快(短視頻内容平台),番茄/七貓(小說内容平台),愛優騰(長視頻内容平台),哔哩哔哩(中視頻内容平台)等等,是完全不同的商業形态。
用戶在平台中進行内容消費,平台通過廣告來獲取收益,是這類平台最基礎的商業形态。
所以,造夢次元的 CEO 說,他們不認爲造夢次元是一個虛拟戀愛陪伴的産品,而是一個内容消費平台。他們的目标是打造一個基于 AI 的内容平台,而不止虛拟陪伴。
現在也确實是如此,造夢次元的"AI 互動故事"數量,是所有C.AI應用中最多的。貓箱同樣如此,貓箱中的人物,無不有一個非常好的故事背景,把用戶往故事發展的方向引導。
這套模式理論上是可行的。随着模型成本的進一步下降,平台的算力成本會下降很多。隻要 AI 互動内容足夠有趣,吸引用戶在平台内閱讀内容,就像刷短視頻,閱讀小說的過程一樣。平台通過在合适的時機投放廣告,就可以搭建起一套可行的商業模式。
在這套模式下,平台隻需要專注于把内容生态做好,提高端内的内容質量,培養好内容創作者,做到平台内的激勵相容。通過優質的内容來吸引用戶,盡量把盤子做大。
技術原理
這裏同樣講講 AI 互動内容的原理。
實際上我們将這類内容分爲兩種形式,對話式和生成式。
(1)對話式
還是回到大語言模型的調用邏輯上:
我們隻要将人設和背景故事放到 system prompt 中,并提供初始的對話引導。
AI 就可以按照背景故事的設定給出回複。實現和用戶一起共創劇情的說法。
(2)生成式
或者,我們可以在 System prompt 中給 AI 定一個生成故事的任務。
讓 AI 按照提示生成故事的内容。并且每次根據用戶的選擇不同,輸出不同的故事劇情。
這樣就是另一種生成式的互動内容。
産品形态
AI 互動故事的産品功能設計,是一個非常複雜的工程,每一類型的故事,每一家産品都不一樣。如果你感興趣的話,可以體驗像 Coslove 、貓箱和造夢次元等産品。
在這裏我隻講講 Coslove 中的故事,劇場,和群聊功能。是我們探索出來的三種互動内容形式。
故事是基于對話式互動内容實現的,故事中提供了很多個階段不同章節的背景故事,并依靠用戶聊天的進度來推進到下一個階段的故事。對話的過程類似讀小說的效果,循序漸進,在不同階段的背景故事下聊天。
劇場是基于生成式的互動内容實現的,有點像互動視頻,每次基于用戶的選擇不同,會體驗到不同的劇情。劇情發展到一定程度後,由 AI 判斷進入下一個章節。
但不得不說,雖然我們在 Coslove 中開發了這樣的功能,但是由于團隊的内容生産能力有限,我們隻能維護較少的優質内容。造夢次元做得比我們更好。
再聊聊群聊
群聊,則是一種介于聊天和故事之間的狀态,用戶可以将多個自己喜歡的角色拉到一個群聊中,提供一定的群聊背景,和多個用戶一起聊天。也可以不帶背景,單純和多個人在群聊中聊天,但由于群聊模型和括号文學的機制,自然地也會将聊天往劇情方向發展。
關于群聊模型,還有一些有趣的故事,是我們和字節的模型同學在機緣巧合的聊天中産生的。我們曾經和字節的同學深度合作一起微調模型,他們來到我們公司駐場辦公,在中午吃飯的過程中,聊天時,偶然聊到了使用 AI 來做狼人殺的想法,由此推演出了多人劇情對話,多人群聊的需求。
無奈當時的模型,AI 隻能扮演一個人和用戶聊天, 在群聊方面的能力比較弱,還無法實現多人聊天的效果。但有了需求以後,字節的同學效率真的很高,不出幾周,就做出了第一代群聊模型,而我們也成爲了第一個吃螃蟹的客戶。很快在 Coslove 中做出了群聊功能。
并且今天, 這個功能的體驗依舊是所有産品中最好的。

目前遇到的問題
但在互動内容這個方向上,依舊會有一些比較硬傷的問題無法解決。
這些問題也導緻了我們沒有繼續放大這樣的功能,也限制住了這個行業的發展和規模。
AI 生成故事的能力太弱了
AI 既然是生成内容,理論上也可以用來生成故事。但是不得不說,目前階段生成故事的能力,實在是太差勁了,生成的故事,劇情既不波瀾起伏,文字也不優美,無法引人入勝。
通用大語言模型,最初的目标是用來解決大多數同業務的問題,解決具體的工作,是爲了生産力而設計的。對于文學,對于虛構類内容的後訓練工作做得非常少。這就導緻了今天的大語言模型,在文學創作方面,幾乎沒有可取之處。
畢竟大語言模型是這個星球上最高階的程序員的産物,有其父必有其子,程序員們對文學的了解太少了,不好處理虛構類的數據,做出來的模型,也更偏向于解決具體的問題,在文學層面表現很弱。
且不說别的,大語言模型的湧現到現在已經 2 年多了,語言模型在模拟寫作風格這件事上,一直沒有好的突破。能看到的隻有最近 Claude 在嘗試不同的語言風格。
因爲這個原因,我們上面說到的對話式和生成式的互動内容。
理想情況看,我們希望對話式互動故事中的故事背景,生成式互動故事中用戶選擇後生成的故事劇情,都由 AI 來生成高質量的内容。
但是現在并做不到,AI 生成的内容太枯燥了,一定都不适合閱讀。
所以現階段的應用,C.AI 應用們隻能通過人工創作故事的方式創造内容,這樣的話,效率就大打折扣,管理難度就上升了一個數量級了。
文學創作大模型?
不過或許正因爲這樣,我反而看好這個方向。
因爲,一個文學創作能力強的模型,完全是有可能做出來的。隻是現階段的模型廠商,都專注于堆參數量,解決具體的效率工作,還沒有發現這塊巨大的空白市場。
就像角色扮演大模型一樣,chatgpt 沒有想到角色扮演路線可以發展得這麽好,誕生一個 character.ai,并指引了後續的模型廠商都跟風訓練角色扮演大模型。
文學創作大模型一樣會有可以複制的路徑,如果在大語言模型的訓練階段做差異,訓練出一個擁有好的文學創作能力的大語言模型,上面我們講到這套模式完全是可行的。
八、AI虛拟陪伴的未來?
站在今天這個時間點往前看,往後看。
AI 已經快速地發展了兩年時間,這兩年裏,我一直在跟進最新的 AI 發展動态,幾乎每一個星期,每一個月,都有令人興奮的新技術或新應用。這兩年裏,應該說,作爲一名 AI 産品經理,這兩年是非常幸福的。
不過現在技術突破已經沒有一年前那麽快,GPT 的新一代模型,GPT-5 難産,而最近剛好發布的最新一代 gpt-4o-pro 模型,模型能力也隻是比前一代略好一些,也沒有大的突破。或許我們必須接近AI 新技術突破的井噴已經進入尾期的現實。接下來幾年,AI 技術依舊會不斷進步,算力成本會繼續下降。
技術進入相對平穩的時期,而 AI 的商業化應用也已經跑了一年多。像 AI 在泛娛樂應用的商業化應用。在過去一年也進入了成熟的時期。接下來,AI 在泛娛樂需求的商業化,會沿着兩條路線繼續演化,一條是虛拟陪伴,成爲一個合格的網戀對象。另一條是互動内容,也許可以成爲新一代的内容消費平台。
ps. 必須補充說明的是,這裏說的泛娛樂領域,特指的是 AI native 産品,在一些已有的領域,比如短視頻,遊戲,直播等等,我們當然也可以看到很多 AI 技術的應用。
好了,今天就說到這裏,希望對你有幫助。