在生成式人工智能(Generative AI)的信息技術躍遷背景下,如何看待知乎當下和未來,有三個基本的視角:
它是大語言模型預訓練中文語料最重要來源之一,例如最近現象級的大模型聊天應用 Kimi Chat,就以知乎爲重要的訓練資料來源(甚至是 80% 以上的來源)。
每一個在知乎上提問的用戶,其實都是在發 prompt(提示詞);而每一個知乎的答主,基本都相當于基于個人知識和經驗(語料)、價值觀和思考邏輯(算法和思維鏈)的人肉語言模型。基于此,基于大語言模型的 " 數字人答主 " 會在知乎陸續出現。
鑒于 " 提問——回答 " 是知乎作爲内容社區運轉的基本邏輯,也是一系列大語言模型工具運轉的基本邏輯,還是搜索引擎 20 年持續進化的主線—— Google、百度,還有新型的 AI 問答聚合工具 Perplexity,近期所做的一切,實質都是搜索引擎的 AI 化。因此,知乎的搜索屬性——基于 AI 的搜索,将得到強化。
基于這三個視角,在 AI 的衆聲喧嘩之側的知乎,有以下可能擁抱生成式人工智能浪潮的方式:
做更好的中文預訓練語料提供商,成爲高質量中文語料的永動機,提供更高質量的、由人而不是機器創造的中文内容,讓這些内容有更多被采集、使用和預訓練的可能。參與國家級中文語料庫建設,成爲重要的語料建設者。
整個社區的激進 AI 化。AI 進行提問,更負責回答。知乎社區将出現大量的 AI 數字人作爲獨立的 IP ——曆史的、科技的、醫學的、文學的垂直領域數字人,讓他們回答用戶的提問,給出用戶想要的答案。
以搜索爲突破,以知乎自己的大模型能力(知海圖 AI)爲依托,讓大模型參與部分問題答案的生成和總結,提示用戶追問,引導用戶在知乎社區内進行 " 多輪對話 ",從而吸引更多的答主,讓大模型成爲激發用戶活躍度的催化劑。
以上三個路徑,第一個保守,第二個激進,第三個是前兩者的結合。知乎選擇哪條路徑,取決于知乎是什麽,它在大語言模型生态産業鏈當中的角色是什麽,以及它擅長什麽。
3 月 20 日的 " 發現大會 " 上,知乎推出了三個與 AI 相關功能——
一個是搜索,幫助用戶找到社區的 " 共識 "。
它其實相當于知乎站内的 Perpelexity ——用戶提出問題,知海圖 AI 模型基于社區内的内容,生成用戶需要的答案。并不是所有的内容都能在知乎上找到答主生成的答案,很多時候,一個有深度的、需要專業知識支撐的問題,需要很久才能有專業領域的答主提供高質量的答案。但這樣的問題,散落在社區各個角落的答主們針對其它問題的各條高質量答案,是可以作爲參考依據的。這個時候,如果 AI 能通過搜索和生成,将這些答案裏的有價值信息提煉出來,進行有效的推理,就能爲一個 " 新鮮出爐 " 的專業問題提供一個立等可取的答案,提問的用戶就可以能爲快,然後再等其它的專業答主陸續趕到,下場答題。
在灰度測試這個功能的時候,知乎消費電子領域的專業答主 Navis Li 提出過一個專業問題:俄羅斯或前蘇聯好像有一個著名的鏡頭可以實現旋轉的焦外虛化效果,鏡頭具體是什麽?講真,面對這種極度偏門專業的冷知識,等人來答需要花很長的時間,也可能等不到。但基于 AI 搜索,知乎其它專業答主和社區創作者在其它問題下面的答案經過提煉、分析和推理,給出了一個準确的答案。
第二個是實時問答,用于完成公共編輯。
它相當于 AI 生成的站内維基百科。一個高質量的提問下面可能有成百甚至上千的答案,其中的高贊答案可能也不下幾十個。是不是每個人都有時間和耐心讀完所有的答案,再形成一個自己需要的知識輸出?這恐怕不太現實。它需要一個基于創作者的答案的 " 最佳答案 ",也就是最佳答案的提煉、萃取的維基百科功能。早年的知乎是有這個功能的,大家通過公共編輯,對所有的回答進行總結," 衆創 " 出一個最佳回答。這個初衷是理想的,現實卻有些骨感。它反倒成了知乎頗受争議的功能。因爲人的主觀、偏見和傾向是難以避免的,是容易制造更大沖突、對立和争議的,以至于知乎不得不下線了這個功能。
真正适合做 " 維基百科 " 工作的,是 AI。AI 的偏見不能說沒有,但可以通過強化訓練得到約束和控制。AI 的提煉和推理能力是呈指數級提升的。因此,基于創作者回答的 " 最佳回答 ",現在有了更好的生成者——大語言模型。這個實時問答其實是基于 AI 的公共編輯,讓用戶得到一個簡單、直接和有效答案的路徑更直接、更快速。
第三個是不斷提問和追問的功能,甚至可以不需要提示詞。
知乎長期是一個比較單向度的産品:一問多答。盡管有算法推薦的關聯提問,但它不是同一個用戶實時提出的問題,未必折射了一個提問者内心最大的好奇心和疑惑。現在看完了一個問題的回答,可以基于這個回答和提煉出來的 " 最佳答案 " 進行追問——追問甚至不需要主動輸入提示詞,而是 AI 自動生成。它其實在鼓勵用戶在知乎社區裏進行 " 多輪對話 " ——就像一個人在 ChatGPT 和 Kimi Chat 上做的那些事一樣。針對用戶的追問,AI 可以給出它的答案,答主們也應該會陸續趕到現場。
這樣,知乎作爲一個 " 問答社區 " 的形态,就有可能從 " 一問多答 " 向 " 多問多答 " 演進。在一個基于問答的内容社區裏,提問是最大的供給側。過去的提問主要依靠的是人們的好奇心和求知欲,現在可以有 AI 加持和賦予的靈感。這麽做的好處當然也很直觀——産生更多的問題,以及相應的更多的答案。
一個搜索,一個實時問答,一個追問,它們背後都基于知乎的 AI,知乎把這個三合一的 AI 功能叫 " 發現 · AI 搜索 ",在首頁的左側給了一個 " 四芒星 " 的 logo。
看上去,它有搜索,但不是一個專門的搜索框。它有大模型對話,但不以對話界面的方式呈現。它可以追問,但 AI 不是唯一的答主。它看上去還是那個知乎,還需要大量有好奇的提問者,還需要高質量的專業答主。然後,AI 站在他們的身側。
在前面的知乎擁抱 AI 的三條路徑裏,知乎選擇的是第三條。這條路徑的最終指向,是知乎作爲一個知識問答社區最關鍵的命脈——用戶的活躍、持續不斷的高質量問題,以及高質量的可信賴的答案。
知乎相信 " 發現 · AI 搜索 " 會成爲知乎社區的活水,但它高度警惕整個社區的激進 AI 化——大量的 AI 生成問題,大量的 AI 回答問題。社區裏充滿了機器人和數字人的提問者和答主,大量甚至大多數問題和答案都是 AI 生成的。
在矽星人與知乎創始人、CEO 周源最近的一次對話中,周源對 "NPC 答主 " 的态度高度審慎:" 平台不應該主動做這個事兒,平台爲什麽要讓自己的體系裏面産生這麽多 NPC 呢?"
他認爲知乎的 "AI 搜索 " 是一個 " 不依賴原來的信息流,換了一種基于大模型的能力和交互的方式,而對後續産生數據反饋非常直接 " 的功能。這個 " 數據的直接反饋 ",是指向活生生的 " 人 " 的,而不是 AI 的。作爲提問者,能夠更快、更直接得到他們想到的答案;作爲答主,能夠讓自己的回答被更頻繁地搜索、調取、索引和再度生成爲新的内容。作爲普通的浏覽型用戶,能夠換一個界面和交互,用 " 搜索 " 和 " 發現 " 到更多過去需要下拉很多次信息流才能找到的問題和答案,這對于一個社區的活躍度是非常重要的事。它們将産生更多的内容,也是大語言模型訓練所用的語料。
"AI 本身是一個語言模型,不會遇到問題。隻有人才會在社會中遇到問題。你失戀了,下崗了,人才會有這種痛苦和欲望。人産生的問題和相應的内容才是可信的。AI 可以輔助你,但是如果把這層光明層去掉,AI 隻是自循環的,我覺得就沒有太大價值了 ",周源對矽星人說。
基于這個認知,他反對讓 "AI 搜索 " 生成的答案和問題,以機器人的 IP 形式出現,而堅持隻讓它們出現在 " 四芒星 " 的角标裏面,以私聊的方式出現,隻屬于用戶個人,而不呈現在由提問者和答主這些真正的 " 創作者 " 出現的信息流裏。
面對 AI,知乎真正要回答的問題是:人類如何與 AI 共享智慧,又保持對人類原創性的尊重和鼓勵。這不是一個新問題,但需要一個新的解法。目前,它給出答案是:透過 AI,讓人們發現人類創造的更大的世界,人類創作的更多的内容,而不是用 AI 發現更多 AI 生成的内容。
它指向了一個更爲關鍵的問題:當世界上越來越多的内容是由 AI 生成的,人類的經驗和人類創造的内容,會不會變成一種日益邊緣化的稀缺資源?AI 生成内容的前提和基礎是人類經驗生成的語料——即人類通過曆史、社會、經濟、科技實踐創造的内容——無論它們是文章、數據、圖像、聲音、視頻還是代碼。但如果人類創造的内容在 AI 生成的幾何級增長 " 擠壓 " 下變成一種稀缺資源,未來 AI 生成内容的經驗從何而來,語料又從何而來?
這對每一個人都很重要,對事實上已成爲全世界中文語料的重要資源庫——知乎來說,更是一個必答題。
" 人工智能發展離不開芯片、模型、數據三個重要因素。芯片确實卡脖子,但芯片是一個工程學的問題,隻要有了一定的規模,就能夠叠代起來,我們工程師還是很厲害的。模型有開源優勢,進化速度也不會慢。隻有數據是不可再生資源,而且還沒辦法馬上擁有。無論投 10 億美金還是投 100 億美金,都不可能在短時間裏建立一個 UGC 社區,語料是一種不可再生資源 ",周源認爲。
" 你把語料當成靜态的,即便他是這樣的,那也得把它看成是一片土地。你不能在一塊土地上把玉米割了,然後去另外一個地方銷售,不管這片土地明天有沒有蟲災," 周源認爲,全球的語料都存在着一種貧瘠化甚至枯竭化的可能,就像石油一樣。
因此,讓數據的供給和消費的飛輪能夠轉起來,讓更多的數據變成大模型訓練的語料,被 AI" 消費 " 的同時,更多的語料能夠被反哺、AI 能激發人類再創造更好的内容,變成更有價值的語料,就變成了知乎在生成式人工智能浪潮下尋求答案的最有價值求解——尤其在它已經是全球中文互聯網語料中繞不過去的存在的情況下。
成爲可再生的持續供給的全球最大中文語料庫有什麽價值?來自美國的答案是:Google 已經向美國最重要的内容社區 Reddit 累計支付了 6000 多萬美元,用于購買高質量的語料。
來自中國的答案是什麽?在數據交易市場已經在政府和市場的雙輪驅動下已經日臻成熟的情況下,中文語料将成爲重要的可被交易的數據資源。誰是最重要的中文語料庫,将成爲繼芯片和算力之後,另一種稀缺但重要的 " 水 "。誰都知道,AI 的發展,往往是 " 賣水 " 的人最先賺到錢。