又一家國内企業大模型産品發布。
不是别的,而是已擁有 4 億用戶的最大中文問答社區知乎。
而且官宣即内測——
不光有首個大語言模型「知海圖 AI」,首款産品也将應用于熱榜。
情理之中,意料之外。
一方面,知乎擁有天然的大模型優勢,有場景有應用,最關鍵的還有天然大規模、高質量的中文數據池。NewBing 也将其視作中文數據源之一,一時間股價暴漲近 50%。
這種優勢放眼國内并不多見,此次産品發布也算是千呼萬喚始出來。
但另一方面,在衆多尤其科研工作者認知中,知乎作爲知識問答分享平台,每一次技術革命爆發都在這裏圍觀與見證。
正如 ChatGPT 相關話題就已打破當年 AlphaGo 讨論熱度,浏覽量達 4 億,讨論量近 24 萬。
至于知乎背後相關 AI 技術和布局,并不被大多數人所知。
現在,知乎主動分享了一切。
而且随着産品的發布,知乎在大語言模型上的布局也首次浮出水面。
知乎大模型産品官宣即内測
在發布會現場,知乎也釋出了「熱榜摘要」的産品形态最新 Demo,讓正在等待内測的朋友們先來一睹爲快 ~
可以看到的是," 看山 " 小助手會出現在熱榜的問題下方。
然後它會抓取那些優質問答的重要觀點,經過 AI 算法整理、聚合、潤色後,将回答梗概展現給用戶。
這樣一來,看熱門問題的同時就能獲取關鍵信息,效率直接拉滿。
而這背後的大語言模型 CPM-Bee,來自當下飽受市場關注的清華系大模型創業公司面壁智能。
據知乎聯合創始人、CTO李大海介紹,CPM-Bee 是目前視野範圍内表現最好的中文大語言模型。
面壁智能聯合創始人兼 CEO曾國洋,也給出了官方内測表現:
内容聚合場景下,在 41 個問題中,有 28 個問題表現持平。與 GPT-4 相比基本持平。
作爲國内最早開展相關研究和探索的公司之一,創始團隊來自清華計算機系自然語言處理與社會人文計算實驗室(THUNLP),劉知遠、孫茂松、劉洋多位教授分别是他們的聯合創始人和顧問。因此在大模型學研轉化、開發落地等方面都有豐富的經驗。
産學研轉化這塊,團隊曾最早提出由知識指導的預訓練模型 ERNIE,圍繞模型預訓練、提升學習、參數高效微調等這些大模型熱門議題,他們也在國際頂會上發表了數十篇論文。
他們也曾開發開源多個大模型,比如:國内首個中文大模型 CPM-1、高效易用大模型 CPM-2、可控持續大模型 CPM-3 ……
除此之外,法律、生物醫學等垂直領域也開發了專有專用大模型。成立伊始,就與法律、汽車、家電、傳媒等行業龍頭客戶達成合作,以及完成近千萬種子輪融資。
而就在最近,面壁智能剛獲由知乎領投、智譜 AI 跟投的天使輪融資。據雙方消息,此次投資合作旨在實現雙方優勢資源的價值共創,共同探索大規模語言模型的上層應用。
由此看來,知乎大模型布局也浮出水面:投資大模型公司, 共同打造大模型應用。
據透露,與面壁智能之間屬于是深度融合的關系, 每天都要見一面的那種。
接下來,在 CPM-Bee 基礎上,随着更多的反饋和叠代,新模型有了更強的邏輯推理能力和更快的訓練和推理速度之後,将逐步應用到知乎更多場景中去。
比如創作、讨論場、信息獲取等。
事實上這種路徑也并不陌生,正如微軟與 OpenAI。微軟的産品矩陣完美貼合 ChatGPT 的落地場景,應用的同時又能反哺叠代大模型的能力。于是乎,正是兩者技術與應用的深度融合,才有了震撼全球的搜索引擎、生産力和生産生活的變革,讓企業、個人都能享受到 AIGC 帶來的潛力和可能。
随之而來的問題是——
爲什麽走這樣一條路?
當前國内大模型的發展,已經遠不能用火熱來形容。這個被認爲是比以往任何變革都大十倍的機會,任何企業和機構都不願意輕易錯過,這幾周接踵而至的新進展就可見一斑。
不可否認的是,知乎此時布局大模型,選擇了一條最适合自己的路——
用知乎 CEO 周源的話說,是 AI 時代新生産力的開發者、以及新場景的創建者。
個中緣由得從國内大模型發展開始拆解。
首份《中國 AIGC 産業全景報告》顯示,國内大模型發展大緻可以分爲三種路徑:基礎設施層、模型層以及應用層。
其中,模型層成爲當前發展的關鍵卡口,在一定程度上限制了上下層級(基礎設施層、應用層)的發展。
至于模型層發展好與不好,歸根結底,主要來自算力和數據這兩方面:算力是支撐背後大語言模型訓練的硬件基礎,而數據則是直接影響模型能力強弱甚至生成質量的關鍵。
尤其是中文數據這塊,一方面本質原因,中文相對英文複雜,技術難度高;另一方面,國外英文數據集更豐富,且質量較高。但國内的中文語料并不完善,必要時還需要各家公司來清洗,耗費人力财力。
而這恰好與知乎區别于其他平台的獨特優勢有關。
我們都知道,模型效果的好壞,既取決于數據的數量,也取決于質量。這一點知乎似乎能做到兩者兼備。
在數量方面,2022 第三季度财報顯示,知乎社區内的内容量已累計超 5.79 億條。2022 年年度财報顯示,問答量已累計到了 5.06 億條,覆蓋超 1000 個垂直領域。
尤其在一些專業問題上,更是表現明顯。
知乎戰略副總裁、社區業務負責人張甯透露這樣一組關鍵數據:
站内從事科研學習和工作的人群總數高達 544 萬人。僅科研互聯網領域,就日均圖文生産量兩萬多篇。
在數學、物理、天文、人工智能等多個領域的回答、文章和視頻數都超過了 100 萬篇。
而除了數量之外,數據的質量也是尤爲關鍵。
在 ChatGPT 發布之初,經常會出現一些離譜、錯誤的答案。「一本正經地胡說八道」是 ChatGPT 留給大家的初印象。
這背後其實正是與訓練數據的質量有關,數據集中摻雜了諸多魚龍混雜的内容。
而在知乎,諸多專業人士的探讨、問答機制的篩選構成了内容數據的高質量,甚至有的知乎内容已經直接成冊出書。
前段時間,NewBing 剛出爐,諸多網友發現一些回答來源正是來自于知乎。
周源這樣拆分 AI 時代的生産力要素,主要分爲三層:應用場景、專有數據以及基礎模型。基于問答的讨論場,是天然的應用場景。這當中不斷産生的内容、關系和知識圖譜,則是獨一無二專有數據。
而以 GPT 爲代表的基礎模型層在快速發展,再結合知乎的應用場景和專有數據,可推動大模型快速的應用落地。與此同時知乎的專業場景,還能反哺大模型技術叠代。
事實上,李大海也透露,知乎也正在與各種類型的公司合作,利用自身獨特優勢,助推國内大模型的發展。
除了應時之勢的考量,這背後也是回歸本質順其自然的選擇。
在知乎發現大會上,周源再次談及知乎社區一直以來「獲得感」的内容價值觀——
讓每個人更好的分享知識、經驗與見解,找到自己的解答。
他認爲,AI 終将服務于人,賦能于人,是人類能力的擴增。
于是具體到知乎這一場景下,人機共創就可以幫助創作者更好地發揮創造力、提高内容創作的效率和質量,從而讓更多用戶得到幫助、開闊眼界。
大模型浪潮下,諸多應用場景被提及。知乎也作爲新場景的創建者躬身入局,探索更多價值。
回顧以往每一次的技術變革更叠,國内百萬從業者們通過問答、話題、圓桌、想法、專欄、直播等方式在這裏學習與探讨、回應和激辯。
因此從某種程度上來說,知乎作爲關鍵媒介,在國内前沿科技發展進程中起到了不容忽視的作用。
尤其在這場全球 ChatGPT 風暴裏,體會尤爲明顯,相關話題浏覽量達 4 億,讨論量超 23.9 萬。
吳恩達老師在這裏周更博客,呼籲大家理性看待這個浪潮;被王慧文收購、正處風口浪尖的一流科技創始人袁進輝在知乎中尋找着答案……
諸多 ChatGPT 衍生産品在這裏首發誕生:北大團隊推出的 ChatExcel、首個公開對标 ChatGPT 開源項目 ChatRWKV 、以及首個國内 ChatGPT 檢測器……背後的開發者們也現身回應,親自解答網友的疑惑。
一群科研人員、創業者、從業者在這裏彙集聯結,打破時間與空間的壁壘,第一時間探尋前沿動向,進而去推動國内前沿科技的發展。
隻是現在及未來,知乎将利用自己積累的優勢,以更顯性的方式爲中國大模型的發展貢獻力量。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~