大模型引領的 AI 2.0,遠比想象來得更加猛烈。
尤其是被認爲最先被颠覆的搜索引擎領域,産學研界都蠢蠢欲動,對可預見的趨勢展開激辯。
沒有了用戶點擊,内容提供商 / 廣告該怎麽辦?未來将靠什麽來賺錢?
對話即入口的交互方式,操作系統是不是就無需存在了?
傳統的智能推薦和搜索,又該往何處去?
……
帶着這些問題,CCF CTO Club 最新一期 CCF C ³ 來到了小紅書,數位在推薦、搜索領域深耕多年的技術專家,聚焦于當下信息分發、推薦搜索等熱議話題,進行了分享和探讨。
最終共吸引 16000+ 人在線觀看,直播數據創曆史新高。接下來就帶你來一文看盡 ~
大模型帶來真正的個性化體驗
ChatGPT 會取代搜索引擎嗎?這個最先叩響的産業問題,也在會上進行了深入的探讨。
他們都對 ChatGPT 乃至大模型采取積極擁抱、但同樣謹慎審視的姿态。這其中最常提及的一個關鍵詞,就是個性化。
天津大學教授郝建業表示,傳統的推薦系統基于有限的用戶數據,通過過拟合的方式進行相似内容的分發,但其實無法真正了解用戶的心智變化。而有了大模型加持,能更好地理解用戶,帶來真正的智能化、個性化和人性化的體驗。
具體提及到的一個重要價值,小紅書社區技術負責人夏侯談到了對于搜索中長尾問題的應用。
傳統的通用搜索中長尾信息不足,這種情況下 ChatGPT 可以自動生産内容補充,以滿足更多個性化需求。正如 New Bing 中制定菜譜、旅行計劃等。
事實上,這恰好與小紅書的搜索方式不謀而合。更多通用搜索不能解決的長尾問題,在小紅書上都能找到答案。基于此,也構成了小紅書不同于其他搜索的本質區别。
小紅書技術副總裁風笛在現場分享了他們背後推薦系統的技術創新與實踐,可謂是滿滿幹貨。
據透露,目前小紅書 app 内搜索用戶滲透率行業第二。産品形式主要是最上邊的搜索框以及下邊的信息流。内容形态包括圖文、視頻、直播、商品等多元的内容。對應的機遇與挑戰主要來自四個方面:
多模異構内容推薦、去中心化分發、興趣多樣性和人群破圈、成本控制。
首先圍繞場景特點,包括多模異構内容以及雙列的産品形态。風笛坦言,雙列的方式并非是一個高效的産品形态,是因爲給到用戶可選擇的權利才堅持到現在。
但推薦或搜索本質上是高效的信息分發和信息匹配。小紅書又是如何解的呢?
實際設計上主要包括三個方面:從多元異構價值對齊公式到模型融合的轉變;流量分配測,從 PID 到在線流量匹配;重排側,則主要是 Whole Page 重排。
具體到多模态内容理解這一方面,傳統人工定義的層次化标簽,無法完整刻畫圖文和視頻内容。
風笛透露,他們技術團隊基于 10 億量級的圖文、視頻筆記進行多模态預訓練,随後運用到推薦系統中,獲得内容的向量化表征。未來将打通内容表征和行爲表征,兩域聯合建模。
另一個公認的技術挑戰來自新内容冷啓——新内容行爲稀疏,行爲表征學習不充分。他們一直在實時推薦上實現了分鍾級别的更新。
與此同時,在多目标融合這塊,替換掉傳統人工排序公式,通過 AutoML 領域的 ES 算法來尋找到最優的個性化融合參數。
在興趣多樣性方面,風笛表示會設置各種指數遺忘策略,對用戶的實時興趣做降權,來平衡用戶的長短期興趣。
除此之外,還分享了用戶增長以及成本控制、算力優化等方面的技術實踐,以及留下兩個問題探讨:
如何做高效的興趣檢索?以及如何做留存建模?
搜推系統将往何處去?
事實上,整個工業界也都面臨着這兩個難題,而且随着 ChatGPT 時代的到來,挑戰也更加艱巨。
人機對話将更加頻繁,在實際業務場景中,如何在億級商品中抽取用戶感興趣的候選商品?搜推系統的召回階段就非常關鍵,直接決定了後續精排階段的成功與否。
形象地來說,召回決定了精排階段的巧婦會不會面臨無米之炊。
武漢大學李晨亮教授回溯了近幾年搜推系統召回階段的主要進展和主流方法,并探讨了未來的前沿趨勢。
他談到,當前召回的主要目标,就是在保證低時延的情況下,更大地利用好用戶的場景信息和他的曆史行爲數據。随後重點談到了自深度學習興起,召回逐步經曆了表示學習、交互式學習兩種方法。
以表示學習爲例,主要有四個研究方向:雙塔模型 / 深度網絡模型、多興趣建模、長尾數據處理、外部數據豐富場景語義,以此提煉商品和用戶的表征,識别用戶需求。
而在這兩年興起的交互式學習方面,李晨亮教授分享了他們目前的做法,簡言之就是在商品側和産品側做交互式學習來分别提升他們的表征,進而來優化計算、降低開銷。
未來,低時延依舊是一個無法逾越的障礙,召回也将來到大模型 Cover 一切場景或任務,也就是多場景、多任務學習的一種趨勢。
用戶大模型可破之?
在主題報告分享結束後,來自中國人民大學教授徐君、天津大學教授郝建業、中科院副研究員敖翔、彙量科技首席人工智能官朱小強、小紅書社區技術負責人夏侯全面展望了智能推薦和搜索的未來。
首先論及的,就是大模型、AIGC 的爆發帶來的機遇和挑戰。
搜索研究方向的徐君教授結合 New Bing 的例子談到大模型改變傳統互聯網的搜索習慣和廣告盈利模式。
以往是以點擊網頁排序的方式進入到内容提供商的網頁。網站可以依靠廣告來維持他們的運營。未來用戶不願點擊,搜索引擎不能爲網站引流,他們将靠什麽活下去?
敖翔則表示偏樂觀的态度,他提出要積極擁抱新工具,一方面不要完全相信模型給出的結果,需要根據不同場景進行評估,另一方面要多思考如何利用大模型,實現更多的價值。
來自工業界的朱小強持短期保守、長期激進的态度。短期内,大語言模型爲企業提供私有數據之外的常識;而從長期來看,當人們獲取信息方式發生變化,信息分發技術會迎來新的沖擊,原有的推薦形态和模型可能需要重新構建,這是一把懸在我們頭上的劍。
夏侯提出未來 3 至 5 年面臨的挑戰:傳統的搜索和推薦都是基于用戶點擊觸發的行爲模式。過去單純以用戶點擊而驅動的算法分發模式,正走向用戶行爲 + 内容理解雙輪并驅的分發模式,能否真正實現搜推一體化,更好地提升用戶行爲效率呢?
既然趨勢已定,智能推薦和搜索引擎又該往何處去呢?
敖翔與郝建業教授都談到了用戶大模型的趨勢。
敖翔表示不管是做什麽應用,歸根結底都是在做用戶畫像。
能不能做一些使用者的基礎大模型,理解用戶行爲,把用戶很多數據拿出來做分析,然後去做更精準的畫像。這是下一階段應該考慮的。
郝建業教授則是談及 RLHF(基于人類反饋的強化學習)對推薦系統的啓發。
他談到,以往因爲數據的片面和有限,導緻用戶獎勵函數也就是興趣建模非常不準。
現在一方面,可從跨場景用戶的聯合建模這個角度來思考;另一方面,基于用戶長期興趣建模。将不同場景數據真正融合起來,去訓練一個推薦領域的用戶獎勵函數大模型,但這就要求企業各部門數據的打通以及數據的高質量。
最後,針對這段時間高密度的技術爆發,每位專家都對未來的智能推薦進行了展望。
夏侯表示如果 ChatGPT 代表的是一種未來的操作系統,那麽推薦有可能變成一種底層操作系統的基本能力,就像今天的文檔打開或存儲一樣,将會反映在生活的方方面面,而非現在某個 APP 的幾個頁面。
朱小強和郝建業都談到了交互方式的改變。
朱小強則談到了交互方式的重構,一切服務都會以新的入口的方式呈現。正如當年搜索引擎誕生,圍繞在旁的是 " 是能力還是入口 " 這一思考。
此外,他還談到現在都在說 ChatGPT 代表着操作系統,如果更激進一點的看法可能遠遠不止這樣,我們爲什麽還需要操作系統呢?
敖翔也認同 " 入口 " 這一觀點,他感歎既然觀點就這麽趨同了,那就得自我革命了——看準了直接往裏殺,别猶豫。
郝建業則表示,以往大家習慣于用鼠标和鍵盤,現在變成觸屏,未來這些東西可能都不複存在。
徐君教授則朝着更多領域方向展開想象。以往人工智能都是從其他行業 " 薅羊毛 " 借鑒靈感,現在是否有可能朝着反向輸出,比如幫助了解大腦,真正變成一件科學的事情。
關于 CCF C ³
CCF C ³ 活動是由中國計算機學會 CCF CTO Club 發起的,旨在聯結企業 CTO 及高級技術人才和資深學者,每次以一個技術話題爲核心,走進一家技術領先企業。
目前爲止,CCF C ³ 已舉辦 18 期活動,先後走進京東、小米、搜狗、百度、亞馬遜、阿裏巴巴、聯想、OPPO、訊飛、騰訊、并行等企業。