近日,信息檢索領域國際頂級學術會議 WSDM(Web Search and Data Mining)宣布了 WSDM CUP 2023 競賽成績,來自騰訊的研究團隊基于大模型預訓練、搜索排序以及集成學習等技術上的突破,在無偏排序學習和互聯網搜索預訓練模型賽道上的兩項任務中獲得冠軍,體現了在該領域的領先技術實力。
ACM WSDM(Web Search and Data Mining) 會議是信息檢索領域頂級會議之一,由 SIGIR、SIGKDD、SIGMOD 和 SIGWEB 四個專委會協調籌辦,在互聯網搜索、數據挖掘領域享有較高學術聲譽。第 16 屆 ACM 國際 WSDM 會議于 2023 年 2 月 27 日至 3 月 3 日在新加坡舉行,論文的接收率爲 17.8%。
WSDM Cup 由 WSDM 會議舉辦,本屆 WSDM Cup 共計 400 餘支隊伍參加,分别來自中國、美國、新加坡、日本、印度等國家的知名高校和公司,大賽共設置三個賽道:無偏排序學習和互聯網搜索預訓練模型賽道(Unbiased Learning to Rank and Pre-training for Web Search)、跨語言連續體的多語言信息檢索賽道(Multilingual Information Retrieval Across a Continuum of Languages)和視覺問答挑戰賽道(Visual Question Answering Challenge)。
此次騰訊「參賽隊名:騰訊機器學習平台部搜索團隊(TMLPS)」參加了無偏排序學習和互聯網搜索預訓練模型賽道,并在該賽道的兩項子任務中(Pre-training for Web Search 和 Unbiased Learning to Rank)獲得冠軍。
目前兩項成果代碼和論文均已發布到 Github 上(見:GitHub - lixsh6/Tencent_wsdm_cup2023)
在深度學習領域,數據标注的質量對于模型的效果有着較爲顯著的影響,但是較高的标注數據成本一直是研究團隊的阻礙之一,如何從技術上利用無标注的數據訓練模型自然成爲了成爲學術界和工業界關注的熱點。
論文:Multi-Feature Integration for Perception-Dependent Examination-Bias Estimation
地址:https://arxiv.org/pdf/2302.13756.pdf
本次比賽,針對基于搜索的預訓練任務(Pre-training for Web Search),騰訊團隊通過大模型訓練、用戶行爲特征去噪等方法,在點擊日志上進行基于搜索排序的模型預訓練,進而使模型有效地應用到下遊相關性排序的檢索任務。通過預訓練、模型微調、集成學習等多方面的優化,在人工标注的相關性排序任務上取得了較大的領先優勢
論文:Pretraining De-Biased Language Model with Large-scale Click Logs for Document Ranking
地址:https://arxiv.org/pdf/2302.13498.pdf
在本次比賽的另一賽道無偏排序學習任務(Unbiased Learning to Rank)中,團隊通過深入挖掘點擊日志信息,充分利用包括文檔媒體類型、文檔展示高度和點擊後的滑屏次數等特征對文檔相關性進行無偏估計,提出了一種能夠集成多種偏置因素的多特征集成模型,有效地提升了搜索引擎中文檔排序的效果。
據了解,奪冠團隊的成果均基于騰訊混元 AI 大模型(下文簡稱 "HunYuan")和太極機器學習平台實現。目前,通過聯合微信搜索團隊,兩項技術已經在微信搜一搜的多個場景落地相關技術,并取得了顯著的效果提升。
AI 大模型(又稱預訓練模型)是指預先訓練好,具有相對通用性的 " 一套算法 ",具有 " 巨量數據、巨量算力、巨量模型 " 等特性。大模型通過學習樣本數據的内在規律和表達層次,發展出接近、超越人類水平的 " 智能 ",具備分析推理能力,能夠識别文字、圖像和聲音等。
2022 年 4 月,騰訊首次對外披露 HunYuan 大模型研發進展。HunYuan 集 CV(計算機視覺)、NLP(自然語言理解)、多模态理解能力于一體,先後在 MSR-VTT、MSVD 等五大權威數據集榜單中登頂,實現跨模态領域的大滿貫。2022 年 5 月,更是在國際公認的 CLUE(中文語言理解評測集合)三個榜單同時登頂,一舉打破三項紀錄。近日,HunYuan 又迎來全新進展,推出國内首個低成本、可落地的 NLP 萬億大模型,并再次登頂 CLUE。
騰訊太極機器學習平台是集模型訓練和在線推理于一身的高性能機器學習平台,具備萬億參數模型的訓練和推理能力,爲 AI 大模型預訓練推理和應用落地提供了完整的端到端工程能力支撐,一站式解決算法工程師在 AI 應用過程中特征處理、模型訓練、模型服務等工程問題。
騰訊長期緻力于前沿搜索技術的研究,通過改進搜索算法,提升用戶搜索體驗,相關技術團隊在檢索預訓練、大模型訓練、搜索排序任務目标函數設計等方面的具有豐富的實踐經驗,研究成果多次在國際競賽和學術會議中取得領先成績,并廣泛應用于微信搜索、騰訊廣告、遊戲等多個業務場景。