騰訊人狠話不多,大模型技術剛拿下兩項世界冠軍!
最近,信息檢索領域國際頂級學術會議 WSDM(Web Search and Data Mining)宣布了 WSDM CUP 2023 競賽成績。
來自騰訊研究團隊在無偏排序學習和互聯網搜索預訓練模型賽道上的兩項任務中獲得冠軍。
ACM WSDM(Web Search and Data Mining) 會議是信息檢索領域頂級會議之一,由 SIGIR、SIGKDD、SIGMOD 和 SIGWEB 四個專委會協調籌辦,在互聯網搜索、數據挖掘領域享有較高學術聲譽。
WSDM Cup 正是由 WSDM 會議舉辦。本屆 WSDM Cup 共計 400 餘支隊伍參加,分别來自中國、美國、新加坡、日本、印度等國家的知名高校和公司。
大賽共設置三個賽道:
無偏排序學習和互聯網搜索預訓練模型賽道(Unbiased Learning to Rank and Pre-training for Web Search);
跨語言連續體的多語言信息檢索賽道(Multilingual Information Retrieval Across a Continuum of Languages);
視覺問答挑戰賽道(Visual Question Answering Challenge)。
此次,騰訊機器學習搜索團隊在第一個賽道的兩項子任務中(Pre-training for Web Search 和 Unbiased Learning to Rank)獲得冠軍。
目前兩項成果代碼和論文均已發布到 GitHub 上。
深度學習領域,數據标注的質量對于模型的效果有着較爲顯著的影響。
但是較高的标注數據成本一直是研究團隊的阻礙之一,如何從技術上利用無标注的數據訓練模型自然成爲了成爲學術界和工業界關注的熱點。
本次比賽,針對基于搜索的預訓練任務(Pre-training for Web Search),騰訊團隊通過大模型訓練、用戶行爲特征去噪等方法,在點擊日志上進行基于搜索排序的模型預訓練,進而使模型有效地應用到下遊相關性排序的檢索任務。
通過預訓練、模型微調、集成學習等多方面的優化,在人工标注的相關性排序任務上取得了較大的領先優勢。
而在另一個賽道——無偏排序學習任務(Unbiased Learning to Rank)中,團隊通過深入挖掘點擊日志信息,充分利用包括文檔媒體類型、文檔展示高度和點擊後的滑屏次數等特征對文檔相關性進行無偏估計,提出了一種能夠集成多種偏置因素的多特征集成模型,有效地提升了搜索引擎中文檔排序的效果。
據了解,奪冠團隊的成果均基于騰訊混元 AI 大模型(下文簡稱 "HunYuan")和太極機器學習平台實現。
目前,通過聯合微信搜索團隊,兩項技術已經在微信搜一搜的多個場景落地相關技術,并取得了顯著的效果提升。
2022 年 4 月,騰訊首次對外披露 HunYuan 大模型研發進展——
HunYuan 集 CV、NLP、多模态理解能力于一體,先後在 MSR-VTT、MSVD 等五大權威數據集榜單中登頂,實現跨模态領域的大滿貫。
2022 年 5 月,更是在國際公認的 CLUE 三個榜單同時登頂,一舉打破三項紀錄。
現在,HunYuan 又迎來全新進展,推出國内首個低成本、可落地的 NLP 萬億大模型,并再次登頂 CLUE。
騰訊太極機器學習平台是集模型訓練和在線推理于一身的高性能機器學習平台,具備萬億參數模型的訓練和推理能力,爲 AI 大模型預訓練推理和應用落地提供了完整的端到端工程能力支撐,一站式解決算法工程師在 AI 應用過程中特征處理、模型訓練、模型服務等工程問題。
騰訊長期緻力于前沿搜索技術的研究,通過改進搜索算法,提升用戶搜索體驗,相關技術團隊在檢索預訓練、大模型訓練、搜索排序任務目标函數設計等方面的具有豐富的實踐經驗,研究成果多次在國際競賽和學術會議中取得領先成績,并廣泛應用于微信搜索、騰訊廣告、遊戲等多個業務場景。
GitHub 鏈接:
https://github.com/lixsh6/tencent_wsdm_cup2023
論文鏈接:
https://arxiv.org/pdf/2302.13756.pdf
https://arxiv.org/pdf/2302.13498.pdf
* 本文系量子位獲授權刊載,觀點僅爲作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~