ICML傑出論文開獎，北大數院、武漢理工校友獲獎，蘋果大模型相關研究入選

ICML 2023 傑出論文，今天開獎！

今年共有 32 篇論文入圍候選，最終6 篇論文脫穎而出，分别涉及：

無學習率學習、大語言模型水印、分布外泛化、不完美信息零和博弈的近優策略、馬爾可夫鏈蒙特卡羅算法和序列決策等研究方向。

作者之中，依然不乏華人學者的身影，包括北大數院校友 Yunbei Xu，武漢理工校友 Jie Hu，以及馬裏蘭大學帕克分校的 Yunxin Wen。

一起來看獲獎論文具體細節。

Learning-Rate-Free Learning by D-Adaptation

作者來自 Meta AI 和三星 AI 中心。

這篇論文提出了一個有趣的方法，旨在解決在非光滑随機凸優化問題中獲得無需學習率的最優界限的挑戰。作者提出了一個新的方法來克服傳統學習率選擇在優化這類問題時帶來的限制。這項研究爲優化領域做出了有價值的實踐貢獻。

論文地址：https://openreview.net/forum?id=GXZ6cT5cvY

A Watermark for Large Language Models

作者來自馬裏蘭大學。作者之一的 Yuxin Wen 目前在馬裏蘭大學帕克分校讀博，此前曾在百度實習。

這篇論文提出了一種給大語言模型輸出添加水印的方法，即在生成的文本中嵌入人類不可見但算法可檢測的信号。可無需重新訓練即可生成水印，并在不訪問 API 或參數的情況下檢測。還提出了一種用可解釋 p-value 檢測水印的統計測試方法和一個信息論框架來分析其敏感性。該方法簡單新穎，并進行了充分的理論分析和可靠的實驗。考慮到檢測和審核大模型生成的合成文本所帶來的關鍵挑戰，本文有可能對該研究領域産生重大影響。

論文地址：https://openreview.net/forum?id=aX8ig9X2a7

Generalization on the Unseen, Logic Reasoning and Degree Curriculum

作者來自洛桑聯邦理工學院和蘋果。

這項工作在布爾函數學習方面取得了重大進展，特别是針對 " 看不見的泛化 " ( Generalization on the Unseen，GOTU ) 設置，提出了一個具有挑戰性的分布外泛化問題。文廣泛深入地探讨了這一重要課題，提供了一種結構合理的方法，并輔以理論分析和大量實驗。此外，它還勾勒出深度神經網絡領域的一個關鍵研究方向，從而脫穎而出。

論文地址：https://openreview.net/forum?id=3dqwXb1te4

Adapting to game trees in zero-sum imperfect information games

作者來自 CREST、ENS Lyon、Omron Sinic X 以及 DeepMind 等研究機構。

這篇論文介紹了不完全信息零和博弈的近優策略。它嚴格地建立了一個新穎的下界，并提出了兩種算法—平衡 FTRL 和自适應 FTRL。這些貢獻極大地推動了不完全信息博弈優化領域的發展。實驗證實了這些說法，爲研究結果提供了充分的支持。

論文地址：https://openreview.net/forum?id=O1j4uFuSVW

Self-Repellent Random Walks on General Graphs - Achieving Minimal Sampling Variance via Nonlinear Markov Chains

作者來自昆泰公司和北卡羅來納州立大學。作者之一的 Jie Hu 目前在北卡羅萊納州立大學攻讀博士，他本科畢業于武漢理工大學。

這篇論文探讨了一系列具有挑戰性的開放問題，即具有自斥随機遊走的 MCMC。它超越了傳統的非回溯方法，爲 MCMC 采樣的新研究方向鋪平了道路。作者對馬爾可夫鏈蒙特卡羅做出了原創性的、非同小可的貢獻；令人矚目的是，該過程可以得到嚴格的分析和證明。論文文筆優美，對主要概念的解釋清晰直觀。結果令人信服且全面。

論文地址：https://openreview.net/forum?id=450iImFM4U

Bayesian Design Principles for Frequentist Sequential Learning

作者來自哥倫比亞大學。一作 Yunbei Xu 是北大數院校友，完成論文時在哥倫比亞大學讀博，現爲 MIT 博士後研究員。

本文解決了設計老虎機和其他順序決策策略中非常普适的問題。它提出了使用一種新提出的量 " 算法信息比 " 來界定任意策略的遺憾的方法，并推導出了優化這個界的方法。這個界比之前的相似信息論量更緊。而且這些方法在随機和對抗多臂老虎機環境下表現良好，達到了兼顧各方的最優。特别有趣的是，本文可能爲多臂老虎機開辟了一條新的探索 - 利用策略的道路，不止局限于著名的湯普森采樣和 UCB 法則。這一原理能推廣到強化學習的特點也非常有前景。本文受到所有審稿專家的一緻強烈推薦。

論文地址：https://openreview.net/forum?id=tRhQsHnoFw

獲獎公告：

https://icml.cc/Conferences/2023/Awards