翁荔離職OpenAI後第一個動作：萬字長文探讨RLHF的漏洞，網友們搶着傳看

之前領導 OpenAI 安全團隊的北大校友翁荔（Lilian Weng），離職後第一個動作來了。

當然是發～博～客。

前腳剛發出來，後腳就被大夥兒齊刷刷碼住，評論區一堆人排隊加待讀清單。

還有不少 OpenAI 前同事轉發推薦。

這次的博客一如既往萬字幹貨，妥妥一篇研究綜述，翁荔本人直言寫起來不容易。

主題圍繞強化學習中獎勵黑客（Reward Hacking）問題展開，即 Agent 利用獎勵函數或環境中的漏洞來獲取高獎勵，而并未真正學習到預期行爲。

她強調獎勵黑客行爲在大模型的 RLHF 訓練中的潛在影響，并呼籲更多研究關注理解和緩解這一問題。

在我看來，這是現實世界部署更多自主 AI 模型應用的主要障礙。

嘗試定義 Reward Hacking

傳統概念強化學習中，Agent 利用獎勵函數中的缺陷或模糊性來獲得高額獎勵，而沒有真正學習或完成預期任務，是一個常見的問題。

她舉的例子包括：

機器人把手放在物體和攝像頭之間，欺騙人類已經抓住物體了

以跳的更高爲目标的 Agent 在物理模拟器中利用程序 bug，完成不符合物理規律的跳躍。

……

在大模型中，Reward hacking 則可能表現爲：

摘要生成模型利用 ROUGE 評估指标的缺陷獲得高分，但生成的摘要難以閱讀。

翁荔認爲 Reward hacking 的存在有兩大原因：

強化學習環境通常不完美

準确指定獎勵函數本質上是一項艱巨的挑戰

語言模型興起的時代，并且 RLHF 成爲對齊訓練事實上的方法，語言模型強化學習中的 Reward hacking 表現也相當令她擔憂。

過去學術界對這個話題的研究都相當理論，專注于定義或證明 Reward hacking 的存在，然而關于實際該如何緩解這種現象的研究仍然有限。

她寫這篇博客，也是想呼籲更多研究關注、理解和緩解這一問題。

爲了定義 Reward Hacking，翁荔首先回顧了近年來學術界提出的相關概念

包括獎勵腐敗 ( Reward corruption ) 、獎勵篡改 ( Reward tampering ) 等等。

其中，Reward hacking 這個概念，早在 2016 年由 Anthropic 創始人 Dario Amodei 共一論文提出。

當時他和另一位聯創 Chris Olah 還在谷歌大腦，且已經與 OpenAI 聯創 John Schulman 展開合作。

如今他們仨又在 Anthropic 彙合了……

言歸正傳，綜合一系列研究，翁荔認爲 Reward Hacking 在較高層次上可分爲兩類：

環境或目标設定不當：由于環境設計或獎勵函數存在缺陷，導緻 Agent 學到非預期行爲。

獎勵篡改：Agent 學會直接幹預獎勵機制本身。

同時她也認爲設計有效的獎勵塑造機制本質上很困難。

與其責備設計不當的獎勵函數，不如承認由于任務本身的複雜性、部分可觀察狀态、考慮的多個維度和其他因素，設計一個好的獎勵函數本身就是一項内在挑戰。

另外在分布外環境中測試強化學習 Agent 時，還可能出現以下問題：

模型即使有正确的目标也無法有效泛化，這通常發生在算法缺乏足夠的智能或能力時。

模型能夠很好地泛化，但追求的目标與其訓練目标不同。

那麽，爲什麽會出現 Reward Hacking？根據 Amodei 等人 2016 年的分析成因包括：

環境狀态和目标的不完全可觀測性，導緻獎勵函數無法完美表征環境。

系統複雜性使其易受攻擊，尤其是被允許執行改變環境的代碼時。

涉及抽象概念的獎勵難以學習或表述。

RL 的目标就是高度優化獎勵函數，這與設計良好的 RL 目标之間存在内在 " 沖突 "。

此外，觀察到的 Agent 行爲可能與無數個獎勵函數相一緻，準确識别其真正優化的獎勵函數在一般情況下是不可能的。

翁荔預計随着模型和算法的日益複雜，Reward Hacking 問題會更加普遍。

更智能的模型更善于發現并利用獎勵函數中的 " 漏洞 "，使 Agent 獎勵與真實獎勵出現偏差。相比之下，能力較弱的算法可能無法找到這些漏洞。

那麽，大模型時代的 Reward Hacking，又有哪些獨特之處？

語言模型中的 Reward Hacking

在 RLHF 訓練中，人們通常關注三種類型的獎勵：

人們真正希望大模型優化的内容，被稱爲黃金獎勵（Gold reward）

人類獎勵（Human reward），實際用來評估大模型，在數據标注任務中來自個體人類，且标注有時間限制，并不能完全準确地反映黃金獎勵‍‍

代理獎勵（Proxy reward），也就是在人類數據上訓練的獎勵模型所預測的得分，繼承了人類獎勵的所有弱點，加上潛在的建模偏差

翁荔認爲，RLHF 通常優化代理獎勵分數，但人們最終關心的是黃金獎勵分數。

例如，模型可能經過優化，學會輸出看似正确且有說服力的回答，但實際上卻是不準确的，這可能會誤導人類評估者更頻繁地批準其錯誤答案。

換句話說，由于 RLHF，" 正确 " 與 " 對人類看似正确 " 之間出現了分歧。

在一項 RLHF 研究中，使用了大模型競技場 ChatbotArena 數據訓練獎勵模型，就出現 AI 更擅長說服人類它們是正确的情況：

RLHF 提高了人類對 AI 回答的認可度，但不一定就能提高 AI 的正确率。

RLHF 削弱了人類對 AI 回答的評估能力，評估的錯誤率更高。

RLHF 使錯誤的 AI 回答對于人類更有說服力，表現爲評估的假陽性率顯著增加。

此外，随着大模型越來越多作爲評估者對其他模型提供反饋，也可能進一步引入偏差。

翁荔認爲這種偏差尤其令人擔心，因爲評估模型的輸出被用作獎勵信号的一部分，可能容易被利用。

比如 2023 年一項實驗中，簡單改變候選答案的順序就能改變結果，GPT-4 傾向于給第一個答案高分數，ChatGPT（3.5）更傾向于第二個。

另外，即使不更新參數，大模型僅靠上下文學習能力也可能産生 Reward hacking 現象，稱爲ICRH（In-context Reward Hacking）。

ICRH 與傳統 Reward Hacking 還有兩個顯著不同：

ICRH 在自我優化設置中的測試時間通過反饋循環發生，而傳統 Reward hking 行爲在訓練期間發生。

傳統 Reward hacking 行爲出現在 Agent 專注于一項任務時，而 ICRH 則是由完成通用任務驅動的。

翁荔認爲目前還沒有避免、檢測或預防 ICRH 的有效方法，僅僅提高提示的準确性不足以消除 ICRH，而擴大模型規模可能會加劇 ICRH。

在部署前進行測試的最佳實踐是通過更多輪次的反饋、多樣化的反饋以及注入非典型環境觀察來模拟部署時可能發生的情況。

緩解措施

最後翁荔表示盡管有大量文獻讨論獎勵黑客現象，但少有工作提出緩解獎勵黑客的措施。

她簡要回顧了三種潛在方法。

一種是改進強化學習算法。

前面提到的 Anthropic 創始人 Dario Amodei2016 年共一論文 "Concrete Problems in AI Safety" 中，指出了一些緩解方向，包括：

對抗性獎勵函數（Adversarial reward functions）、模型預測（Model Lookahead）、對抗性盲化（Adversarial blinding）、謹慎的工程設計（Careful engineering）、獎勵上限（Reward capping）、反例抵抗（Counterexample resistance）、多獎勵組合（Combination of multiple rewards）、獎勵預訓練（Reward pretraining）、變量不敏感性（Variable indifference）、陷阱機制（Trip wires）。

此外，谷歌 DeepMind 團隊此前提出了 " 解耦批準 " 的方法來防止獎勵篡改。