之前領導 OpenAI 安全團隊的北大校友翁荔(Lilian Weng),離職後第一個動作來了。
當然是發~博~客。
前腳剛發出來,後腳就被大夥兒齊刷刷碼住,評論區一堆人排隊加待讀清單。
還有不少 OpenAI 前同事轉發推薦。
這次的博客一如既往萬字幹貨,妥妥一篇研究綜述,翁荔本人直言寫起來不容易。
主題圍繞強化學習中獎勵黑客(Reward Hacking)問題展開,即 Agent 利用獎勵函數或環境中的漏洞來獲取高獎勵,而并未真正學習到預期行爲。
她強調獎勵黑客行爲在大模型的 RLHF 訓練中的潛在影響,并呼籲更多研究關注理解和緩解這一問題。
在我看來,這是現實世界部署更多自主 AI 模型應用的主要障礙。
嘗試定義 Reward Hacking
傳統概念強化學習中,Agent 利用獎勵函數中的缺陷或模糊性來獲得高額獎勵,而沒有真正學習或完成預期任務,是一個常見的問題。
她舉的例子包括:
機器人把手放在物體和攝像頭之間,欺騙人類已經抓住物體了
以跳的更高爲目标的 Agent 在物理模拟器中利用程序 bug,完成不符合物理規律的跳躍。
……
在大模型中,Reward hacking 則可能表現爲:
摘要生成模型利用 ROUGE 評估指标的缺陷獲得高分,但生成的摘要難以閱讀。
翁荔認爲 Reward hacking 的存在有兩大原因:
強化學習環境通常不完美
準确指定獎勵函數本質上是一項艱巨的挑戰
語言模型興起的時代,并且 RLHF 成爲對齊訓練事實上的方法,語言模型強化學習中的 Reward hacking 表現也相當令她擔憂。
過去學術界對這個話題的研究都相當理論,專注于定義或證明 Reward hacking 的存在,然而關于實際該如何緩解這種現象的研究仍然有限。
她寫這篇博客,也是想呼籲更多研究關注、理解和緩解這一問題。
爲了定義 Reward Hacking,翁荔首先回顧了近年來學術界提出的相關概念
包括獎勵腐敗 ( Reward corruption ) 、獎勵篡改 ( Reward tampering ) 等等。
其中,Reward hacking 這個概念,早在 2016 年由 Anthropic 創始人 Dario Amodei 共一論文提出。
當時他和另一位聯創 Chris Olah 還在谷歌大腦,且已經與 OpenAI 聯創 John Schulman 展開合作。
如今他們仨又在 Anthropic 彙合了……
言歸正傳,綜合一系列研究,翁荔認爲 Reward Hacking 在較高層次上可分爲兩類:
環境或目标設定不當:由于環境設計或獎勵函數存在缺陷,導緻 Agent 學到非預期行爲。
獎勵篡改:Agent 學會直接幹預獎勵機制本身。
同時她也認爲設計有效的獎勵塑造機制本質上很困難。
與其責備設計不當的獎勵函數,不如承認由于任務本身的複雜性、部分可觀察狀态、考慮的多個維度和其他因素,設計一個好的獎勵函數本身就是一項内在挑戰。
另外在分布外環境中測試強化學習 Agent 時,還可能出現以下問題:
模型即使有正确的目标也無法有效泛化,這通常發生在算法缺乏足夠的智能或能力時。
模型能夠很好地泛化,但追求的目标與其訓練目标不同。
那麽,爲什麽會出現 Reward Hacking?根據 Amodei 等人 2016 年的分析成因包括:
環境狀态和目标的不完全可觀測性,導緻獎勵函數無法完美表征環境。
系統複雜性使其易受攻擊,尤其是被允許執行改變環境的代碼時。
涉及抽象概念的獎勵難以學習或表述。
RL 的目标就是高度優化獎勵函數,這與設計良好的 RL 目标之間存在内在 " 沖突 "。
此外,觀察到的 Agent 行爲可能與無數個獎勵函數相一緻,準确識别其真正優化的獎勵函數在一般情況下是不可能的。
翁荔預計随着模型和算法的日益複雜,Reward Hacking 問題會更加普遍。
更智能的模型更善于發現并利用獎勵函數中的 " 漏洞 ",使 Agent 獎勵與真實獎勵出現偏差。相比之下,能力較弱的算法可能無法找到這些漏洞。
那麽,大模型時代的 Reward Hacking,又有哪些獨特之處?
語言模型中的 Reward Hacking
在 RLHF 訓練中,人們通常關注三種類型的獎勵:
人們真正希望大模型優化的内容,被稱爲黃金獎勵(Gold reward)
人類獎勵(Human reward),實際用來評估大模型,在數據标注任務中來自個體人類,且标注有時間限制,并不能完全準确地反映黃金獎勵
代理獎勵(Proxy reward),也就是在人類數據上訓練的獎勵模型所預測的得分,繼承了人類獎勵的所有弱點,加上潛在的建模偏差
翁荔認爲,RLHF 通常優化代理獎勵分數,但人們最終關心的是黃金獎勵分數。
例如,模型可能經過優化,學會輸出看似正确且有說服力的回答,但實際上卻是不準确的,這可能會誤導人類評估者更頻繁地批準其錯誤答案。
換句話說,由于 RLHF," 正确 " 與 " 對人類看似正确 " 之間出現了分歧。
在一項 RLHF 研究中,使用了大模型競技場 ChatbotArena 數據訓練獎勵模型,就出現 AI 更擅長說服人類它們是正确的情況:
RLHF 提高了人類對 AI 回答的認可度,但不一定就能提高 AI 的正确率。
RLHF 削弱了人類對 AI 回答的評估能力,評估的錯誤率更高。
RLHF 使錯誤的 AI 回答對于人類更有說服力,表現爲評估的假陽性率顯著增加。
此外,随着大模型越來越多作爲評估者對其他模型提供反饋,也可能進一步引入偏差。
翁荔認爲這種偏差尤其令人擔心,因爲評估模型的輸出被用作獎勵信号的一部分,可能容易被利用。
比如 2023 年一項實驗中,簡單改變候選答案的順序就能改變結果,GPT-4 傾向于給第一個答案高分數,ChatGPT(3.5)更傾向于第二個。
另外,即使不更新參數,大模型僅靠上下文學習能力也可能産生 Reward hacking 現象,稱爲ICRH(In-context Reward Hacking)。
ICRH 與傳統 Reward Hacking 還有兩個顯著不同:
ICRH 在自我優化設置中的測試時間通過反饋循環發生,而傳統 Reward hking 行爲在訓練期間發生。
傳統 Reward hacking 行爲出現在 Agent 專注于一項任務時,而 ICRH 則是由完成通用任務驅動的。
翁荔認爲目前還沒有避免、檢測或預防 ICRH 的有效方法,僅僅提高提示的準确性不足以消除 ICRH,而擴大模型規模可能會加劇 ICRH。
在部署前進行測試的最佳實踐是通過更多輪次的反饋、多樣化的反饋以及注入非典型環境觀察來模拟部署時可能發生的情況。
緩解措施
最後翁荔表示盡管有大量文獻讨論獎勵黑客現象,但少有工作提出緩解獎勵黑客的措施。
她簡要回顧了三種潛在方法。
一種是改進強化學習算法。
前面提到的 Anthropic 創始人 Dario Amodei2016 年共一論文 "Concrete Problems in AI Safety" 中,指出了一些緩解方向,包括:
對抗性獎勵函數(Adversarial reward functions)、模型預測(Model Lookahead)、對抗性盲化(Adversarial blinding)、謹慎的工程設計(Careful engineering)、獎勵上限(Reward capping)、反例抵抗(Counterexample resistance)、多獎勵組合(Combination of multiple rewards)、獎勵預訓練(Reward pretraining)、變量不敏感性(Variable indifference)、陷阱機制(Trip wires)。
此外,谷歌 DeepMind 團隊此前提出了 " 解耦批準 " 的方法來防止獎勵篡改。
在這種方法中,收集反饋的行爲與實際執行的行爲是分開的,反饋會在行爲執行前就給出,避免了行爲對自己反饋的影響。
另一種潛在緩解措施是檢測獎勵黑客行爲。
将獎勵黑客行爲視爲一個異常檢測任務,其中檢測器應标記出不一緻的實例。
給定一個可信策略和一組手動标注的軌迹回放,可以基于可信策略和目标策略這兩個策略的動作分布之間的距離構建一個二分類器,并測量這個異常檢測分類器的準确性。
之前有實驗觀察到,不同的檢測器适用于不同的任務,而且在所有測試的強化學習環境中,沒有任何測試的分類器能夠達到 60% 以上的 AUROC。
第三種潛在緩解措施是分析 RLHF 數據。
通過檢查訓練數據如何影響對齊訓練結果,可以獲得有關預處理和人類反饋收集的見解,從而降低獎勵黑客風險。
哈佛大學與 OpenAI 研究人員今年合作提出了一套評估指标,用于衡量數據樣本特征在建模和對齊人類價值觀方面的有效性。他們在 HHH-RLHF 數據集上進行了系統的錯誤分析以進行價值對齊(SEAL)。
這一篇博客關于緩解措施的部分還隻是 " 初探 ",翁荔對下一篇内容給出了預告:
希望我很快能在一篇專門的帖子中涵蓋緩解措施部分
關于翁荔
翁荔是 OpenAI 前華人科學家、ChatGPT 的貢獻者之一,本科畢業于北大,在印第安納大學伯明頓分校攻讀博士。
畢業之後的翁荔先是短暫的在 Facebook 實習了一段時間,後擔任 Dropbox 軟件工程師。
她于 2017 年初加入 OpenAI,在 GPT-4 項目中主要參與預訓練、強化學習和對齊、模型安全等方面的工作。
在 OpenAI 去年底成立的安全顧問團隊中,翁荔領導安全系統團隊(Safety Systems),解決減少現有模型如 ChatGPT 濫用等問題。
最著名的 Agent 公式也由她提出,即:Agent= 大模型 + 記憶 + 主動規劃 + 工具使用。
其 Google Scholar 引用量達 14000+。
一個月前,翁荔短暫回國。
這也是她首次在國内大型活動場合公開發表 AI 主題演講。
之後沒幾天,翁荔突然發推文表示決定離職 OpenAI。
目前她還沒有宣布下一個計劃,推特簽名透露會與 AI 安全相關。
領英和谷歌學術頁面也還挂着 OpenAI,均未更新。
原文:
https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking
參考鏈接:
[ 1 ] https://x.com/lilianweng/status/1863436864411341112