ChatGPT 中有這樣一個核心訓練方法,名叫 "人類反饋強化學習(RLHF)"。
它可以讓模型更安全、輸出結果更遵循人類意圖。
現在,來自谷歌 Research 和 UC 伯克利的研究人員發現,将該方法用在AI 繪畫上," 治療 " 圖像跟輸入不完全匹配的情況,效果也奇好——
可以實現高達 47%的改進。
△ 左爲 Stable Diffusion,右爲改進後效果
這一刻,AIGC 領域中兩類大火的模型,似乎找到了某種 " 共鳴 "。
如何将 RLHF 用于 AI 繪畫?
RLHF,全稱 "Reinforcement Learning from Human Feedback",是 OpenAI 和 DeepMind 于 2017 年合作開發的一種強化學習技術。
正如其名,RLHF 就是用人類對模型輸出結果的評價(即反饋)來直接優化模型,在 LLM 中,它可以使得 " 模型價值觀 " 更符合人類價值觀。
而在 AI 圖像生成模型中,它可以讓生成圖像與文本提示得到充分對齊。
具體而言,首先,收集人類反饋數據。
在這裏,研究人員一共生成了 27000 餘個 " 文本圖像對 ",然後讓一些人類來打分。
爲了簡單起見,文本提示隻包括以下四種類别,分别關乎數量、顔色、背景和混合選項;人類的反饋則隻分 " 好 "、" 壞 " 與 " 不知道(skip)"。
其次,學習獎勵函數。
這一步,就是利用剛剛獲得的人類評價組成的數據集,訓練出獎勵函數,然後用該函數來預測人類對模型輸出的滿意度(公式紅色部分)。
這樣,模型就知道自己的結果究竟有幾分符合文本。
除了獎勵函數,作者還提出了一個輔助任務(公式藍色部分)。
也就是當圖像生成完成後,模型再給一堆文本,但其中隻有一個是原始文本,讓獎勵模型 " 自己檢查 " 圖像是否跟該文本相匹配。
這種逆向操作可以讓效果得到 " 雙重保險 "(可以輔助下圖中的 step2 進行理解)。
最後,就是微調了。
即通過獎勵加權最大似然估計(reward-weighted likelihood maximization)(下公式第一項),更新文本 - 圖像生成模型。
爲了避免過拟合,作者對預訓練數據集上的 NLL 值(公式第二項)進行了最小化。這種做法類似于 InstructionGPT ( ChatGPT 的 " 直系前輩 ")。
效果提升 47%,但清晰度下滑 5%
如下一系列效果所示,相比原始的 Stable Diffusion,用 RLHF 微調過後的模型可以:
(1)更正确地 get 文本裏的 " 兩隻 " 和 " 綠色 ";
(2)不會忽略 " 大海 " 作爲背景的要求;
(3)想要紅老虎,能給出 " 更紅 " 的結果。
從具體數據來看,微調後的模型人類滿意度爲 50%,相比原來的模型(3%),得到了 47% 的提高。
不過,代價是失去了 5% 的圖像清晰度。
從下圖我們也能很清楚的看到,右邊的狼明顯比左邊的糊一些:
對此,作者表示,使用更大的人類評價數據集和更好的優化 ( RL ) 方法,可以改善這種情況。
關于作者
本文一共 9 位作者。
一作爲谷歌 AI 研究科學家 Kimin Lee,韓國科學技術院博士,博士後研究在 UC 伯克利大學展開。
華人作者三位:
Liu Hao,UC 伯克利在讀博士生,主要研究興趣爲反饋神經網絡。
Du Yuqing,同 UC 伯克利博士在讀,主要研究方向爲無監督強化學習方法。
Shixiang Shane Gu ( 顧世翔 ) ,通訊作者,本科師從三巨頭之一 Hinton,博士畢業于劍橋大學。
△ 顧世翔
值得一提的是,寫這篇文章時他還是谷歌人,如今已經跳槽至 OpenAI,并在那裏直接向 ChatGPT 負責人報告。
論文地址:
https://arxiv.org/abs/2302.12192
參考鏈接:
[ 1 ] https://twitter.com/kimin_le2/status/1629158733736718336
[ 2 ] https://openai.com/blog/instruction-following/