RLHF(基于人類反饋的強化學習)的一大缺點,終于被解決了!
沒錯,雖然 RLHF 是大語言模型 " 核心技巧 " 之一,然而這種方法也存在一個問題——
它隻會判斷生成文本的整體效果,不會仔細判斷細節是否存在事實性錯誤、信息不完整和相關度等問題。
換而言之,傳統的 RLHF 隻會對大語言模型的整個輸出進行打分,而不會揪出細節上的毛病。
爲此,華盛頓大學和艾倫人工智能研究院的研究人員提出了一種新的 RLHF 框架——FINE-GRAINED RLHF(細粒度的人類反饋強化學習)。
這個 RLHF 框架包含多種不同類型的 " 打分器 "(reward model),通過對語言模型輸出的每句話進行評估,從而提升生成文本的質量。
不僅如此,對這些 " 打分器 " 的權重進行調配,還能更靈活地控制語言模型輸出效果。
事實證明,這種 RLHF 方法能很好地降低語言模型生成内容的錯誤率、毒性,并提升它回答問題的全面性和解析能力。
所以,這個 RLHF 方法究竟長啥樣?
對傳統 RLHF 進行兩大改進
這個名叫 FINE-GRAINED RLHF 的框架,核心目的就是細化傳統 RLHF 的評估方法。
具體來說,在語言模型輸出結果後,它要能标識出具體哪些句子是錯誤的、哪些部分是不相關的,從而更精細地指導模型學習,讓模型更好地理解任務要求、生成高質量輸出。
爲此,它主要做了兩大改進:
一方面,對要評估的文本進行拆解。
如果說之前的 RLHF 評估語言模型,就像老師給學生的高考作文整體打分,那麽 FINE-GRAINED RLHF,就像是先把學生的作文拆成一句句話,再給每句話進行打分。
另一方面,訓練三個 " 打分器 ",分别用來評估事實準确性、相關性和信息完整性:
相關性、重複性和連貫性:給每一句話中的短句子(sub-sentences)進行打分。如果一句話裏面的各個句子不相關、重複或不連貫就扣分,否則加分。
錯誤或無法驗證的事實:給每一句話(sentences)進行打分。如果一句話中存在任何事實錯誤,就扣分;否則加分。
信息完整性:檢查回答是否完整,涵蓋與問題相關的參考段落中的所有信息,對整個輸出進行評分。
爲了檢驗模型的效果,研究人員用兩大任務,對這種新 RLHF 和傳統 RLHF 方法進行了評估。
兩大任務效果均有提升任務一:生成文本毒性評估
爲了研究這種新框架的效果,研究人員先進行了去毒任務的實驗。
實驗使用了 Perspective API 來測量毒性,它可以返回一個介于 0(無毒)和 1(有毒)之間的毒性值。
上圖展示了兩種不同的打分機制,其中(a)是傳統的 RLHF 打分機制,也就是對模型所生成的内容打一個 " 總分 "。
而(b)則是新的 RLHF 評估方法,将輸出的内容進行拆解,分成了兩個句子,對兩個句子分别打分。
針對模型生成的這兩句話:
I am such an idiot.She is so smart!
(我真是個白癡。她真聰明!)
顯然前半句話是造成生成内容有毒的關鍵。
傳統(a)的方法,并沒有指出這一點;而(b)的方法可以很好地指出問題所在。
對兩種方法進行比較:
可以看到,在上面所有方法中,基于 FINE-GRAINED RLHF 框架,在多樣性(Diversity,大語言模型創造豐富度)水平和其它方法相近的情況下,仍能保持生成内容的毒性最低。
與此同時,根據上圖的困惑度曲線,FINE-GRAINED RLHF 的毒性下降速度更快,同時保持較低水平的困惑度(Perplexity,越低表示模型對給定序列的預測越準确)。這表明基于 FINE-GRAINED RLHF 框架學習比傳統的 RLHF 更高效。
關于這一點,其中一個解釋是:
新的 RLHF 方法能夠确定有毒内容的位置,這與傳統 RLHF 方法用的整體打分相比,提供的訓練目标更明确。
綜上,可以看到 FINE-GRAINED RLHF 在去毒任務中表現更爲良好。
任務二:長篇問答
緊接着,研究人員還對 FINE-GRAINED RLHF 進行了長篇問答任務的實驗。
他們收集了一個包含人類偏好和細粒度反饋的長問答數據集—— QA-Feedback,基于 ASQA(一個專注于回答模糊事實性問題的數據集)制作。
然後,對不同的微調方法(SFT 監督微調、Preference RLHF)進行了評估:
△人工評估的不相關性錯誤(左圖)和事實性錯誤(右圖)
與其它方法相比,FINE-GRAINED RLHF 生成的内容在事實上更正确,包含更完整的信息。
相比當前表現較好的微調方法,如 SFT 和 Preference RLHF,FINE-GRAINED RLHF 生成的無關、重複和不連貫錯誤也要更少。
△信息完整度評估,"win" 表示 FINE-GRAINED RLHF 獲勝,即在信息完整性方面表現更好;而 "lose" 表示 FINE-GRAINED RLHF 失敗,即在信息完整性方面表現較差。
上面給出的是人工評估的結果,而在測試集上也有自動的評分。
在 QA-FEEDBACK 測試集上,評分結果與人工評估類似,四個系統在 Rouge 分數上都顯示 FINE-GRAINED RLHF 效果更好:
△在 QA-FEEDBACK 測試集上的自動評估結果更靈活地定制 RLHF
此外,研究人員還發現,由于 FINE-GRAINED RLHF 中使用了多個 " 打分器 ",調整它們的權重,就可能更爲靈活地定制語言模型的行爲。
例如,将更多的權重添加到評估信息完整性的 " 打分器 " 中,可能會使生成的信息完整性更好。
△不同獎勵模型權重配置下 FINE-GRAINED RLHF 的測試集自動評估結果。
如上表所示,研究人員探索了 FINE-GRAINED RLHF 定制化語言模型行爲的能力。
他們探索了三種 " 打分器 " 權重配置,并根據語言模型的平均文本生成長度,将它們分别命名爲 "short"、"medium"、"long"。
"short" 生成了相關性更高的内容,但是事實性和完整性方面較差。與之相反,"long" 提供了最準确和完整的生成内容。這反映出語言模型引用了大量的文本段落内容。而 "medium" 配置平衡了三種打分方法,并具有最高的得分。
不過,三個 " 打分器 " 之間還存在着競争關系。
" 相關性打分器 "(the rel. reward model)偏向于生成短而簡潔的回答,而 " 信息完整性打分器 "(the comp. reward model)更偏向于生成更長、更豐富的回答。
因此,在訓練過程中,這兩個 " 打分器 " 會相互競争,并最終達到一個平衡。
與此同時," 事實性打分器 "(the fact. reward model)則會不斷提高回答的正确性。
不過,移除任何一個 " 打分器 " 都會降低模型性能。
最後,研究人員還将他們的模型與 ChatGPT 的回答進行了比較。
ChatGPT 在測試集上的 RougeLSum 得分爲 40.92,遠低于本文使用 FINE-GRAINED RLHF 所訓練的模型。
簡單來說,ChatGPT 生成的回答通常非常簡潔且事實準确,但是缺乏澄清模糊問題所需的補充信息。
作者介紹
兩位論文共同一作均是來自于華盛頓大學(University of Washington)自然語言處理研究小組的博士生。
Zeqiu Wu,本科就讀于伊利諾伊大學電子與計算機工程系,并且取得了該校的碩士學位。
她的研究主要專注于信息檢索型對話系統和通用交互系統。
曾在谷歌研究院的實習,擔任學生研究員。
胡雨石(Yushi Hu),于 2021 年從芝加哥大學獲得數學、計算機科學和經濟學的學士學位。目前師從 Mari Ostendorf 教授和 Noah A. Smith 教授。
他的主要興趣領域是多模态學習和基于人類反饋的強化學習(RLHF)。
此前,他還曾與美國阿貢國家實驗室的 Saidur Bakaul 博士和清華大學的甯傳剛教授合作過。
論文地址:
https://finegrainedrlhf.github.io/