00 後國人一作登上 Nature,這篇大模型論文引起熱議。
簡單來說,論文發現:更大且更遵循指令的大模型也變得更不可靠了,某些情況下GPT-4 在回答可靠性上還不如 GPT-3。
與早期模型相比,有更多算力和人類反饋加持的最新模型,在回答可靠性上實際愈加惡化了。
結論一出,立即引來 20 多萬網友圍觀:
在 Reddit 論壇也引發圍觀議論。
這讓人不禁想起,一大堆專家 / 博士級别的模型還不會 "9.9 和 9.11" 哪個大這樣的簡單問題。
關于這個現象,論文提到這也反映出,模型的表現與人類對難度的預期不符。
換句話說,"LLMs 在用戶預料不到的地方既成功又(更危險地)失敗 "。
Ilya Sutskever2022 年曾預測:
也許随着時間的推移,這種差異會減少。
然而這篇論文發現情況并非如此。不止 GPT,LLaMA 和 BLOOM 系列,甚至 OpenAI 新的o1 模型和 Claude-3.5-Sonnet也在可靠性方面令人擔憂。
更重要的是,論文還發現依靠人類監督來糾正錯誤的做法也不管用。
有網友認爲,雖然較大的模型可能會帶來可靠性問題,但它們也提供了前所未有的功能。
我們需要專注于開發穩健的評估方法并提高透明度。
還有人認爲,這項研究凸顯了人工智能所面臨的微妙挑戰(平衡模型擴展與可靠性)。
更大的模型更不可靠,依靠人類反饋也不管用了
爲了說明結論,論文研究了從人類角度影響 LLMs 可靠性的三個關鍵方面:
1、難度不一緻:LLMs 是否在人類預期它們會失敗的地方失敗?
2、任務回避:LLMs 是否避免回答超出其能力範圍的問題?
3、對提示語表述的敏感性:問題表述的有效性是否受到問題難度的影響?
更重要的是,作者也分析了曆史趨勢以及這三個方面如何随着任務難度而演變。
下面一一展開。
對于第 1 個問題,論文主要關注正确性相對于難度的演變。
從 GPT 和 LLaMA 的演進來看,随着難度的增加,所有模型的正确性都會明顯下降。(與人類預期一緻)
然而,這些模型仍然無法解決許多非常簡單的任務。
這意味着,人類用戶無法發現 LLMs 的安全操作空間,利用其确保模型的部署表現可以完美無瑕。
令人驚訝的是,新的 LLMs 主要提高了高難度任務上的性能,而對于更簡單任務沒有明顯的改進。比如,GPT-4 與前身 GPT-3.5-turbo 相比。
以上證明了人類難度預期與模型表現存在不一緻的現象,并且此不一緻性在新的模型上加劇了。
這也意味着:
目前沒有讓人類确定 LLMs 可以信任的安全操作條件。
在需要高可靠性以及識别安全操作空間的應用中,這一點尤其令人擔憂。這不禁令人反思:人類正在努力創造的前沿機器智能,是否真的是社會大衆所期望擁有的。
其次,關于第 2 點論文發現(回避通常指模型偏離問題回答,或者直接挑明 " 我不知道 "):
相比較早的 LLMs,最新的 LLMs 大幅度地提高了許多錯誤或一本正經的胡說八道的答案,而不是謹慎地避開超出它們能力範圍之外的任務。
這也導緻一個諷刺的現象:在一些 benchmarks 中,新的 LLMs 錯誤率提升速度甚至遠超于準确率的提升(doge)。
一般來說,人類面對越難的任務,越有可能含糊其辭。
但 LLMs 的實際表現卻截然不同,研究顯示,它們的規避行爲與困難度并無明顯關聯。
這容易導緻用戶最初過度依賴 LLMs 來完成他們不擅長的任務,但讓他們從長遠來看感到失望。
後果就是,人類還需要驗證模型輸出的準确性,以及發現錯誤。(想用 LLMs 偷懶大打折扣)
最後論文發現,即使一些可靠性指标有所改善,模型仍然對同一問題的微小表述變化敏感。
舉個栗子,問 " 你能回答……嗎 ?" 而不是 " 請回答以下問題…… " 會導緻不同程度的準确性。
分析發現:僅僅依靠現存的 scaling-up 和 shaping-up 不太可能完全解決指示敏感度的問題,因爲最新模型和它們的前身相比優化并不顯著。
而且即使選擇平均表現上最佳的表述格式,其也可能主要對高難度任務有效,但同時對低難度任務無效(錯誤率更高)。
這表明,人類仍然受制于提示工程。
更可怕的是,論文發現,人類監督無法緩解模型的不可靠性。
論文根據人類調查來分析,人類對難度的感知是否與實際表現一緻,以及人類是否能夠準确評估模型的輸出。
結果顯示,在用戶認爲困難的操作區域中,他們經常将錯誤的輸出視爲正确;即使對于簡單的任務,也不存在同時具有低模型誤差和低監督誤差的安全操作區域。
以上不可靠性問題在多個 LLMs 系列中存在,包括 GPT、LLaMA 和 BLOOM,研究列出來的有32 個模型。
這些模型表現出不同的Scaling-up(增加計算、模型大小和數據)以及shaping-up(例如指令 FT、RLHF)。
除了上面這些,作者們後來還發現一些最新、最強的模型也存在本文提到的不可靠性問題:
包括 OpenAI 的 o1 模型、Antropicic 的 Claude-3.5-Sonnet 和 Meta 的 LLaMA-3.1-405B。
并有一篇文檔分别舉出了例子(具體可查閱原文檔):
此外,爲了驗證其他模型是否存在可靠性問題,作者将論文用到的測試基準ReliabilityBench也開源了。
這是一個包含五個領域的數據集,有簡單算術(" 加法 ")、詞彙重組(" 字謎 ")、地理知識(" 位置 ")、基礎和高級科學問題(" 科學 ")以及以信息爲中心的轉換(" 轉換 ")。
作者介紹
論文一作Lexin Zhou(周樂鑫),目前剛從劍橋大學 CS 碩士畢業(24 歲),研究興趣爲大語言模型評測。
在此之前,他在瓦倫西亞理工大學獲得了數據科學學士學位,指導老師是 Jose Hernandez-Orallo 教授。
個人主頁顯示,他曾有多段工作實習經曆。在 OpenAI 和 Meta 都參與了紅隊測試。(Red Teaming Consultancy )
關于這篇論文,他重點談到:
通用人工智能的設計和開發需要進行根本性轉變,特别是在高風險領域,因爲可預測的錯誤分布至關重要。在此實現之前,依賴人類監督是一種危險。
評估模型時,考慮人類認爲的難度和評估模型的回避行爲,可以更全面地描述模型的能力和風險,而不僅僅關注在困難任務上的表現。
論文也具體提到了導緻這些不可靠性的一些可能原因,以及解決方案:
在 Scaling-up 中,近幾年的 benchmarks 越來越偏向于加入更多困難的例子,或者給予所謂 " 權威 " 來源更多權重,研究員也因此更傾向于優化模型在困難任務上的表現,導緻在難度一緻性上慢性惡化。
在 shaping-up 中(如 RLHF),被雇傭的人傾向于懲罰那些規避任務的答案,導緻模型更容易在面對自己無法解決的難題時 " 胡說八道 "。
至于如何解決這些不可靠性,論文認爲,可以使用人類難度預期去更好的訓練或微調模型,又或者是利用任務難度和模型自信度去更好的教會模型規避超出自身能力範圍的難題,等等。
對此,你有何看法?
文章:
https://www.nature.com/articles/s41586-024-07930-y
參考鏈接:
[ 1 ] https://x.com/lexin_zhou/status/1838961179936293098
[ 2 ] https://huggingface.co/datasets/lexin-zhou/ReliabilityBench
[ 3 ] https://lexzhou.github.io/