GPT-4的“自我糾正”，反而越改越錯？

題圖來自：視覺中國

大模型又被爆出重大缺陷，引得 LeCun 和馬庫斯兩位大佬同時轉發關注！

在推理實驗中，聲稱可以提高準确性的模型自我糾正，把正确率從 16%" 提高 " 到了 1%！

簡單來說，就是 LLM 在推理任務中，無法通過自我糾正的形式來改進輸出，除非 LLM 在自我糾正的過程中已經知道了正确答案。

由 ASU 研究人員發表的兩篇論文，駁斥了之前很多研究提出的方法 " 自我糾正 " ——讓大模型對自己的輸出的結果進行自我糾正，就能提高模型的輸出質量。

論文地址：https://arxiv.org/abs/2310.12397

論文地址：https://arxiv.org/abs/2310.08118

論文的共同作者 Subbarao Kambhampati 教授，一直緻力于 AI 推理能力的相關研究，9 月份就發表過一篇論文，甚至全盤否定了 GPT-4 的推理和規劃能力。

論文地址：https://arxiv.org/pdf/2206.10498.pdf

而除了這位教授之外，最近 DeepMind 和 UIUC 大學的研究者，也針對 LLM 在推理任務中的 " 自我糾正 " 的能力提出了質疑。

這篇論文甚至呼籲，所有做相關研究的學者，請嚴肅對待你們的研究，不要把正确答案告訴大模型之後再讓它進行所謂的 " 自我糾正 "。

因爲如果模型不知道正确答案的話，模型 " 自我糾正 " 之後輸出質量反而會下降。

https://arxiv.org/abs/2310.01798

接下來，就具體來看看這兩篇最新論文。

一、GPT-4" 自我糾正 "，輸出結果反而更差

第一篇論文針對 GPT-4 進行研究，讓 GPT-4 對圖形着色問題提供解決方案，然後讓 GPT-4 對于自己提出的方案進行 " 自我糾正 "。

同時，作者再引入一個外部的評估系統對 GPT-4 的直接輸出，和經過了 " 自我糾正 " 循環之後的輸出進行評價。

實驗結果顯示，GPT-4 在猜測顔色方面的準确率還不到 20%，這個數值似乎并不讓人意外。

但令人驚訝的是，" 自我糾正 " 模式下的準确性卻大幅下降（下圖第二根柱狀條）——與所有自我糾正本意完全背道而馳！

作者認爲，這種看似反直覺的情況可以這麽解釋：GPT-4 在驗證正确答案的表現也很糟糕！

因爲即使當 GPT-4 偶然猜到正确顔色時，它的 " 自我糾正 " 會使它覺得正确答案是有問題的，然後就把正确答案給替換掉了。

通過進一步研究後還發現：如果外部驗證器給 GPT-4 猜測出的顔色提供了可以被證實的正确答案，GPT-4 确實會改進它的解決方案。

在這種情況下，經過 " 自我糾正 " 産生的提示詞，确實可以提高輸出結果的質量（上圖的第 3~5 根柱狀圖）

總結來看，就是對于 " 着色問題 " 任務，GPT-4 獨立的 " 自我糾正 " 反而會損害輸出的性能，因爲 GPT-4 沒法驗證答案是否正确。

但是如果能提供外部的正确驗證過程，GPT-4 生成的 " 自我糾正 " 确實能提升性能。

而另一篇論文，從規劃任務的角度來研究了大語言模型 " 自我糾正 " 的能力，研究結果也和上一篇論文類似。

而且，研究人員發現，真正能提高輸出準确性的不是 LLM 的 " 自我糾正 "，而是外部獨立驗證器的反饋。

歸根結底，還是在于 LLM 沒有辦法進行獨立的驗證，必須依賴外部的驗證器給出的 " 正确答案 "，才能有效地進行 " 自我糾正 "。

二、" 着色問題 " 表現不佳，LLM 無法獨立驗證正确答案

研究設計框架

" 着色問題 " 是非常經典的推理問題，即使難度不大，答案也足夠多樣性，而且答案的正确性很容易進行驗證。

多樣性的結果使得 LLM 的訓練數據很難覆蓋全，盡量避免了 LLM 的訓練數據被污染的可能。

這些原因使得 " 着色問題 " 很适合用來研究 LLM 的推理能力，也很方便用來研究 LLM 在推理中 " 自我糾正 " 的能力。

研究人員構建了自己的數據集，使用 GrinPy2 來處理常見的圖操作。每個圖都是使用 Erdos-Rényi 方法（˝ p = 0.4）構造的。

一旦找到正确的答案，它就會被編譯成标準的 DIMACS 格式，并附加上一個包含其預計算的色數（chromatic number）的注釋。

對于接下來的實驗，研究人員生成了 100 個實例，每個實例平均有 24 條邊，分布在從 10 到 17 的節點數範圍内——這一分布是因爲經驗顯示，它是一個表現足夠多變的範圍。

研究人員使用的圖例如下圖 1 所示，這個流程包括 LLM 的第一次回複、該回複的返回提示（backprompt）以及最終正确的圖色方案。

叠代返回提示（Iterative Backprompting）的架構

提示生成器（Prompt Generator）：

這個提示詞生成器會選取一個 DIMACS 實例，并将每條邊翻譯成一個句子，然後将整體包裹在一組通用指令中，從而構造出一個自然語言提示詞。

研究人員有意縮小不同實例提示之間的差異，以減少研究人員向 LLM 洩露的問題特定信息。各種類型提示的示例可以在附錄中找到。

大型語言模型：

通過 OpenAI API 來調用 GPT-4，這是當前最先進的模型。

研究人員提供一個系統角色：" 你是一個解決各種 CSP（約束滿足問題）的約束滿足求解器 "。

返回提示詞生成（Backprompt Generation）

在驗證模式下，LLM 收到一種不同類型的提示。

除了标準指令外，它隻包含圖的描述和建議的着色方案。它的任務是驗證正确性、最優性以及每個頂點是否都已經被塗上了一個顔色。如果生成的回複中有一組邊是矛盾的，那着色方案就是錯誤的。

爲了比較每個點，研究人員還構建了一個能夠列出每一條矛盾邊的驗證器。

由于 LLM 的響應也是自然語言形式的，研究人員首先将它們翻譯成便于分析的格式。爲了使這個過程更加一緻，研究人員設計了最初的提示，以描述一個模型需要遵循的精确輸出格式。然後，該響應會被評估其正确性。

驗證

爲了更深入了解 LLM 的驗證能力，研究人員研究了它們在找出提出的着色方案中的錯誤方面的表現。

直觀來說，這些錯誤應該很容易識别：如果組成一個邊的兩個頂點共享一個顔色，則立即返回該邊。從算法角度來看，所有需要做的就是遍曆所有邊，并将每個頂點的顔色與其對應頂點的顔色進行比較。

研究人員使用相同的分析流程，但構建了一個研究人員稱爲 color_verification 的新域。LLM 被引導去檢查着色的正确性、最優性以及是否每個頂點都已經被賦予了一個顔色。

如果着色是不正确的，它被指示列出着色中的錯誤，即如果兩個連接的節點共享一種顔色，就返回該邊以表示該錯誤。沒有則給出返回提示（backprompts）。

研究人員使用之前相同的圖實例，但生成了四種用于測試模型的着色方案：

正确（Correct）：通過叠代的、随機的貪婪算法生成的沒有錯誤的最優着色方案（使用預先計算的色數以确保最優性）。

缺失（Ablated）：将先前一組着色方案中的一個随機節點改變爲其鄰居的顔色。

非最優（Non-optimal）：在正确的集合中，随機選擇一個顔色部分重新着色爲一個新的色調。

随機（Random）：完全随機分配的顔色，不同顔色的數量等于圖的色數。

LLM 從先前實驗中 LLM 生成的輸出中随機選取着色方案。

結論

對 LLM 進行提示、評估答案，并在沒有任何返回提示（backprompts）的情況下就會進入下一個實例，得到的基線分數爲 16%。

當研究人員運行相同的實例，但這次使用由相同的語言模型充當驗證者生成的反饋進行返回提示時，性能急劇下降——100 個實例中隻有一個得到了正确的回答。

與外部合格的驗證器進行返回提示的結果起初看似更有效果。

正确回答的實例數量接近 40%，但如果這意味着 GPT-4 在聽取、改進，并根據反饋進行推理，那麽研究人員期望更準确的返回提示會帶來更好的結果。

然而，在這個域中，原始分數（見上圖 2）并沒有證明這一點。

LLM 的驗證能力

研究人員測試了 GPT-4 在相同實例上驗證圖着色方案的能力，爲每種實例生成了五種不同類型的着色方案。

明顯的結果是，與上面的 LLM 自我糾正結果完全一緻：模型幾乎不願将任何答案标記爲正确。在 100 個最優着色方案中，它隻同意其中 2 個是正确的。

整個 500 個着色方案的集合，其中 118 個是正确的，它隻聲稱其中 30 個是正确的。在這 30 個中，其實隻有 5 次是正确的。

總體而言，這一模式保持不變。在不到 10% 的案例中，LLM 給出了 " 正确 "、" 非最優 " 或 " 缺少賦值 " 的反應。在這些情況中，行爲看似有些随機。

在大約四分之一的實例中，它用 " 這是不正确的 " 驗證作出回應，而解釋與現實相符，而且它隻通過指明不超過一個邊來實現這一點，從而最小化了錯誤陳述某事的機會。

結果如上表 2 所示。請注意，當域的錯誤率增加時，幻覺比例下降。也就是說，當有更多的不正确的邊時，模型更有可能指出其中出錯的情況。

三、LLM 自我批評，性能不增反減

在 12 日提交的論文中，作者同樣得出了與上面一緻的結論。

無論是規劃，還是簡單的算術或邏輯，當前最先進的大模型 GPT-4 也無法完全勝任。

許多研究人員對其進行了許多的探索和改進，其中就包括讓 LLM 學會自我叠代、自我驗證等策略來提升性能。由此，業界人們樂觀地認爲，大模型還有救！

然而，經典意義上的推理任務複雜性與大模型無關，因爲 LLM 是采用近似檢索而非精确推理的模型。

在 12 日提交 arXiv 的論文中，ASU 研者系統地評估和分析 LLM 在規劃任務中的自我批評，以及叠代優化的能力。

研究中，作者提出了一個包含生成器 LLM 和驗證器 LLM 的規劃系統。

其中，GPT-4 生成器負責生成候選計劃，GPT-4 驗證器負責驗證計劃的正确性并提供反饋。

然後，研究人員在 Blocksworld 規劃領域上進行了實驗，并對以下方面進行了實證評估：

自我批評對整個 LLM+LLM 系統的計劃生成性能的影響；

驗證器 LLM 相對于地面真值驗證的性能；

在批評 LLM 生成時，同反饋級别對整體系統性能的影響。

結果表明，與使用外部可靠的驗證器相比，自我批評會降低 LLM 規劃生成性能。

性能下降可以直接歸因于驗證器 LLM 的糟糕結果，驗證器 LLM 産生了大量的假陽性，這可能嚴重損害系統的可靠性。

驗證器 LLM 的二元分類準确率僅爲 61%，存在大量的假陽性（将錯誤規劃判斷爲正确）。

另外，根據反饋的詳細程度對比，發現其對規劃生成性能影響不大。

總的來說，這項研究的系統調查提供了初步證據，對于 LLM 作爲叠代、自我批評框架内規劃任務驗證者的有效性提出質疑。

論文作者 Subbarao Kambhampati 是亞利桑那州立大學計算機科學教授。Kambhampati 研究規劃和決策中的基本問題，特别是受人類感知人工智能系統挑戰的推動。

參考資料

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736

本文來自微信公衆号：新智元（ID：AI_era），編輯：桃子、潤