文字序順不響影GPT-4閱讀理解，别的大模型都不行

研表究明，漢字序順并不定一影閱響讀（對于英文來說，則是每一個單詞中的字母順序）。

現在，日本東京大學的一項實驗發現，這個 " 定理 " 居然也适合 GPT-4。

比如面對這樣一段 " 鬼畫符 "，幾乎裏面每一個單詞的每一個字母都被打亂：

oJn amRh wno het 2023 Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。

但 GPT-4 居然完美地恢複出了原始句子（紅框部分）：

原來是一個叫做 Jon Rahm 的人赢得了 2023 年美國大師賽（高爾夫）的故事。

并且，如果你直接就這段亂碼對 GPT-4 進行提問，它也能先理解再給出正确答案，一點兒也不影響閱讀：

對此，研究人員感到非常吃驚：

按理說亂碼單詞會對模型的tokenization處理造成嚴重幹擾，GPT-4 居然和人類一樣不受影響，這有點違反直覺啊。

值得一提的是，這項實驗也測試了其他大模型，但它們全都挑戰失敗——有且僅有 GPT-4 成功。

具體怎麽說？

文字順序不影響 GPT-4 閱讀

爲了測試大模型抗文字錯亂幹擾的能力，作者構建了一個專門的測試基準：Scrambled Bench。

它共包含兩類任務：

一是加擾句子恢複（ScrRec），即測試大模型恢複亂序句子的能力。

它的量化指标包括一個叫做恢複率（RR）的東西，可以簡單理解爲大模型恢複單詞的比例。

二是加擾問答（ScrQA），測量大模型在上下文材料中的單詞被打亂時正确理解并回答問題的能力。

由于每個模型本身的能力并不相同，我們不好直接用準确性來評估這一項任務，因此作者在此采用了一個叫做相對性能增益（RPG）的量化指标。

具體測試素材則選自三個數據庫：

一個是 RealtimeQA，它每周公布當前 LLM 不太可能知道的最新消息；

第二個是 DREAM（Sun et al.，2019），一個基于對話的多項選擇閱讀綜合數據集；

最後是 AQuARAT，一個需要多步推理才能解決的數學問題數據集。

對于每個數據集，作者從中挑出題目，并進行不同程度和類型的幹擾，包括：

1、随機加擾（RS），即對每一個句子，随機選擇一定比例（20%、50%、100%）的單詞，對這些單詞中的所有字母進行打亂（數字不變）。

2、保持每個單詞的第一個字母不變，剩下的随意排列（KF）。

3、保持每個單詞的首字母和最後一個字母不變，剩下的随機打亂（KFL）。

參與測試的模型有很多，文章正文主要報告了以下幾個：

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b 和 Llama-2-70b。

首先來看不同幹擾類型的影響。

如下圖所示：

在 KFL 設置中（即首尾字母不變），不管是加擾句子恢複還是加擾問答任務，模型之間的性能差距都不大。

然而，随着幹擾難度越來越高（變爲 KF 和 RS 後），模型的性能都迎來顯著下降——除了 GPT-4。

具體而言，在加擾句子恢複（ScrRec）任務中，GPT-4 的恢複率始終高于 95%，在加擾問答（ScrQA）任務中，GPT-4 的相對準确性也都始終維在 85%-90% 左右。

相比之下，其他模型有的都掉到了不足 20%。

其次是不同加擾率的影響。

如下圖所示，可以看到，在加擾句子恢複（ScrRec）任務中，随着一個句子中被幹擾的單詞數量越來越多，直至 100% 之後，隻有 GPT-3.5-turbo 和 GPT-4 的性能沒有顯著變化，當然，GPT-4 還是比 GPT-3.5 優先了很大一截。

而在加擾問答（ScrQA）任務中，随着句子中被打亂的單詞數量越來越多，所有模型性能都出現了都顯著下降，且差距越來越大。

但在其中，GPT-4 還能以 87.8% 的成績保持遙遙領先，并且下降幅度也是最輕微的。

所以簡單總結來說就是：

大多數模型都可以處理一定比例的幹擾文本，但到極端程度時（比如單詞全部打亂），就隻有 GPT-4 表現最好，隻有 GPT-4 面對完全混亂的詞序，幾乎不怎麽被影響。

GPT-4 還擅長分詞

在文章最後，作者指出：

除了打亂單詞字母順序之外，還可以研究插入字母、替換字母等情況的影響。

唯一的問題是，由于 GPT-4 爲閉源，大家也不好調查爲什麽 GPT-4 可以不被詞序影響。

有網友發現，除了本文所證明的情況，GPT-4 也非常擅長将下面這一段完全連起來的英文：

UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRA

NQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROV

EOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKN

OWITHOLDSTHEKEYSTOUNTOLDPOWER

正确分隔開來：

Underneath the gaze of Orion ’ s belt, where the Sea of Tranquility meets the edge of twilight, lies a hidden trove of wisdom, forgotten by many, coveted by those in the know. It holds the keys to untold power.

按理來說，這種分詞操作是一件很麻煩的事兒，通常需要動态編程等操作。

GPT-4 表現出來的能力再次讓這位網友感到驚訝。

他還把這段内容放進了 OpenA 官方的 tokenizer 工具，發現 GPT-4 看到的 token 其實是這樣的：

UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA

這裏面除了 "UNDER"、"SEA" 和 "OF" 之外，幾乎剩下的所有 token 都看起來 " 毫無邏輯 "，這更加使人費解了。

對此，大夥是怎麽看的呢？

參考鏈接：

[ 1 ] https://arxiv.org/abs/2311.18805

[ 2 ] https://news.ycombinator.com/item?id=38506140