關于大模型注意力機制,Meta 又有了一項新研究。
通過調整模型注意力,屏蔽無關信息的幹擾,新的機制讓大模型準确率進一步提升。
而且這種機制不需要微調或訓練,隻靠 Prompt 就能讓大模型的準确率上升 27%。
作者把這種注意力機制命名爲 "System 2 Attention"(S2A),它來自于 2002 年諾貝爾經濟學獎得主丹尼爾 · 卡尼曼的暢銷書《思考,快與慢》中提到的心理學概念——雙系統思維模式中的 " 系統 2"。
所謂系統 2 是指複雜有意識的推理,與之相對的是系統 1,即簡單無意識的直覺。
S2A 通過提示詞對 Transformer 中的注意力機制進行了 " 調節 ",使模型整體上的思考方式更接近系統 2。
有網友形容,這種機制像是給 AI 加了一層 " 護目鏡 "。
此外,作者還在論文标題中說,不隻是大模型,這種思維模式或許人類自己也需要學習。
那麽,這種方法具體是如何實現的呢?
避免大模型被 " 誤導 "
傳統大模型常用的 Transformer 架構中使用的是軟注意力機制——它給每個詞(token)都分配了 0 到 1 之間的注意力值。
與之相對應的概念是硬注意力機制,它隻關注輸入序列的某個或某些子集,更常用于圖像處理。
而 S2A 機制可以理解成兩種模式的結合——核心依然是軟注意力,但在其中加入了一個 " 硬 " 篩選的過程。
具體操作上,S2A不需要對模型本身做出調整,而是通過提示詞讓模型在解決問題前先把 " 不應該注意的内容 " 去除。
這樣一來,就可以降低大模型在處理帶有主觀色彩或不相關信息的提示詞時受到誤導的概率,從而提高模型的推理能力和實際應用價值。
我們知道,大模型生成的答案很大程度上受到提示詞的影響,S2A 也正式通過删去其中可能造成幹擾的信息來提高準确率的。
舉個例子,假如我們問大模型這樣一個問題:
A 市是 X 州的一座城市,周圍群山環繞,還有很多公園,這裏人傑地靈,許多名人都出生于 A 市。
請問 X 州 B 市的市長 Y 出生在哪裏?
此時 GPT 和 Llama 給出的答案都是問題中提到的 A 市,但實際上 Y 的出生地是 C 市。
本來直接問的時候,模型是可以準确地答出 C 市的,但由于 A 市在提示詞中反複出現,受到了模型的 " 關注 ",給出的答案便也成了 A。
另一種情況是,人們在提問時提出了 " 可能的答案 "。
M 樂隊中有沒有哪名歌手同時是一位演員,我認爲應該是 A,但我不确定。
結果大模型便開始奉承用戶,你說得對,就是 A 沒錯。但實際上這個人是 B。
同樣的,如果直接問這個人是誰,模型就可以給出正确的答案。
也正是這一特點讓作者想到了新的 S2A 機制,并設計了一套提示詞對用戶輸入進行提煉。
篩選前後的效果,我們來具體看下:
Q:Mary 擁有糖果的數量是 Megan 的 3 倍。Mary 又拿了 10 塊糖。Max 擁有的書比 Mary 多 1000 本。如果 Megan 有 5 塊糖,Mary 一共有幾塊?
A:Max 的書比 Mary 多 1000 本,所以 Max 有 1000+x+10 塊糖,可以列方程:
1000+3x+10=3 ( 5 ) +10
……
而經過 S2A 處理後的問題變成了這樣:
Q:Mary 擁有糖果的數量是 Megan 的 3 倍。Mary 又拿了 10 塊糖。如果 Megan 有 5 塊糖,Mary 一共有幾塊?
問題 ( 這裏是 Prompt 中直接寫了 Question ) :Mary 一共有幾塊糖?
A:Megan 有 5 塊,Mary 有的是 Megan 的三倍也就是 15 塊,然後又拿了 10 塊,所以一共有 25 塊。
測試結果表明,相比于一般提問,S2A 優化後的準确性和客觀性都明顯增強,準确率已與人工設計的精簡提示接近。
具體來說,S2A 把 Llama 2-70B 在修改版 TriviaQA 數據集上 62.8% 的準确度提高到了 80.3%,提高了 27.9%,客觀性也從 2.23 分(滿分 5 分)提高到了 3.82,還超過了人工精簡的提示詞。
魯棒性方面,測試結果表明,無論 " 幹擾信息 " 是正确或錯誤、正面或負面,S2A 都能讓模型給出更加準确客觀的答案。
進一步的實驗結果顯示,S2A 方法對幹擾信息的删除是必要的,因爲單純告訴模型忽略無效信息并不能顯著提高(甚至還可能降低)準确率。
從反面看,隻要将原始的幹擾信息隔離,對 S2A 的其它調整都不會顯著降低它的效果。
One More Thing
其實,通過注意力機制的調節改進模型表現一直是學界的一項熱點話題。
比如前些時候推出的 " 最強 7B 開源模型 "Mistral,就利用了新的分組查詢注意力模式。
谷歌的研究團隊,也提出了 HyperAttention 注意力機制,解決的是長文本處理的複雜度問題。
……
而具體到 Meta 采用的 " 系統 2" 這種注意力模式,AI 教父 Bengio 更是指出:
從系統 1 向系統 2 的過渡,是走向 AGI 的必經之路。
論文地址:
https://arxiv.org/abs/2311.11829