AI 做數學題,真正的思考居然是暗中" 心算 "的?
紐約大學團隊新研究發現,即使不讓AI 寫步驟,全用無意義的 " …… " 代替,在一些複雜任務上的表現也能大幅提升!
一作 Jacab Pfau 表示:隻要花費算力生成額外 token 就能帶來優勢,具體選擇了什麽 token 無關緊要。
舉例來說,讓 Llama 34M 回答一個簡單問題:自然常數 e 的前 6 位數字中,有幾個大于 5 的?
AI 直接回答約等于瞎搗亂,隻統計前 6 位數字居然統計出 7 個來。
讓 AI 把驗證每一數字的步驟寫出來,便可以得到正确答案。
讓 AI 把步驟隐藏,替換成大量的 " …… ",依然能得到正确答案!
這篇論文一經發布便掀起大量讨論,被評價爲" 我見過的最玄學的 AI 論文 "。
那麽,年輕人喜歡說更多的 " 嗯…… "、"like …… " 等無意義口癖,難道也可以加強推理能力?
從 " 一步一步 " 想,到 " 一點一點 " 想
實際上,紐約大學團隊的研究正是從思維鏈(Chain-of-Thought,CoT)出發的。
也就是那句著名提示詞" 讓我們一步一步地想 "(Let ‘ s think step by step)。
過去人們發現,使用 CoT 推理可以顯著提升大模型在各種基準測試中的表現。
目前尚不清楚的是,這種性能提升到底源于模仿人類把任務分解成更容易解決的步驟,還是額外的計算量帶來的副産物。
爲了驗證這個問題,團隊設計了兩個特殊任務和對應的合成數據集:3SUM 和 2SUM-Transform。
3SUM要求從一組給定的數字序列中找出三個數,使得這三個數的和滿足特定條件,比如除以 10 餘 0。
這個任務的計算複雜度是 O ( n3 ) ,而标準的 Transformer 在上一層的輸入和下一層的激活之間隻能産生二次依賴關系。
也就是說,當 n 足夠大序列足夠長時,3SUM 任務超出了 Transformer 的表達能力。
在訓練數據集中,把與人類推理步驟相同長度的 "..." 填充到問題和答案之間,也就是 AI 在訓練中沒有見過人類是怎麽拆解問題的。
在實驗中,不輸出填充 token" … ..." 的 Llama 34M 表現随着序列長度增加而下降,而輸出填充 token 時一直到長度 14 還能保證 100% 準确率。
2SUM-Transform僅需判斷兩個數字之和是否滿足要求,這在 Transformer 的表達能力範圍内。
但問題的最後增加了一步 " 對輸入序列的每個數字進行随機置換 ",以防止模型在輸入 token 上直接計算。
結果表明,使用填充 token 可以将準确率從 78.7% 提高到 93.6%。
除了最終準确率,作者還研究了填充 token 的隐藏層表示。實驗表明,凍結前面層的參數,隻微調最後一個 Attention 層,随着可用的填充 token 數量增多,預測的準确率遞增。
這證實了填充 token 的隐藏層表示确實包含了與下遊任務相關的隐性計算。
AI 學會隐藏想法了?
有網友懷疑,這篇論文難道在說 " 思維鏈 " 方法其實是假的嗎?研究這麽久的提示詞工程,都白玩了。
團隊表示,從理論上講填充 token 的作用僅限于 TC0 複雜度的問題範圍内。
TC0 也就是可以通過一個固定深度的電路解決的計算問題,其中電路的每一層都可以并行處理,可以通過少數幾層邏輯門(如 AND、OR 和 NOT 門)快速解決,也是 Transformer 在單此前向傳播中能處理的計算複雜度上限。
而足夠長的思維鏈,能将 Transformer 的表達能力擴展到 TC0 之外。
而且讓大模型學習利用填充 token 并不容易,需要提供特定的密集監督才能收斂。
也就是說,現有的大模型不太可能直接從填充 token 方法中獲益。
但這并不是當前架構的内在局限性,如果在訓練數據中提供足夠的示範,它們應該也能從填充符号中獲得類似的好處。
這項研究還引發了一個令人擔心的問題:大模型有能力進行無法監控的暗中計算,對 AI 的可解釋性和可控性提出了新的挑戰。
換句話說,AI 可以不依賴人類經驗,以人們看不見的形式自行推理。
這既刺激又可怕。
最後有網友開玩笑提議,讓 Llama 3 首先生成 1 千萬億點點點,就能得到 AGI 的權重了(狗頭)。
論文:
https://arxiv.org/abs/2404.15758
參考鏈接:
[ 1 ] https://x.com/jacob_pfau/status/1783951795238441449
[ 2 ] https://x.com/johnjnay/status/1784261779163349110
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~