文 | 追問 nextquestion
" 讀書破萬卷,下筆如有神。" 這一古語在現代大模型的訓練過程中有了更爲清晰的诠釋。在足夠多的訓練數據基礎上,AI 在諸多任務上已獲得了比肩人類的表現。爲了方便理解,一種觀點将大模型拟人化,認爲大模型也與人類一樣,擁有記憶,甚至擁有相似的記憶模式和機制。然而,正如不應簡單将飛機類比爲鐵鳥,人類記憶從産生到提取的過程,都與基于上下文預測下一個詞的語言模型有着本質的區别。
不過,對人類記憶的研究爲我們理解大型模型的記憶機制提供了一個出發點。人類記憶分爲長期記憶和短期記憶(又稱工作記憶)。對于大型模型而言,其 " 長期記憶 " 存儲在模型的億萬參數中,短期記憶則體現爲模型一次對話中可回憶起的上下文長度的 context。例如 GPT-4 的 context 是 128k,這相當于可一次性輸入 10 萬漢字左右。
但這種類比真的有效嗎?大語言模型與人類記憶有何異同?我們又該如何借助人類的記憶機制解決大模型應用嘗試中所遇到的問題?
01 大模型的長期記憶與人類的相似
對于任何動物而言,其大腦功能都隻是爲了在進化的無情篩選中勝出。作爲交流工具的語言也并不例外。在語言中,諸如語法結構、遞歸嵌套等複雜特征,探究其最底層的目的,仍在于更高效、準确地完成溝通。既如此,在一般情況下,語言就不必追求完美無缺。對于經過人類強化調整過的大模型,其本質同樣是概率的、随機的。于是可以通過調整溫度(用于調整模型生成時文本創作和多樣性的超參數)這一參數,讓模型的輸出看起來更具有創造性。
就記憶而言,大模型與人類一樣,呈現出首因效應和近因效應 [ 1 ] ,尤其是當需要記憶的事實更多時(圖 1)。
首因效應:primary effect,即先入爲主,記憶時對第一印象念念不忘;近因效應:recency effect,即對事物的最近一次接觸給人留下深刻的感知或認知。
▷圖 1:大模型的預測準确性随詞彙而呈現先下降再上升,與人類記憶類似。圖源:參考文獻 1
這一性質是模型大小達到一定阈值之後出現的湧現特征(圖 2),而當模型參數隻有 70M 時,模型實際上無法預測更遠的單詞,所以也不會出現首因效應。
▷圖 2:不同參數大小的模型在預測不同位置單詞時的準确性。圖源:參考文獻 1
在學習過程中,人類可以通過重複來提升記憶效果,這一現象在大模型中也會出現(圖 3)。此外,相比于直接重複待學習的内容,将内容更改順序後重複學習,模型的效果還會有所提升。
▷圖 3:對比模型在面對重複内容時的預測準确性。圖源:參考文獻 1
當人類在面對相互矛盾的事實時,記憶會出現差錯,這意味着遺忘的原因不在于記憶随時間衰減,而在于記憶産生時存在幹擾。大模型在面對相互沖突的事實時,也會有類似的表現,當沖突越具體(例如沖突來自于同一個人而非不同國家的人),記憶的差錯就越明顯(圖 4)。
▷圖 4:在加入不同類型的幹擾信息後,大模型的預測準确性顯著下降。圖源:參考文獻 1
此外,加拿大認知心理學家托爾文(Endel Tulving)認爲,記憶的存儲和讀取是兩個相互獨立的過程,這一點也适合大模型,其訓練和推理過程中使用的機制截然不同。托爾文将長期記憶進一步分爲陳述性記憶和程序性記憶,其中陳述性記憶包括語義記憶和情景記憶。
對于大模型來說,語義記憶對應于模型通過預訓練或微調過程積累的知識庫,這些知識隐式地存儲在其參數中。與此同時,情景記憶的對應體現在模型處理或生成文本時,依賴于特定上下文信息的能力上。然而,當生成全新内容時,所需激活的是類似于程序性記憶的能力,這超越了單純的情景記憶。 [ 4 ]
盡管在訓練過程中,大模型主要涉及到顯式的情景記憶的應用,程序性記憶并未顯著涉及。在推理過程中,大型語言模型利用輸入的上下文信息來引用先前的對話或與當前語境相關的數據,這一過程可以被視爲對情景記憶的模拟調用。這表明,盡管大模型在訓練過程中主要處理與特定實例相關的顯式信息,它們仍能通過處理與之前交互相關的上下文信息,展現出一種類似于人類情景記憶的能力。進一步地,有研究者認爲,當模型接收到足夠詳細和具體的上下文信息時,它能夠 " 激活 " 更複雜的行爲模式,類似于人類的程序性記憶,從而展現出因果推斷、心智模拟等高級湧現能力。
雖然大模型和人腦在特定表現上呈現出相似性,但這并不代表兩者也有着相似的信息處理機制。實際上,對于大模型爲何會表現出這樣的特征,學界目前也還沒有明确的結論。例如上述研究中,我們并不清楚如果隻考慮大模型最上層的參數,能否重現諸如首因效應的特征,也不清楚當限定上下文的範圍時,模型的表現是否會改變。或許通過受限的大模型,可以更進一步定位大模型與人類記憶相似的模塊,從而有助于對此現象給予解釋。
02 大模型通過 " 外挂 " 增加記憶容量
理解記憶的對于拓展大模型的能力至關重要。正如解決數學難題時在草稿紙上記錄步驟可增強我們的工作記憶一樣,爲大模型引入 " 記憶外挂 " 技術,可以幫助模型顯著提升其工作記憶。
例如,通過TiM 系統應用,讓大模型在每次回答問題之前,都對外部的存儲空間進行一定處理,包括插入、遺忘和合并(見圖 6)。這樣,大模型在應對多輪對話或問題時,可以更有效地處理并回憶上下文信息,準确檢索出所需信息。類似的方式還包括遞歸式生成場景記憶 [ 6 ] ,該方法可視作讓大模型在每一輪回答完問題後,總結前一輪問題包含的上下文,将其放入外置記憶中,從而避免大模型在多輪對話時忘記前幾次談話中的内容。
▷圖 6:對比大模型傳統的記憶與新提出的 TiM 在回答問題時的表現。圖源:參考文獻 5
爲了解決長文本處理的挑戰,2023 年在 NIPS 上發表的一篇論文提出了一種名爲LongMem的方法 [ 7 ] 。這項技術應對的問題不是多輪對話,而是一次處理一個長文本。通過将長文本切分成多個部分,每部分由固定的大模型獨立處理,随後通過一個可訓練的殘差網絡綜合各部分信息,根據提問的具體内容選擇最相關的部分進行回答。這樣,LongMem 可以讓大模型更準确地提取信息。
▷圖 7:LongMem 機制的運作流程示意圖。圖源:參考文獻 7
在機器人控制問題上,應用大模型同樣需要給其配上記憶模塊 [ 8 ] ,這一類模型被稱爲具身 AI。在機器人控制任務中,具身 AI 的 " 眼睛 " 通過處理視覺傳感器的輸入來産生周圍環境的語言描述,之後其 " 神經 Nerve" 結合機器人的自身動作,生成以第一人稱爲中心的狀态信息描述。這些信息随後被編碼并存儲于一個高級的語言處理系統中,即所謂的 " 大腦 "。同時這個大腦還可根據導航任務,産生控制指令。
這樣的運作方式,能夠實現機器人與人經由自然語言的直接互動,還可利用大模型中存儲的海量常識,來識别和适應環境變化,例如某些東西是有生命會運動的,我需要避開它。這樣構建的機器人,就會在導航時 " 意識到 " 眼前的貓盡管趴着不動,也可能會在自己靠近後避開。這類具身 AI 的基礎,就在于生成、存儲及更新關于自身狀态的記憶模型。
▷圖 8:LLM-Brain 具身 AI 的架構。圖源:參考文獻 8
另一個應用大模型加記憶的例子來自于搜索場景。研究者提出名爲CoPS [ 9 ] 的架構,其由三個部分組成:外部記憶模塊存儲用戶的搜索記錄和行爲,之後交由大模型來推斷搜索用戶的意圖及背景,并基于推斷的個人檔案對傳統搜索引擎給出的鏈接進行重現排序,從而使搜索引擎給出的結果更加個性化。由于利用了預訓練的大模型,CoPS 可以進行零嘗試學習,即不需要招募測試用戶,收集用戶數據及反饋,就可以利用大模型中的知識提升搜索的準确性。
▷圖 9:CoPS 架構。圖源:參考文獻 9
通過向大模型增加外部記憶來拓展大模型的應用範圍,其還有衆多案例。研究表明 [ 10 ] ,在被賦予可讀寫的關聯性外部記憶後,當前 Transformer 架構的語言模型在計算上可被視作 " 通用圖靈機 "。這意味着,這些模型不僅能夠處理有限長度的輸入字符串,還能夠模拟任何算法,處理任意大小的輸入。
03 大模型的 " 幻覺 "無需克服
認知科學家莉莎 · 費德曼 · 巴瑞特(Lisa Feldman Bartlett)指出:" 記憶不是簡單地重新激活無數固定的、毫無生趣的、細碎的痕迹,而是一種富有想象力的重構或者構建。" 這一描述似乎對大模型也頗爲适合。
理解了生物記憶的不完美,我們也許不該再将大模型的 " 幻覺 " 視爲一種需要克服的頑疾,而是将其視作一種内生的、不可避免的湧現特征。就如《紅樓夢》中賈寶玉所言," 古來杜撰的多了,偏我杜撰不得 "。事實上,《紅樓夢》的作者也踐行了筆下人物的話,在書中杜撰了多個典故。可這絲毫不會影響《紅樓夢》的偉大。一旦我們将大模型的幻覺視作記憶生成過程中的副産品,就不應當在大模型自身的框架内試圖消除 " 幻覺 ",而應通過外部記憶的方式解決幻覺在特定場景下帶來的問題。甚至,還可以将 " 幻覺 " 視作通向 AGI 過程中遇到的山谷,需要先設法讓模型增加幻覺,從而促進模型的創造力。
雖然無論對于大模型還是人腦,我們目前都沒有完全理解其記憶的運作機制。不過,神經科學研究中有着對記憶的多種分類方式,這或許提醒大模型開發者不應隻采用一種記憶模式。通過在大模型外部增加顯式的記憶,可以顯著提升大模型在長文本,以及多輪對話中的表現,同時擴展大模型的應用場景。這給隻想通過簡單擴大模型規模以卷出更好模型的開發者,提出了另一條更爲經濟且資源節省的優化路徑。
在神經科學中,記憶是相互競争的,這樣的動态特征意味着記憶的提取、更新、強化與遺忘應當在同一框架下被審視。而在當今的大模型中,記憶的産生和讀取是相互獨立的。大模型不會由于反複讀取某段記憶就更新對其的存儲,而人類每次讀取長期記憶都是一次生成式的往日再現,反複讀寫之後,最初的原始記憶就可能發生改變,這也是之後大模型和記憶相關研究者需要注意的差異。
參考文獻
[ 1 ] https://arxiv.org/abs/2311.03839
[ 2 ] https://arxiv.org/ftp/arxiv/papers/2309/2309.01660.pdf
[ 3 ] https://arxiv.org/abs/2402.15052
[ 4 ] https://arxiv.org/pdf/2401.02509.pdf
[ 5 ] https://arxiv.org/pdf/2311.08719.pdf
[ 6 ] https://arxiv.org/pdf/2308.15022.pdf
[ 7 ] https://arxiv.org/pdf/2306.07174.pdf
[ 8 ] https://arxiv.org/pdf/2304.09349v1.pdf
[ 9 ] https://arxiv.org/pdf/2402.10548.pdf
[ 10 ] https://arxiv.org/abs/2301.04589