在數據分布持續變化的動态環境中,如何進行連續模型泛化?
東京大學等高校的研究人員提出了名爲Koodos的新框架,可以基于在一些随機時間點觀測的數據分布,在任意時刻生成當下适用的神經網絡。
盡管數據随時間持續發生變化,但是泛化的模型能在連續時間中與數據分布始終保持協調一緻。
Koodos 将模型的複雜非線性動态轉化爲可學習的連續動态系統,同時利用先驗知識以确保泛化過程的穩定性和可控性。
實驗表明,Koodos 顯著超越現有方法,爲時域泛化開辟了全新的研究方向。
模型泛化面臨三大難題
在實際應用中,數據集的數據分布往往随着時間而不斷變化,預測模型需要持續更新以保持準确性。
時域泛化旨在預測未來數據分布,從而提前更新模型,使模型與數據同步變化。
領域泛化(Domain Generalization, DG)作爲一種重要的機器學習策略,旨在學習一個能夠在未見目标領域中也保持良好表現的模型。
近年來研究人員發現,在動态環境中,領域數據(Domain Data)分布往往具有顯著的時間依賴性,這促使了時域泛化(Temporal Domain Generalization, TDG)技術的快速發展。
時域泛化将多個領域視爲一個時間序列而非一組獨立的靜态個體,利用曆史領域預測未來領域,從而實現對模型參數的提前調整,顯著提升了傳統 DG 方法的效果。
然而,現有的時域泛化研究集中在 " 離散時間域 " 假設下,即假設領域數據在固定時間間隔(如逐周或逐年)收集。
基于這一假設,概率模型被用于預測時域演變,例如通過隐變量模型生成未來數據,或利用序列模型(如 LSTM)預測未來的模型參數。
然而在現實中,領域數據的觀測并不總是在離散、規律的時間點上,而是随機且稀疏地分布在連續時間軸上。
例如在下圖展示的示例中,與傳統 TDG 假設的領域在時間軸上規律分布不同,實際情況下人們隻能在特定事件發生時獲得一個域,而這些事件的發生時間并不固定。
同時,概念漂移(Concept Drift)在時間軸上發生,即領域數據分布随着時間不斷演變:如活躍用戶增加、新交互行爲形成、年齡與性别分布變化等。
理想情況下,每個時态域對應的預測模型也應随時間逐漸調整,以應對這種概念漂移。
最後,由于未來的域采集時間未知,作者希望泛化預測模型到未來的任意時刻。
此外,傳統方法也難以保證泛化過程在整個時間流中保持穩定和可控。
爲了應對這些場景中的模型泛化,作者提出了" 連續時域泛化 "(Continuous Temporal Domain Generalization, CTDG)任務,其中觀測和未觀測的領域均分布于連續時間軸上随機的時間點。
CTDG 關注于如何表征時态領域的連續動态,使得模型能夠在任意時間點實現穩定、适應性的調整,從而完成泛化預測。
CTDG 任務的挑戰遠超傳統的 TDG 方法。
CTDG 不僅需要處理不規律時間分布的訓練域,更重要的是,它旨在讓模型泛化到任意時刻,即要求在連續時間的每個點上都能精确描述模型狀态。
而 TDG 方法則僅關注未來的單步泛化:在觀測點優化出當前模型狀态後,隻需将其外推一步即可。
這使得 CTDG 區别于 TDG 任務——
CTDG 的關鍵在于如何在連續時間軸上同步數據分布和模型參數的動态演變,而不是僅局限于未來某一特定時刻的模型表現。
具體而言,與 TDG 任務相比,CTDG 的複雜性主要來自以下幾個尚未被充分探索的核心挑戰:
如何建模數據動态并同步模型動态
如何在高度非線性模型動态中捕捉主動态
如何确保長期泛化的穩定性和可控性
接下來具體分析一下這三大挑戰。
如何建模數據動态并同步模型動态
CTDG 要求在連續時間軸上捕捉領域數據的動态,并據此同步調整模型狀态。
然而,數據動态本身難以直接觀測,需要通過觀測時間點來學習。
此外,模型動态的演變過程也同樣複雜。理解數據演變如何驅動模型演變構成了 CTDG 的首要挑戰。
如何在高度非線性模型動态中捕捉主動态
領域數據的預測模型通常依賴過參數化(over-parametrized)的深度神經網絡,模型動态因此呈現出高維、非線性的複雜特征。
這導緻模型的主動态嵌藏在大量潛在維度中。
如何有效提取并将這些主動态映射到可學習的空間,是 CTDG 任務中的另一重大挑戰。
如何确保長期泛化的穩定性和可控性
爲實現未來任意時刻的泛化,CTDG 必須确保模型的長期穩定性。
此外,在許多情況下,人們可能擁有數據動态的高層次先驗知識。
如何将這些先驗知識嵌入 CTDG 的優化過程中,進而提升泛化的穩定性和可控性,是一個重要的開放性問題。
模型與動态聯合優化數學問題建模
在 CTDG 中,一個域表示在時間采集的數據集,由實例集組成。
其中,和分别爲特征值、目标值和實例數。
作者重點關注連續時間上的漸進性概念漂移,表示爲領域數據的條件概率分布随時間平滑變化。
在訓練階段,模型接收一系列在不規律時間點上收集的觀測域。
其中每個時間點是定義在連續時間軸上的實數,且滿足。
在每個上,模型學習到領域數據的預測函數。
其中表示時刻的模型參數。
CTDG 的目标是建模參數的動态變化,以便在任意給定時刻上預測模型參數,從而得到泛化模型。
在本文後續部分中,将使用簡寫符号、、和,分别表示在時間上的、、和。
設計思路
作者提出的方法通過模型與數據的同步、動态簡化表示,以及高效的聯合優化展開。
具體思路如下:
同步數據和模型的動态:作者證明了連續時域中模型參數的連續性,而後借助神經微分方程(Neural ODE)建立模型動态系統,從而實現模型動态與數據動态的同步。
表征高維動态到低維空間:作者将高維模型參數映射到一個結構化的庫普曼空間(Koopman Space)中。該空間通過可學習的低維線性動态來捕捉模型的主要動态。
聯合優化模型與其動态:作者将單個領域的模型學習與各時間點上的連續動态進行聯合優化,并設計了歸納偏置的約束接口,通過端到端優化保證泛化的穩定性和可控性。
數據動态建模與模型動态同步
作者首先假設數據分布在時間上具有連續演化的特性,即條件概率分布随時間平滑變化。
其演化規律可由一個函數所描述的動态系統刻畫。
盡管真實世界中的漸進概念漂移可能較爲複雜,但因概念漂移通常源于底層的連續過程(如自然、生物、物理、社會或經濟因素),這一假設不失普适性。
基于上述假設,模型的函數功能空間應随數據分布變化同步調整。
可以借助常微分方程來描述這一過程:
由此可推導出模型參數的演化滿足:
其中,是對的雅可比矩陣。
這一結果表明,如果數據分布的演化在時間上具有連續性,那麽的演化過程也具有連續性。
也就是說,模型參數會随數據分布的變化而平滑調整。
上式爲建立了一個由微分方程描述的模型動态系統。
但由于數據動态的具體形式未知,直接求解上述微分方程并不可行。
爲此,作者引入了一個由神經網絡定義的連續動态系統,用可學習的函數描述模型參數的變化。
該函數通過鼓勵模型動态和數據動态之間的拓撲共轭(Topological Conjugation)關系使逼近真實動态。
具體而言,拓撲共轭要求通過泛化獲得的模型參數與直接訓練得到的參數保持一緻。
爲此,作者設定了以下優化目标,以學習的參數:
其中,通過在時刻的領域上直接訓練獲得。
則表示從時間通過動态演變至的泛化參數:
通過這一優化過程,作者建立了模型動态與數據動态之間的同步機制。
借助動态函數,可以在任意時刻精确求解模型的狀态。
用庫普曼算子簡化模型動态
在實際任務中,預測模型通常依賴于過參數化的深度神經網絡,使得模型動态呈現爲在高維空間中糾纏的非線性動态。
直接對建模不僅計算量大,且極易導緻泛化不穩定。
然而,受數據動态的支配,而數據動态通常是簡單、可預測的。
這意味着在過參數化空間中,模型的主動态(Principal Dynamics)可以在适當轉換的空間内進行更易于管理的表示。
受此驅動,作者引入了庫普曼理論(Koopman Theory)來簡化複雜的模型動态。
庫普曼理論在保持動态系統特征的同時将複雜的非線性動态線性化。
具體而言,我們定義一個庫普曼嵌入函數,将原始的高維參數空間映射到一個低維的庫普曼空間中:
其中,表示庫普曼空間中的低維表示。
通過庫普曼算子,可以在線性空間中刻畫的動态:
一旦獲得了簡化的動态表示,就可以在庫普曼空間中更新模型參數,而後将其反映射回原始參數空間:
最終,通過庫普曼算子的引入,作者實現了對模型動态的簡化,保證了泛化過程的穩健性。
聯合優化與先驗知識結合
作者對多個組件同時施加約束确保模型能穩定泛化,其中包含以下關鍵項:
預測準确性:通過最小化預測誤差,使預測模型在每個觀測時間點都能準确預測實際數據。
泛化準确性:通過最小化預測誤差,使泛化模型在每個觀測時間點都能準确預測實際數據。
重構一緻性:确保模型參數在原始空間與庫普曼空間之間的轉換具有一緻性。
動态保真性:約束庫普曼空間的動态行爲,使得映射後的空間符合預期的動态系統特征。
參數一緻性:确保泛化模型參數映射回原始空間後與預測模型參數保持一緻。
引入庫普曼理論的另一優勢在于,可以通過庫普曼算子的譜特性來評估模型的長期穩定性。
此外,還可以在庫普曼算子中施加約束來控制模型的動态行爲。
通過觀察庫普曼算子的特征值,可以判斷系統是否穩定:
若所有特征值實部爲負,系統會穩定地趨向于一個平衡狀态。
若存在特征值實部爲正,系統将變得不穩定,模型在未來可能會崩塌。
若特征值實部爲零,系統可能表現出周期性行爲。
通過分析這些特征值的分布,可以預測系統的長期行爲,識别模型在未來是否可能出現崩潰的風險。
此外,還可以通過對庫普曼算子施加顯式約束來調控模型的動态行爲。例如:
周期性約束:當數據動态爲周期性時,可将庫普曼算子設爲反對稱矩陣,使其特征值爲純虛數,從而使模型表現出周期性行爲。
低秩近似:将表示爲低秩矩陣,有助于控制模型的自由度,避免過拟合到次要信息。
通過這些手段,不僅提高了泛化的長期穩定性,還增強了模型在特定任務中的可控性。
實驗實驗設置
爲驗證算法效果,作者使用了合成數據集和多種真實世界場景的數據集:
合成數據集包括 Rotated 2-Moons 和 Rotated MNIST 數據集,通過在連續時間區間内随機生成時間戳,并對 Moons 和 MNIST 數據按時間戳逐步旋轉生成連續時域。
真實世界數據集則包括以下三類:
事件驅動數據集Cyclone:基于熱帶氣旋的衛星圖像預測風力強度,氣旋發生日期對應連續時域。
流數據集Twitter 和 House:分别從任意時間段抽取推文和房價數據流構成一個領域,多次随機抽取形成連續時域
不規則離散數據集Yearbook:人像圖片預測性别,從 84 年中随機抽取 40 年數據作爲連續時域。
定量分析
作者首先對比了 Koodos 方法與各基線方法的定量性能。
下表顯示,Koodos 方法在所有數據集上展現了顯著的性能提升。
在合成數據集上,Koodos 能夠輕松應對持續的概念漂移,而所有基線方法在這種場景下全部失效。
在真實世界數據集上,盡管某些基線方法(如 CIDA、DRAIN 和 DeepODE)在少數場景中略有表現,但其相較于簡單方法(如 Offline)的改進非常有限。
相比之下,Koodos 顯著優于所有現有方法,彰顯出在時域泛化任務中考慮分布連續變化的關鍵作用。
決策邊界
爲直觀展示泛化效果,作者在 Rotated 2-Moons 數據集上進行了決策邊界的可視化。
該任務具有極高難度:模型需在 0 到 35 秒左右的 35 個連續時域上訓練,随後泛化到不規律分布在 35 到 50 秒的 15 個測試域。而現有方法通常隻能泛化至未來的一個時域(T+1),且難以處理不規律的時間分布。
下圖展示了從 15 個測試域中選取了 7 個進行可視化測試的結果(紫色和黃色表示數據區域,紅線表示決策邊界)。
結果清晰地表明,基線方法在應對連續時域的動态變化時表現不足。随着時間推進,決策邊界逐漸偏離理想狀态。
尤其是最新的 DRAIN 方法(ICLR23)在多步泛化任務中明顯失效。
相比之下,Koodos 在所有測試域上展現出卓越的泛化能力,始終保持清晰、準确的決策邊界,與實際數據分布變化高度同步。
這一效果突顯了 Koodos 在時域泛化任務中的優勢。
模型演變軌迹
爲更深入地分析模型的泛化能力,作者通過 t-SNE 降維,将不同方法的模型參數的演變過程(Model Evolution Trajectory)在隐空間中可視化。
可以看出,Koodos 的軌迹呈現出平滑而有規律的螺旋式上升路徑,從訓練域平滑延伸至測試域。
這一軌迹表明,Koodos 能夠在隐空間中有效捕捉數據分布的連續變化,并随時間自然地擴展泛化。
相比之下,基線模型的軌迹在隐空間中缺乏清晰結構,随着時間推移,逐漸出現明顯的偏離,未能形成一緻的動态模式。
時域泛化的分析與控制
在 Koodos 模型中,庫普曼算子爲分析模型動态提供了有效手段。
作者對 Koodos 在 2-Moons 數據集上分析表明,庫普曼算子的特征值在複平面上分布在穩定區和不穩定區。
這意味着 Koodos 在中短期内能穩定泛化,但在極長時間的預測上将會逐漸失去穩定性,偏離預期路徑(下圖 b)。
爲提升模型的穩定性,作者通過将庫普曼算子配置爲反對稱矩陣(即 Koodos 版本),确保所有特征值爲純虛數,使模型具有周期性穩定特性。
在這一配置下,Koodos 展現出高度一緻的軌迹,即使在長時間外推過程中依然保持穩定和準确,證明了引入先驗知識對增強模型穩健性的效果(下圖 c)。
(a:部分訓練域數據;b:不受控,模型最終偏離預期;c:受控,模型始終穩定且準确。)
時域泛化與生成式模型任務有天然的關聯,Koodos 所具備的泛化能力能夠爲神經網絡生成技術帶來新的可能。
Koodos 的應用并不局限于時域泛化,它也可以适用于其他分布變化的任務中。
作者計劃探索其在非時态領域的應用。
同時,作者也将探索時域泛化在大模型中的集成,幫助 LLM 在複雜多變的分布中保持魯棒性和穩定性。
論文地址:
https://arxiv.org/pdf/2405.16075
GitHub:
https://github.com/Zekun-Cai/Koodos/
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>