圖片來源 @視覺中國
文 | 追問 nextquestion
自 ChatGPT 問世以來,"Transformer 模型 " 始終以超高頻率出現在各個 AI 新産品模塊當中。比如,大家所熟知的 GPT-4、Midjourney、GitHub Copilot 等,它們的優越性能都得益于 Transformer 的誕生。
Transformer 最早于 2017 年由谷歌(Google)研究團隊提出,主要用于處理自然語言。與傳統的深度學習方法相比,Transformer 采用了一種被稱爲自注意力機制(Self-Attention)的方法,在捕捉長距離依賴關系層面具有獨特優勢。近些年來,Transformer 已在文本内容解析、目标檢測、視覺分割等領域表現出色。
▷圖 1:Transformer 與循環神經網絡(RNNs)比較。圖片來源:https://lena-voita.github.io/resources/lectures/seq2seq/transformer/rnn_vs_transformer_river-min.png
反觀大腦,它是生物最複雜和神秘的器官。對大腦結構和功能機制研究的腦科學被譽爲人類探索自然科學的 " 終極疆域 "。那麽,如果将 Transformer 應用到腦科學的前沿研究中," 強強聯合 ",兩者會碰撞出怎樣的火花?
最近,來自北京科技大學的陳誠博士和北京天壇醫院的趙繼宗院士團隊就在一篇綜述中全面介紹了 Transformer 在腦科學領域最具代表性的研究工作,涉及腦疾病診斷,腦年齡預測,腦異常檢測等八個應用領域,涵蓋了數據、模型、性能指标等内容。該文目前已發表在 Brain-X 上,題爲 Understanding the Brain with Attention: A Survey of Transformers in Brain Sciences。
▷圖 2:Transformer 模型在腦科學研究中的應用圖譜。圖源:參考文獻 [ 1 ]
從經典架構了解 Transformer
▷圖 3:Transformer 核心架構。圖片來源:https://deeprevision.github.io/posts/001-transformer/
(一)輸入嵌入
俗話說,入鄉随俗。計算機模型不能直接理解人類語言,那麽此時就需要輸入嵌入(Input embedding)這個環節來做個銜接,也就是将輸入數據轉換爲模型更好理解和處理的向量表示。按照輸入數據的形式,目前主要可以分爲詞嵌入和圖像嵌入,這篇論文中所指的即爲詞嵌入。而對于圖像這種高維數據,在輸入 Transformer 前,需要首先對其進行分割和壓平,即圖像嵌入。就像牛排太大生吞無味,切成小塊細嚼慢咽才是硬道理。這裏圖像嵌入比較常用的處理方法,就是塊嵌入(Patch embedding)。
(二)位置編碼
" 我愛過他 " 和 " 他愛過我 " 這兩句話,雖包含的詞語完全一緻,但語序有别。假如放到自然語言的語境中,可能是兩段完全不同的苦情往事。由此可見,詞語的順序在句義當中尤爲重要。然而,Transformer 的自注意力機制本身并不能感知詞語的順序信息。這時,Transformer 就需要引入一種稱爲位置編碼( Positional Encoding)的環節。位置編碼就是在輸入序列中的每個詞語後面追加一個位置标記來表征它在句子中的位置信息。
(三)自注意力機制
千呼萬喚始出來,自注意力機制在前文已被多次提及。那麽,Transformer 最引以爲傲的自注意力機制是什麽?
自注意力機制(Self-Attention Mechanism)是注意力機制的一個特例。注意力機制類似于人類的注意力,能夠根據任務的需要分配不同權重給輸入序列中的不同部分。自注意力機制則更像是一種 " 全知 " 的能力,系統可以同時關注輸入序列中的所有位置,而不受序列中位置的限制。
自注意力機制的公式如下圖所示。相比于傳統模型,自注意力機制具有理論上的無限窗口和計算空間,使其能夠更有效地捕捉輸入序列的長距離依賴關系。注意力模塊通過創建查詢(Q)、鍵(K)和值(V)向量,并進行點積運算生成得分矩陣,再經過縮放和 softmax 激活處理,最終使用注意力權重對查詢向量進行加權,生成增強的輸出向量。這一過程使得模型能夠從全局的角度理解并處理輸入序列中單詞之間的關聯。
▷圖 4:自注意力機制的公式。
(四)多頭注意力和掩蔽多頭注意力
多頭注意力機制(Multi-Head Attention)是注意力機制的一種擴展形式。多頭注意力允許模型使用多組查詢(Q)、鍵(K)、值(V),每個注意力頭都有自己的一組參數,獨立學習如何關注輸入序列。這使得模型能夠同時關注序列中的多個方面,從而更好地捕捉不同位置和語義之間的關系。最後,各個頭的輸出會被合并,形成最終的多頭注意力輸出。
由于 Transformer 可以一下子掌握所有的信息,在某些情況下,爲了避免模型看到未來的信息,通常有必要将序列中未來的位置的信息設爲不可見。掩蔽多頭注意力機制(Masked Multi-head Attention)就是在訓練任務中,我們隻能使用當前位置之前的信息,而不能使用當前位置及之後的信息,以避免信息洩漏。
▷圖 5:Transformer 在腦科學中的應用領域。圖源:由追問編輯部制作
"Transformer+ 腦科學 " 的八大應用
(一)腦疾病診斷
磁共振成像(MRI)* 是一種在臨床上常用的成像技術,通過對磁共振圖像信息進行分析,醫生能夠發現和診斷腦疾病。Transformer,特别是在計算機視覺中首次引入的 Vision Transformer(ViT)圖像分類模型,目前已被成功應用于建立複雜的映射關系,如在磁共振圖像與腦疾病之間建立關聯。自 2020 年 ViT 的提出以來,越來越多的研究基于這一框架,緻力于腫瘤和阿爾茨海默病等腦疾病的診斷。表格 1 歸納了以往研究中具有代表性的用于腦疾病診斷的 Transformer 模型信息。
* 磁共振成像(MRI):是一種非侵入性的醫學成像技術,通過利用磁場和無害的無線電波來生成詳細的内部器官圖像,特别适用于腦部結構和異常的檢測。與一些其他成像技術(如 CT 掃描)相比,MRI 避免了輻射暴露的風險,同時提供了更爲詳細的解剖學信息。此外,由于不涉及使用放射性物質,不引起過敏反應的風險,MRI 成爲了許多神經學和神經科學領域中首選的成像方法。通常具有 T1,T1-CE,T2 以及磁共振成像液體衰減反轉(FLAIR)四種模态。
▷圖 7:ViT 計算框架。圖源:參考文獻 [ 1 ]
▷表格 1:用于腦疾病診斷的 Transformers 的技術細節。圖源:參考文獻 [ 1 ]
(二)大腦年齡預測
大腦年齡是指對一個人腦部結構和功能相較于其實際年齡狀态的評估。通過使用一些神經學和認知學方法,如腦部成像、認知測試和神經生物學标志物,可以估算大腦年齡。估算大腦年齡對于研究認知功能的衰退、神經退行性疾病和其他與年齡相關的神經學問題至關重要。近年來,Transformer 已成功應用于大腦結構和年齡之間的建模,爲更好理解的大腦健康和老化過程以及開發相關疾病的預防和治療方法提供了新途徑。表格 2 中總結了大腦年齡預測方法主要的技術細節。
▷表格 2:用于推斷大腦年齡的 Transformers 的技術細節。圖源:參考文獻 [ 1 ]
(三)大腦異常檢測
大腦異常檢測是一類旨在快速且準确地定位腦部病變區域的任務。目前用于大腦異常檢測的 Transformer 模型主要分爲基于邊界框的模型和重構模型。
1.基于邊界框的模型(The bounding box-based model):這類模型使用邊界框描述異常對象的空間位置。代表性的方法是 VD-Former。VD-Former 通過模拟對比度和空間一緻性,準确定位了大腦中損傷的區域。
2.重構模型(The reconstruction model):通過預訓練模型生成腦特征,将這些特征轉移到學習正常樣本的表示,從而實現對未知病理區域的異常檢測 *。一個代表性的模型是基于 U-Transformer 的異常檢測模型(UTRAD)。UTRAD 選擇在特征分布中學習重建特征,相較于原始圖像,這個過程模型獲取了更多的特征,從而得以實現對異常區域的識别。
* 異常檢測與疾病診斷在中文語義上容易混淆。疾病診斷更傾向于是一個分類的任務,區分健康組和疾病組。而異常檢測則更傾向于在圖像上确定病變的存在,并定位其大緻的邊界。
(四)圖像語義分割
圖像語義分割是對目标區域進行像素級分類的過程。該任務要求模型對圖像中的每個像素進行标簽預測。與目标檢測不同,像素級分類關注的是圖像的細粒度信息,即對每個像素進行标注,以便了解圖像中的每個區域屬于哪個類别。傳統的卷積神經網絡(CNNs)能夠建模局部特征,但在建模全局特征方面,Transformer 則更爲擅長。對于像語義分割這樣的複雜任務,全局特征建模尤爲重要。
腦部成像的語義分割涵蓋了腦腫瘤分割、腦血管分割和腦組織分割等方面。在醫學圖像分析中,準确描述和分類這些結構,對于精确的疾病診斷和治療至關重要。總的來說,通過引入 Transformer,特别是在處理全局信息和複雜分割任務方面,腦部成像的語義分割有望取得更爲準确和精細的結果,從而提高醫學影像分析的水平。表格 3 列舉了目前用于腫瘤區域分割的 Transformer 的技術細節,供讀者參考。
▷表格 3:用于腫瘤區域分割的 Transformers 的技術細節。圖源:參考文獻 [ 1 ]
(五)圖像配準
圖像配準是一種将兩幅或多幅圖像對齊的過程,以保持它們在空間或特定方面的一緻性。在醫學影像領域,圖像配準是一項關鍵技術,用于整合或比較不同時間、傳感器或模态下獲得的圖像。傳統的圖像配準依賴于特征檢測和匹配,而基于深度學習的配準,則通過模型學習構建全局函數來獲得對齊表示。研究表明,Transformer 在圖像配準中表現出色,特别是在長距離空間對應關系的建模方面。目前對于圖像配準的研究主要分爲位移場配準和微分同胚配準方法。
1.位移場配準(displacement field registration):它的目标是找到兩幅或多幅圖像之間的空間變換關系,以便将它們對齊。例如,研究人員使用 Swin Transformer 構建了仿射變換網絡(TransMorph),實現了高效的圖像變換。該模型利用混合的 Transformer-ConvNet 架構建立了遠距離空間對應關系,生成将移動圖像與固定圖像對齊的變換參數。
2.微分同胚圖像配準(diffeomorphic registration):這是一種保持圖像局部形狀和結構連續性的方法,通過優化微分同胚變換以對準圖像,通常在流形空間和變分框架下實現。例如, 基于 Swin Transformer 的 Swin-VoxelMorph 模型,通過最小化圖像差異并估計變換,實現了對稱無監督學習。
(六)功能性核磁共振成像(fMRI)建模
基于 Transformer 的方法在解決 fMRI 中遠距離依賴性關系方面也取得了顯著突破。如結合血液氧合水平變化的時間序列和功能連接網絡的 Transformer,成功地學習了 fMRI 中的時空上下文信息。如 ST-Transformer 通過線性空間 - 時間多頭注意單元,在數據平衡後計算 fMRI 中的空間和時間表示,用于孤獨症譜系障礙(ASD)的診斷。綜上,Transformer 爲深度解析腦功能區域和時間序列特征關系提供了新的解決方案。
* 功能性核磁共振成像(fMRI)和磁共振成像(MRI)的區别:
fMRI 和 MRI 是兩種不同但密切相關的成像技術,它們在醫學和神經科學中廣泛用于研究和臨床應用。
1. MRI:MRI 是一種用于獲取高分辨率體内組織結構圖像的成像技術。它基于原子核在強磁場中的共振現象,通過測量不同組織對磁場的響應來生成圖像。MRI 可以顯示組織的結構、器官的位置和大小,對于檢測腫瘤、腦部解剖和其他結構方面非常有用。
2. fMRI:與 MRI 不同,fMRI 關注的是測量腦部血流和代謝的變化,以推斷不同腦區域的活動水平。fMRI 通過檢測腦血液氧合水平的變化(BOLD 信号)來間接測量神經活動。它主要用于研究大腦在執行任務、處理刺激或進行特定認知功能時的活動。
3. fMRI 使用 BOLD 信号作爲衡量腦部活動的指标,而 MRI 則主要關注組織的結構。BOLD 信号是基于血氧水平在神經活動期間的變化。MRI 提供了關于腦結構的詳細信息,而 fMRI 提供了有關腦功能的信息。通過結合這兩種技術,研究人員可以更全面地理解大腦的結構和功能,并研究它們之間的關聯。
(七)腦電圖處理
近年來,腦電圖(EEG)信号處理也逐漸摒棄傳統的基于循環神經網絡(RNNs)的方法,轉而關注 Transformer 模型。研究者們引入 Transformer 模型,如 S3T 和 EEGformer,通過對時空相關性的建模和自注意力機制的應用,爲處理 EEG 信号提供了更靈活、更強大的工具。這些新方法不僅克服了傳統方法在并行計算等方面的不足,還爲更深入地理解和利用 EEG 信号提供了前景廣闊的研究方向。表格 4 列舉了目前用于 EEG 數據處理的 Transformer 的技術細節,供讀者參考。
* 腦電圖(EEG):是一種無創性生理學技術,通過在頭皮上放置電極記錄和測量大腦電活動。這種方法具有無創性、實時性和高時間分辨率的特點,适用于臨床醫學、神經科學研究和腦機接口等領域。通過頻率分析,EEG 信号被分爲不同頻帶,如 δ 波、θ 波、α 波、β 波和 γ 波,每個頻帶與不同的腦狀态和活動相關。在臨床上,EEG 被用于診斷癫痫、睡眠障礙和其他神經系統疾病。總體而言,EEG 爲理解腦部功能和神經活動提供了重要的信息。
▷表格 4:處理 EEG 數據的 Transformers 模型細節。圖源:參考文獻 [ 1 ]
(八)多任務處理
随着深度學習模型參數規模的擴大,研究者們借助堆疊的多頭注意力機制開發了适用于協同多任務的 Transformer。比如,多視角嵌入的醫學 Transformer,通過在軸向、矢狀和冠狀方向對 MRI 序列進行采樣,使用預訓練的卷積編碼器進行向量提取,後 Transformer 被應用于在不同方向上實現自注意力增強。這種方法可應用于預測腦疾病、估計大腦年齡和腦腫瘤分割等任務;Trans-ResNet,則整合了 CNN 和 Transformer,通過可靠的梯度傳遞,實現對注意力模塊的高效特征學習,也可應用于預測腦疾病和估計大腦年齡。
展望未來
盡管 Transformer 在各個的領域中表現卓越,但仍面臨計算複雜度大,參數數量多等諸多局限。因此,在論文中作者總結了未來 Transformer 模型發展的可能方向。
1. 基于圖結構的 Transformer:作爲非結構化數據的代表,圖(graph)由點和邊組成,有效建構對象内部的依賴關系。比如, GraformerDIR 和 TRSF-Net 将特征圖中不同的空間分布建模爲各種圖結構。基于圖結構的 Transformer 是未來發展的重要方向。期待不久的将來,基于圖的 Transformer 模型能夠更靈活地建模和學習遠距離依賴關系,解析複雜的腦科學任務。
2. 基于視覺的 Transformer:Transformer 最初是應用于自然語言處理任務。在視覺任務中,類似于文本,圖像嵌入時會被壓平處理爲一維的最小語義單元。但這樣處理會帶來一些局限,比如,将富含語義的特征空間壓縮成一維的最小語義單元,會破壞語義完整性。基于視覺的 Transformer 需要生成 2D 甚至 3D 專門用于基于視覺的 Transformer 的變量。
3. 基于 Prompt 的 Transformer:基于 Prompt 的學習是深度學習模型新的範式。基于 Prompt 的 Transformer 可以嵌入更專業的語義,甚至可以引導用戶添加先驗知識,顯著提高模型的學習能力。
*Prompt:一段文本或語句,用于指導機器學習模型生成特定類型、主題或格式的輸出。在自然語言處理領域中,Prompt 通常由一個問題或任務描述組成,例如 " 請将上面的文字翻譯成中文 "。在圖像識别領域中,Prompt 則可以是一個圖片描述、标簽或分類信息。
4. 超重型 Transformer:研究表明,當用于訓練的數據集和參數增多時,Transformer 的性能有望得到提升。目前一些超重型 Transformer 确實在複雜場景中表現出色,但随之而來的是更多計算資源的需求。因此,模型壓縮和技術微調也許是超重型 Transformer 的下一關鍵的優化方向。
5. 輕型 Transformer:相較于超重型 Transformer,适用于一般用戶和移動終端的輕型 Transformer 的研究也很必要。但從架構上講,Transformer 的多頭注意力機制不可避免地會帶來海量的參數,因此在不犧牲性能的前提下,研發出較少參數的輕型 Transformer 将是未來發展的重要方向。
6. 開放的醫療數據集:大模型性能的提升在某種程度上依賴于海量的訓練數據集。但目前由于醫學數據使用的倫理限制,大規模獲取醫療數據非常困難,這也是 Transformer 應用于醫療領域可能面臨的挑戰。但相信随着醫學數據聲明的完善,将有更多的數據集向研究人員公開。
數據集簡介 | 數據集鏈接 |
腦腫瘤圖像 | https://www.synapse.org/#!Synapse:syn51156910/wiki/622351 |
健康受試者大腦的腦部圖像 (100 個) | https://data.kitware.com/#collection/591086ee8d777f16d01e0724/folder/58a372e38d777f0721a64dc6 |
健康受試者大腦的 MRI 圖像 (600 張) | http://brain-development.org/ixi-dataset/ |
個體的 32 通道腦電圖數據 (14 個) | https://openneuro.org/datasets/ds002680/versions/1.2.0 |
無血管痙攣的腦動脈瘤圖像 (200 張) | https://cada.grand-challenge.org/Dataset/ |
▷表格 5. 腦科學領域相關的公共數據集,可複制網址查看。來源:追問編輯部整理
參考資料:
[ 1 ] Chen, C. et al. ( 2023 ) ‘ Understanding the brain with attention: A survey of transformers in Brain Sciences ’ , Brain ‐ X, 1 ( 3 ) . doi:10.1002/brx2.29.
[ 2 ] Vaswani, A. et al. ( 2023 ) ‘ Attention Is All You Need ’ , arXiv [ Preprint ] . doi: https://doi.org/10.48550/arXiv.1706.03762.
[ 3 ] Sequence to sequence ( seq2seq ) and attention ( no date ) Seq2seq and Attention. Available at: https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html ( Accessed: 07 December 2023 ) .