科學家首次開發出能通過解碼大腦 fMRI 數據重構出連貫語言的方法。腦機接口為失語或者無法打字的人群提供了輔助技術,而這項新發現滿足了改良這項技術的需求。
9 月 23 日,bioRxiv 上刊登的一篇預印論文 * 中,美國德克薩斯州大學奧斯汀分校的團隊詳細介紹了一種 " 解碼器 "(算法)。它可以通過 " 讀取 " 被試在功能性磁共振成像(fMRI)掃描期間所聽所想到的詞語。雖然此前也有其他科學團隊基于腦植入物傳出的信号完成過語言或者圖像的重構,但通過這種新型解碼器,科學家們首次在無創的情況下也能達到相同目的。
* 譯者注
預印論文,指未經同行評審、沒有正式發表在科學期刊上的文章。
Tang, Jerry, et al. "Semantic reconstruction of continuous language from non-invasive brain recordings." bioRxiv ( 2022 ) .
https://doi.org/10.1101/2022.09.29.509744
- Meer -
德州大學奧斯汀分校的神經科學家、該論文的合著者亞曆山大 · 休斯(Alexander Huth)說道:" 如果你去問二十年前的神經科學家們能不能這樣解碼大腦活動,他們絕對會笑掉大牙的!"
日本京都大學的神經科學家神谷之康(Yukiyasu Kamitani)雖然并未參與實驗,但他在給《科學家》(The Scientist)發來的郵件裡寫道,這種非侵入式解碼器能産生可以讓人理解的語言序列,這讓他感到 " 非常興奮 "。他說:" 這一研究 ...... 為(腦機接口)的應用打下了堅實的基礎。"
事實上,fMRI 産出數據的速度比人類思維的速度要慢很多,因此 fMRI 并不是很适用于這種研究。大腦活動往往伴随着腦内血流量的變化 *,fMRI 的原理就是通過檢測這些血流的變化成像、對大腦活動作近似,而非直接探測神經元活動。但是相對于發生于毫秒之間的神經元放電,以秒為單位的血流量變化還是較慢。對此,休斯表示能在該研究中使用 fMRI 的原因在于,他們的實驗系統并非逐字解碼大腦中的語言,而是辨别句子或者想法這些更高層次結構的意義。
血液會流向大腦裡更為活躍的區域以供氧。
- dragonflymage.tumblr.com -
休斯和同事們在訓練算法時用到了三名被試的 fMRI 大腦數據。被試者均在 20 到 30 歲之間,其中有一名女性以及兩名男性。在實驗過程中,三名被試收聽了播客和廣播故事,總計 16 小時。他們聽到的内容包括 " 飛蛾電台 "(The Moth Radio Hour)、TED 演講以及約翰 · 格林(John Green)的《人類史回顧》(The Anthropocene Reviewed)。休斯說,讓被試收聽不同種類的媒體對于提升算法的準确性和廣适性,是很有必要的。他提到,雖然他的研究中被試樣本很小,但他們在實驗中收集的 fMRI 數據和其他用 fMRI 收集數據的實驗數量相當。
解碼器通過學習被試長達 16 個小時的 fMRI 數據,對于 fMRI 數據的走向做出了一系列預測。據休斯所說,解碼器運用 " 猜測 " 的能力,是它翻譯與訓練所用音頻内容無關想法的關鍵。然後,解碼器會将 " 猜測 " 出來的 fMRI 數據走向與實際 fMRI 數據進行對比,與實際最相符的預測決定了解碼器最終産生的語詞。
研究人員對解碼器的産出與被試者感知到的刺激之間的相似性打分,以此判斷解碼器是否成功。此外,研究人員還給沒有比對過 fMRI 數據的解碼器生成的語言打分。接下來,他們對比了這兩項得分,并對二者的差别做統計學上的顯著性測試。
- rawpixel -
結果顯示,該算法通過猜測 - 比對的程序最終從 fMRI 數據中生成了一個完整的故事。對此,休斯評價道,算法還原的内容與錄音中實際講述的故事已經 " 相差無幾 " 了。不過,解碼器也有自己的不足之處。比如它不太擅長解析人稱指代,還經常搞混第一人稱和第三人稱。休斯說,解碼器 " 可以相對準确地知道發生了什麼事,但它不太清楚是誰在做這件事。"
并未參與研究的普林斯頓神經科學研究中心研究員以及講師山姆 · 納斯塔瑟(Sam Nastase)認為将 fMRI 應用于解碼大腦 " 令人興奮不已 ",因為用 fMRI 提取數據的過程通常又緩慢雜音又多。納斯塔瑟還說道:" 從這篇論文看來,隻要我們擁有一個足夠智能的模型就可以從 fMRI 數據中得出數量可觀的信息。"
非侵入式 fMRI 在解碼器中的應用有褒有貶。好處在于它比侵入式方法更容易應用于現實世界,而缺點則在于 fMRI 高昂的費用以及複雜的使用方法。不過,也許我們可以用同樣是非侵入式、但更輕便且時間分辨率更高的腦磁圖(Magnetoencephalography)技術來支撐類似的解碼器,讓失語人群有機會與他人溝通交流。
休斯認為,解碼器最令人興奮的成就在于它對大腦運作的洞察力。比如,我們可以從解碼器的解析中看出大腦的哪些部分負責建立語義。通過使用解碼器記錄特定腦區,像前額葉皮層或者頂葉 - 颞葉皮層,休斯的科學團隊能夠确定各個區域對應的語義信息。休斯的團隊就是這樣發現了前額葉皮層和頂葉 - 颞葉皮層對解碼器表征了相同信息的。不管解碼器使用來自其中哪一個區域的測量數據都能夠很好地完成解析。
休斯還補充道,最令人驚喜的是雖然訓練解碼器使用的是被試在聽取口頭語言時的數據,但它卻可以重構非語義類别的刺激信号。舉例來說,在經過訓練後,解碼器算法成功重構出了被試在看默劇、或想象自己講故事的場景時的信息。休斯對此評價道:" 這些内容可以被解碼器重構出來就證明它們(在大腦中的表征)之間是存在某些共性的。這為我們提供了一個非常新穎的角度。"
- stremplerart.tumblr.com -
神谷和納斯塔瑟對休斯實驗室還未經同行評審的結論提出了這樣的疑惑:" 解碼器在處理潛在含義與處理文本或語音的過程有何不同?" 由于休斯實驗室的解碼器解析的是語義,而非逐個詞語,我們難以衡量它成功與否。用納斯塔瑟的話來說,這是因為有很多種語詞的組合都能算作是 " 好 " 的輸出。" 不過他們引入的問題很有意思。" 納斯塔瑟說。
休斯承認,對于一部分人來說,能有效 " 讀心 " 的技術聽起來有些讓人毛骨悚然。不過他的團隊對研究的現實意義進行了深入的思考。而且考慮到精神隐私的保護問題,他們還研究了解碼器是否會在被試不願意合作的情況下解析信息。在部分實驗中,研究人員要求被試者在聽取音頻時進行其他心理活動來分散自己的注意,比如數數、命名和想象動物、以及在腦子裡編一個跟音頻内容不一樣的故事。最後他們發現,想象動物是最能夠降低解碼準确率的操作。
從信息隐私的角度來看,用一個人的大腦數據訓練出來的解碼器是無法被應用到另一個人身上的,用休斯的話說,這 " 基本上沒有提供任何可用的信息。" 也就是說,我們隻能解析出大量參與了解碼器訓練的人的想法。
對于納斯塔瑟而言,研究人員特意關注了是否有精神隐私受到保護的證據是令人贊許的。他說:" 如果不做精神隐私相關的實驗測試,他們完全可以早六個月就發表這篇論文。" 不過,納斯塔瑟并沒有完全被研究者提供的隐私保護相關證據說服,因為未來這個方向的其他研究很可能會突破他們設置的精神隐私保護的權宜之計。納斯塔瑟補充道:" 這關乎到我們是否将科技帶來的益處看得比這些潛在(道德)陷阱更重要。"
作者:Grace van Deelen
譯者:Blue Froid l 校對:M.W.