作者:奶樹
編輯:蝌蚪
過去一兩年的時間裏,以大語言模型(LLM)爲代表的人工智能(AI)技術無疑是最受公衆關注的話題。尤其涉及到美國對英偉達等芯片企業出口中國的限制,已然打響了又一輪無聲的 " 冷戰 "。
在另一塊生物科技的 " 戰場 ",中美雙方出現了新的矛盾:美國總統拜登簽署了《關于防止關注國家(countries of concerns)批量獲取美國個人及政府敏感信息的行政令》," 關注國家 " 自然包括中國,而敏感信息之一,則是人類基因組信息。
這個矛盾在剛剛過去的美國時間 3 月 6 日達到了 " 高潮 " ——美國參議院國土安全與政府事務委員會近日召開聽證會,以 11 比 1 的同意票數通過了參議院版的" 生物安全法案 "草案,目的在于禁止美國聯邦政府與某些與外國競争對手有聯系的生物技術提供商簽訂合同。被 " 點名 " 的中國企業包括華大系、藥明系等。
事實上,這并不是國家之間首次限制彼此人類基因組信息的交流,2019 年,我國出台了《中華人民共和國人類遺傳資源管理條例》,并在其中多項條款規定限制外國對中國人類遺傳數據的使用。
對于大多數公衆來說,可能沒那麽容易理解:基因組數據,至于要這麽嚴格嗎?國家與國家之間,真的有必要相互封鎖嗎?
這個故事可能得從 28 年前的一場會議講起。
1996 年,參與人類基因組計劃(Human Genome Project,HGP)的科研人員齊聚大西洋上的百慕大島嶼,共同商量一件過去科學家從來沒有想過的事情:基因組數據要怎麽共享?
人類基因組計劃曆史 | 圖源:Microbe Notes
在上個世紀,生物學實驗相對簡單,不論結果再怎麽多,往往一張表格就能放下。但是基因組測序不同,以最簡單的病毒、細菌、酵母或古菌爲例,它們的基因組不大,但是打印出來少說也得幾十甚至上千頁。
而彼時已經開展了 6 年的人類基因組計劃,預計有3000000000個堿基,倘若發表出來,就是一本寫滿 ATCG 的超級大詞典。這在過去的生物研究曆史中,聞所未聞。
而且寫出來也看不懂
當時的人類基因組計劃是一項世界級的工程,來自美國、英國、法國、中國的科學家需要分工協作。隻有及時更新數據庫,大家才能第一時間知道項目的進展。其他科學家也能盡快根據自己感興趣的内容,開展相關的研究。
基于此,這些科學家最終達成了一個即便放在今天,都是令人震撼和感慨的共識:數據産生的 24 小時内,就要分享到數據庫讓全世界看到,而且是完全免費開放。
2003 年,随着人類基因組計劃的初步完成與基因組數據的增多,新的 " 勞德代爾堡協議 " 達成,在過去 " 百慕大原則 " 的基礎上,進一步支持了合作項目間基因組數據的及時分享,并構建了一個更完善的責任制度,更好地支持基因組數據的産生與使用。二者被認爲是基因組數據開放使用的開端,也深深影響了後來二十年間基因組研究的數據共享方式。
得益于" 即時共享 "的核心思想,本來預計需要 15 年完成的人類基因組計劃,整整提前了四年。時至今日,世界主流的幾個基因組數據庫,例如美國的國家生物技術信息中心(NCBI)、英國的生物銀行(UK BioBank),以及中國的國家基因組科學數據中心,都包含了成百上千萬的人類基因組信息,以及百萬物種的基因組數據。而且這些信息的訪問和獲取全部免費。
中國國家基因組科學數據中心的 GSA 數據 2016 年成立,短短幾年間數據量就是指數級的增長 | 圖源:Chen T,et al.
于是,一家單位發布了基因組,另一家單位就能快速下載下來,并在前人的基礎上補充更豐富的分析,或者添加更具體的實驗。基因組學,甚至說生物學的大廈,就是通過這種數據開放的方式在這 20 年裏一磚一瓦搭建起來的。
但随着數據的增多,科研人員相互之間的競争也越發激烈,基因組數據的發表方式逐漸發生了變化:
首先,考慮到文章發表的時效性,以及與其他研究者的沖突,第一時間給世界共享數據在今天已經很少見了,作者至少要确保自己的文章和成果成功發表,才會在數據庫上傳數據。
其次,很多大型的基因組數據不會簡單釋放開來,你想要使用的時候需要給負責人提交申請,而每一家負責單位對申請的考核标準都不一樣,很可能因爲各種原因遭受拒絕。
另外,伴随着測序費用的降低,基因組原始文件越來越大,個别單個大項目的數據已經不是以 GB、TB 爲單位,而是以更高的 PB 爲單位了(1024 個 TB)。研究人員爲了 " 省事 ",更樂意上傳一些中間文件數據,甚至隻上傳部分他們覺得有必要的數據。至于其他原始數據和細節,你就得單獨想辦法去要了。
" 共享遺傳信息 " 的做法曾加速生命科學的發展,但随更多社會、政治等因素的介入,也不得不被踩下刹車。尤其到了最近幾年,國家開始幹預基因組數據的分享,例如前面提及的美國、中國頒布的一系列法案條規。
國内人類遺傳數據對外提供申請的流程
如今在中國,一份人類遺傳學數據的産生到發布,你需要經曆:項目申請的審批,采樣前的審批,國外研究人員合作的審批(如有),數據提交的審批與備份……通過這樣一系列的過程,你的數據才能被 " 半公開 "。海外科學家想要使用的話,需要向中國數據庫提交申請,獲批後方能獲取。
美國則是提出了一套更有 " 針對性 " 和 " 目的性 " 的法案——特定國家的科學家不能随意使用其人類基因組信息。當然,是否執行、以及未來會如何執行,可能都還是未知數。
爲什麽國家要下場幹預基因組數據的共享與開放?原本透明、公開、開放的信息體系不好嗎?一同搭建全人類的生物學研究 " 大廈 " 不好嗎?
美國政府官網是這樣說的:
總統的行政命令重點保護美國人最私密和最敏感的個人信息,包括基因組數據、生物特征數據、個人健康數據、地理位置數據、财務數據和某些類别的個人身份信息。不良行爲者可以利用這些數據追蹤美國人(包括軍事人員),窺探他們的個人生活,并将這些數據傳給其他數據經紀人和外國情報機構。這些數據可能導緻侵入性監視、詐騙、勒索和其他侵犯隐私的行爲。
中國的《人類遺傳資源管理條例》第二十八條則是這樣說的:
二十八條 将人類遺傳資源信息向外國組織、個人及其設立或者實際控制的機構提供或者開放使用,不得危害我國公衆健康、國家安全和社會公共利益;可能影響我國公衆健康、國家安全和社會公共利益的,應當通過國務院科學技術行政部門組織的安全審查。
不難看出,雙方共同的關注重點在于個人 / 公衆安全。
這裏的安全涉及到很多方面,最直接的問題是隐私安全問題。這也是我們每個人需要關注的問題——不論國家封不封鎖,我們都應該注重個人的基因組隐私,畢竟這可能比指紋或者面容信息都要重要。
可以想象一下,如果你的身高、體重、三圍和疾病史,在你不知情時,被千裏之外一個奇怪的實驗室拿來研究、發表文章、被公開給全世界,甚至創造一個和你一樣的克隆人……這還是非常駭人聽聞的。
雖然科研人員在發表數據時會專門隐去志願者的具體姓名信息,但從技術層面看,基于基因組溯源到個人身份信息是可行的,有一項研究就曾利用千人基因組項目的數據和網絡信息,找到了其中 50 個人的名字。
因此對數據庫設定層層訪問審查,保證提供數據的志願者的全面知情同意,也都是必須的。
基因組數據産生與後續分析的基本流程,從樣本、比對、測序、數據釋放,每一步都有可能發生隐私洩露的風險
而另一個大家普遍擔心的問題,是人身安全,換言之則是生物武器的可能性,更具體點是基因武器。
小說《三體》裏展示了這樣的一種技術:主角羅輯爲了保護自己,藏身于軍方的地下基地,但卻還是被敵人設計的,專門隻感染他的緻命病毒感染,差點喪命。這樣的劇情在今天,可能實現嗎?
除了同卵雙胞胎,任意兩個人的基因組都是不一樣的,平均差異大約是 0.1%,對于擁有 30 億個堿基的人類基因組來說,那就是300 萬個堿基,這不是一個小數目。
即便是一個堿基的差異,都可能爲生物武器提供 " 機會 "。而如今伴随着生物合成技術和生物信息分析方法的快速發展,一方面從頭合成制造病毒、支原體、細菌、酵母已經紛紛實現,另一方面 AI 設計、輔助生産特定蛋白質,基因組快速比對也已經是科研上的常規操作——二者一結合,小說裏的情節就能照進現實。
這也是美國、中國急于頒布相關法規的原因之一了。而限制生物數據的訪問,以保護隐私與放權的做法,必然是未來的趨勢。
但是我們也不難發現,其實各國的 " 封鎖 " 并不是一種 100% 的限制,而是受控訪問。比如中國的《人類遺傳資源管理條例》強調的是加強監管,美國近期的法案草案也沒有完全限制中國全部科研單位。
因爲相比 20 年前 " 人類基因組計劃 " 時期,今天數據産生的速度、技術叠代更新的速度都今非昔比,大量的數據産生、大量生物醫學問題得以解析——此時不能,也完全不應該限制不同國家科研人員之間的數據訪問。任何一方的限制,從科學研究與技術發展的角度考慮,都會成爲極大的阻礙。
與之相應的是科學問題對數據的 " 如饑似渴 "——人類基因組研究最常見的全基因組關聯分析(GWAS),動辄就需要上萬人的基因組數據,其産生、分析與數據存儲成本以 " 億元 " 爲單位;人類疾病的診療往往涉及大量潛在的基因突變位點,想要研究清楚也需要海量數據的支持;而在未來想要實現個性化的精準醫療,對于個人的基因組分析也是必不可少的……
GWAS 的分析原理是基于大樣本量的基因組比較,從 30 億個堿基位點裏篩選出與某個表型性狀有關的基因,這就要求有足夠的樣本量結果才具有意義
面對這些問題,最有效、最具性價比的方式,就是展開合作與數據共享。因此,如何在 " 開放數據、促進科研 " 和 " 保護隐私、保護個人安全 " 之間取得平衡,就是如今生物醫學研究者繼續探讨的問題。過去的 " 百慕大原則 " 與 " 勞德代爾堡協議 " 已經有些過時,我們需要一套更符合當下的制度。
但這也是一個涉及科學、倫理、道德、法律、政治、國家、社會、個人的複雜問題,單靠某個國家的政策其實并非長久之計。一方面需要各國各行各業的人們坐下來一起協商,像過去一同約定禁止生物武器一樣,通過一緻的協定盡可能地規避基因組研究帶來的生物風險;另一方面,還應該進一步完善統一的審核與開放使用标準,提高數據的加密算法,讓研究者能以最快且最安全的方式開展科學研究。
令人振奮的是,已經有不少科研人員在嘗試這一方面的努力:2013 年成立的全球基因組學與健康聯盟就在嘗試聯合全世界的基因組數據庫,讓數據共享的規定達成一緻;不少國家的研究者也開發了多種加密算法,比如同态加密等方法,确保數據的安全和可用性……
未來的數據是共享還是封鎖?科學與技術的發展,社會與規定的完善,會給出答案。
參考資料:
● Powell K. The broken promise that undermines human genome research [ J ] . Nature, 2021, 590 ( 7845 ) : 198-202.
● Wang S, Jiang X, Singh S, et al. Genome privacy: challenges, technical approaches to mitigate risk, and ethical considerations in the United States [ J ] . Annals of the New York Academy of Sciences, 2017, 1387 ( 1 ) : 73-83.
● Chen T, Chen X, Zhang S, et al. The genome sequence archive family: toward explosive data growth and diverse data types [ J ] . Genomics, Proteomics and Bioinformatics, 2021, 19 ( 4 ) : 578-583.
●缺乏數據使用指導原則,基因組數據共享遇阻 . 中國科學報