日前,複旦大學類腦智能科學與技術研究院楊禹丞等 DNA 元件百科全書計劃國際合作團隊,首次繪制迄今全球最大規模個人表觀基因組圖譜。2023 年 3 月 30 日,相關研究成果在《細胞》(Cell)雜志上發表,題爲 "The EN-TEx resource of multi-tissue personal epigenomes & variant-impact models",複旦大學類腦智能科學與技術研究院青年副研究員楊禹丞爲共同第一作者。
作爲人類基因組計劃以來最大的基因組學協作計劃,"DNA 元件百科全書計劃 "(Encyclopedia of DNA Elements)從 2003 年啓動至今整整 20 周年;本研究作爲 "DNA 元件百科全書計劃 " 的子項目,曆經上百位合作者逾 6 年的艱辛努力得以順利完成,爲研究人員在個性化水平上深入認識基因組中精細化的調控機制提供了重要依據,堪稱 "DNA 元件百科全書計劃 " 裏程碑式成果。
20 多年前,規模宏大、跨國界跨學科的人類基因組計劃(Human Genome Project)完成了具有代表性的參考基因組(reference genome)序列。随着近年來測序技術的快速發展,人類個體基因組測序日趨成熟。與參考基因組相比,個體基因組通常包含數百萬個遺傳變異,并且絕大多數遺傳變異位于基因組内的非編碼區域。基因組學的終極目标之一是評估這些遺傳變異對諸如表觀遺傳活性、RNA 或蛋白質表達水平等分子性狀,以及對包括細胞、組織發育狀态和疾病表型等生物性狀的影響。
然而,目前大多數功能基因組學研究都是基于通行的參考基因組序列進行的,而非直接在個體的二倍體基因組(diploid genome)中分析變異。通過使用二倍體基因組,有可能在多組學數據中觀察到兩個單倍型(即父本和母本)上有差異的分子信号,例如基因表達、組蛋白修飾、DNA 甲基化或轉錄因子結合等;如果這種差異在統計學上顯著,可稱之爲等位基因特異性(allele-specific)的差異。盡管等位基因特異性現象早已被發現,并且證明在早期胚胎發育和複雜疾病的發生中發揮重要作用。然而,在人類基因組中究竟存在多少個等位基因特異性活性的基因和調控元件,以及這些調控元件的生物學功能,我們依然缺乏全面了解。
針對以上問題,"DNA 元件百科全書計劃 "(EncyclopediaofDNAElements)啓動了大型協作計劃 EN-TEx 項目,旨在利用個體表觀基因組圖譜對基因表達調控進行了細緻分析,該項目由美國耶魯大學領銜,全球 31 個機構超過 100 位合作者共同參與,美國耶魯大學、中國複旦大學、美國 Broad 研究所等單位的 11 位科學家作爲主要貢獻者并列論文共同第一作者。
EN-TEx 項目涵蓋了來自 4 位成人捐贈者合計超過 30 個不同的身體組織,利用約 15 種多組學測序技術(包括基因分型陣列芯片、DNA 長讀段測序、RNA-seq、組蛋白 ChIP-seq、轉錄因子 ChIP-seq、DNA 甲基化測序、染色質開放區域測序等),對每位捐贈者的每種組織類型産生了一套多組學圖譜,合計超過 1600 套多組學數據集。楊禹丞和研究者們首先整合基因組長讀段和短讀段測序數據構建了捐贈者的個人二倍體基因組,共計鑒定出超過 100 萬個雜合遺傳位點。接下來,研究人員将多組學數據直接映射到相應的二倍體基因組上,并根據雜合遺傳位點系統鑒定基因組中所有的等位基因特異性的遺傳變異位點和表觀遺傳信号。與普通做法相比,将測序數據映射到二倍體基因組上能夠更精确地量化父本和母本不同來源的調控元件活性,以及雜合遺傳變異對表觀遺傳修飾和基因表達的影響。
圖 1 等位基因特異性調控元件的注釋及其與 GWAS 遺傳變異位點的富集分析
EN-TEx 數據集使得研究人員能夠系統地确定個體之間與組織之間等位基因特異性的基因表達與表觀遺傳修飾。例如,H19 基因隻在來源于母本的單倍型中活躍表達,而與之臨近的 IGF2 基因隻在來源于父本的單倍型中活躍表達,而這種等位基因特異性正是由于 IGF2 基因上遊處的一個調控區域在父本、母本單倍型中 DNA 甲基化的差異性所導緻的。楊禹丞博士作爲 EN-TEx 項目的核心研究人員,主要負責将等位基因特異性的多組學表觀遺傳信号與已知的增強子、啓動子等潛在非編碼調控元件進行整合注釋,從而系統構建人類基因組中的等位基因特異性的非編碼調控元件目錄,并深入研究了其活性與組織特異性以及進化保守性之間的複雜聯系;此外,他還将鑒定出的等位基因特異性的非編碼調控元件與多種外部數據做整合,包括表達定量性狀位點(eQTLs)和疾病的全基因組關聯分析位點(GWAS),闡明等位基因特異性的非編碼調控元件參與基因表達調控以及與疾病風險之間的潛在關聯。可以預期,這個新的表觀基因調控元件目錄将會對未來個性化功能基因組分析産生重大影響,能更好地支持個性化醫療、基因編輯等。
EN-TEx 項目産生的所有原始數據 [ https://www.encodeproject.org/entex-matrix/?type=Experiment&status=released&internal_tags=ENTEx ] 和最終結果 [ http://entex.gersteinlab.org ] ,均可以通過網站公開獲取。
圖 2 來自 EN-TEx 的多組學數據集
楊禹丞在 2020 年底從海外引進正式入職複旦大學類腦智能科學與技術研究院生物醫學人工智能團隊,主要從事利用高通量功能基因組學測序數據的計算基因組學研究,緻力于通過大數據整合挖掘以及數據庫構建等手段研究基因表達調控機制。同時,他将國際合作大科學計劃的成功經驗運用到科研合作和跨學科研究中,基于 EN-TEx 數據集缺乏大腦等重要人體組織類型以及缺乏在單細胞水平上研究等不足,進一步深入研究非編碼調控元件在大腦發育與疾病過程中的作用。
" 計算基因組學研究是生命醫學領域重大學術前沿,對于更好地了解人類的進化和生物學特性意義重大,我所在的類腦研究院是生物、信息、醫學等多學科交叉平台,擁有與國際一流實驗室同等的研究科研條件,期望與同事一起,将這些前沿的組學方法運用于與衰老、癌症、神經退行性疾病等領域相關的臨床研究中去,真正對人類健康有所貢獻。" 楊禹丞對未來研究充滿信心。
原文鏈接:https://doi.org/10.1016/j.cell.2023.02.018