10 月 10 日消息,國際頂級學術期刊《Cell》發表了中山大學與阿裏雲合作的科研成果,研究團隊利用雲計算與 AI 技術發現了 180 個超群、16 萬餘種全新 RNA 病毒,是已知病毒種類的近 30 倍,大幅提升了業界對 RNA 病毒多樣性和病毒演化曆史的認知。
《Cell》是國際公認學術聲譽最高的期刊,代表生命科學領域的最高水平。國内每年入選《Cell》的論文數量僅有數十篇。此次入選的論文提出了一種基于深度學習的 RNA 病毒發現方法,是深度學習算法在病毒發現領域的裏程碑式進展,爲病毒學研究開創了全新範式。
病毒與人類的健康密切相關,但人類已知已确認的病毒種類僅有 5000 餘種,這隻是病毒世界的冰山一角。傳統 RNA 病毒鑒定方法高度依賴于序列同源性比對,即通過比較未知病毒與已知病毒的序列相似性來進行識别。然而,RNA 病毒種類繁多且高度分化,傳統方法難以捕捉缺乏同源性或同源性極低的 " 暗物質病毒 ",新病毒發現的效率較低。
AI 與病毒學研究的結合正在突破這一難題。本篇論文提出了全新的深度學習模型 "LucaProt",它基于 Transformer 框架與大模型表征技術,結合蛋白質序列和内在結構性特征,在獨立的測試數據集上表現優異,具有極高的準确性(假陽性率僅爲 0.014%)和特異性(假陰性率爲 1.72%)。
據介紹,研究團隊對來自全球生物環境樣本的 10,487 份數據進行病毒挖掘,發現了 513,134 條病毒基因組,代表 161,979 個潛在病毒種及 180 個 RNA 病毒超群。使 RNA 病毒超群數量擴容約 9 倍,病毒種類增加約 30 倍,其中 23 個超群無法通過序列同源方法識别,被稱爲病毒圈的 " 暗物質 "。
該論文還揭示了多個病毒學領域新發現:發現迄今爲止最長的 RNA 病毒基因組,長度達到 47,250 個核苷酸;識别出超出以往認知的基因組結構,展示了 RNA 病毒基因組進化的靈活性;此外,在高溫的深海熱泉等極端環境中,RNA 病毒依舊存在多樣性。
中山大學醫學院教授施莽表示:" 在科研領域,AI 的應用已經勢不可擋,通過 AI 方法探索科學問題已取得了重要突破。這種研究範式将成爲未來科學界的常态,也可能成爲我們認知世界的重要手段。"
該論文共同第一作者、阿裏雲飛天實驗室算法專家賀勇表示:" 基于 AI+ 病毒學的新研究框架刷新了人類對病毒圈的認識,随着這種認識的不斷完善,有助于人類對未來可能發生的大流行進行預警,以及進一步推動 RNA 病毒疫苗的研發。"
據悉,過去幾年,阿裏雲積極與國内高校和研究機構展開合作,在生命科學領域已發表核酸和蛋白質統一基礎模型 -LucaOne、RNA 病毒發現 -LucaProt、磷循環蛋白家族識别 -LucaPCycle 等研究成果。
雷峰網