"AI for Science在今年爆火,不是意外。"
"當下面臨的最大挑戰,是如何管理預期。"
"無論用AI還是傳統手段探索科學,都要基于好的研究體系,工具上的變化不會扭轉本質問題。"
……
今年,AI for Science的更多可能,正在被挖掘、熱議甚至激辯。
爆火到底是不是意外?變革是否已經發生?還面臨哪些挑戰?在量子位MEET 2023智能未來大會AI for Science圓桌上,這些疑問撥雲見日。
深勢科技CTO胡成文、百圖生科BioMap副總裁&産業基金董事總經理瞿佳潤、英矽智能聯合首席執行官&首席科學官任峰,就AI for Science當下備受關注的問題,展開分享。
在AI for Science爆火背後,好奇、疑問與困惑随之而來。
三位嘉賓分别來自AI for Science先行者、國内生物計算領域代表、AI藥物研發先鋒,他們對此有怎樣的見解?
從自身站位出發,在AI for Science這一廣闊賽道上,他們将分别聚焦于哪些細分領域?背後動因如何?已有哪些成績?
而對于這一大趨勢,行業内外又該做出怎樣的準備?
關于MEET 智能未來大會:MEET大會是由量子位主辦的智能科技領域頂級商業峰會,緻力于探讨前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平台報道直播了MEET2023大會,吸引了超過300萬行業用戶線上參會,全網總曝光量累積超過2000萬。
話題要點
AI for Science概念從提出起,就意味着一場革命。
AI for Science可以解決傳統科學範式難以應對的問題,在保持原有科學精度下,降低計算複雜度、提升效率。
AI for Science在生物領域會有非常明顯的提升效果,但别的領域複制AlphaFold的成功并不容易。
算力、算法和數據三要素仍是AI for Science領域重點,而對于生物行業,最重要的還是數據。
使用AI解決問題隻是工具上的改變,并不會扭轉本質,我們仍需追求一個好的研究體系。
AI for Science面臨的最大挑戰是管理預期,以及複合型人才、生态共建。
(圓桌環節由量子位智庫負責人劉萌媛主持。在不改變原意的基礎上,量子位對内容進行了編輯整理。希望能夠給你帶來更多的啟發與思考。)
論壇實錄AI for Science爆火,不是意外
量子位劉萌媛:大家好!很高興能夠在AI for Science環節裡和大家聊一聊新興的技術熱詞。
首先,我為各位介紹一下今天在線上接入的三位嘉賓。
第一位是深勢科技CTO胡成文,胡總在深勢科技負責組建業務研發、平台研發兩大團隊。深勢科技緻力于運用人工智能和分子模拟算法,結合先進技術手段來求解重要科學問題。
第二位是百圖生科BioMap副總裁、産業基金董事總經理瞿佳潤,百圖生科是中國首家由生物計算引擎驅動的創新藥物研發平台。
第三位嘉賓是我們的老朋友,來自頭部AI制藥創企英矽智能的聯合首席執行官、首席科學官任峰博士。
由任博帶領的藥物研發團隊,利用AlphaFold與自主研發的人工智能平台聯動,在30天内快速發現可潛在治療肝細胞癌的苗頭化合物,這也是業内首批經發表的利用AlphaFold展開藥物研發實踐的項目之一。
歡迎三位嘉賓線上加入!
剛剛劉鐵岩院長的演講中也提到,AI for Science已經被許多學者認為是第五範式的重要開端。到今天,除了AlphaFold所在的生物醫藥領域,AI for Science也已在包括材料、物理、數學等領域發揮出越來越重要的作用。
眼下,我們該如何認知、面對并利用好AI for Science這個新的增長點?是時候請三位行業代表專家來聊一聊了。
各位覺得AI for Science在今年迅速火熱,是意外嗎?
深勢科技胡成文:最近AI for Science确實比較火爆,這不是很意外。
2018年開始,鄂維南老師第一次提出AI for Science這個概念,從那時起我們就認為這是一場革命。
深勢科技的目标,是希望通過AI for Science用第一性原理的方式,來解決建模過程中的問題,從而為上層的個人應用提供一整套解決方案。
過去4年,我們開發了一系列基于AI for Science新範式下的多尺度建模工具,也分别推出了針對藥物研發領域的Hermite平台,以及針對材料科研計算的Bohrium平台。
深勢科技團隊成員在2020年獲得了國際高性能計算領域的最高獎"戈登貝爾獎"。
剛才聽了劉鐵岩的報告也深有啟發,我們很高興看到2019年開始,美國各大高校科研機構紛紛成立這個方向的實驗室。
2021年之後,AI for Science這個概念迅速被一些國際機構公開采用了,如英偉達提出AI for Science是一場正在發生的革命,DeepMind也開通了AI for Science博客。2022年,微軟在全球成立了一個重磅機構AI for Science研究院。國内工業界等也在迅速跟進,包括阿裡達摩院、字節跳動人工智能實驗室以及華為等。
我們也希望有更多同仁能加入進來,一起推動AI for Science從概念到落地,從學界走向工業界,來真正解決行業面臨的實際問題,一起推動AI for Science發展。
百圖生科瞿佳潤:我理解AI for Science它更多是對着AI for Industry産生出來的。
某種意義上,AI在工業界的使用會更早展開。比如無人駕駛、智能化場景使用等,但AI for Science的挑戰會更大,因為這其中存在一個AI模型的可解釋性及科學數據積累的前置條件在其中。
如Biotech、Pharma領域,它屬于工業界嗎?是。但你說它是Science嗎?也是,因為它本身做的是科學層面的理解和解析,而且高度還不确定。現在還做不到給定一個靶點,就能設計出100%成功的藥物。某種意義上,我們在這些領域去應用AI,與其說是它應用在工業場景,不如說就是正在做AI for Science這件事。
回應您剛才的問題,AI for Science火熱是不是一個意外?
的确,随着此前一些生物數據的爆發到AlphaFold2,以及現在行業也不局限于藥物側而是慢慢滲透到靶點側。我們會希望利用AI去提高藥物研發、靶點研發的成功率。因為本身痛點已經長期存在了,一旦技術條件成熟,它的快速鋪開是可以預見的。
英矽智能任峰:我同樣認為AI for Science的火熱不是意外。
相對而言,我是AI for Science狹義上的門外漢,這兩年接觸這一領域,其實深勢科技給了我很多教育,從深勢剛剛開始提出AI for Science時CEO、CTO做的一些報告我都去聽,但我們做的是不同層面的東西。
有些公司做的AI for Science是稍微狹義上的,利用AI模型去解決一些Science方面的不足。比如運算量不足,從底層來解決物理上的問題;再比如過去需要長時間計算的東西,通過AI的一些優化可以犧牲一點精度、有時候甚至精度保持原有水平,就可以大幅提高速度,幾分鐘、幾小時内計算出來。這就解決了算力的問題,有時候算力太小,對于一些複雜、維度高的計算,是需要大量算力和時間的。
我講的AI for Science是更廣義的角度,不光解決底層問題,也解決實際應用問題。
其實除了新藥研發,物理、化學、數學、生物學等也是Science,我們更廣義地通過AI去減少一些生物學上的不确定性,也是AI for Science更廣義的解釋。
從這一方面來看,AI for Science的火熱完全在意料之中。
AI for Science已經引發效率、探索思路上的變革
量子位劉萌媛:的确,AI for Science當下可以劃分為狹義和廣義兩個層面。着眼于更加具象的問題,AI for Science給當下科研和應用帶來了怎樣的變革?在此之前是怎樣的情況?
深勢科技胡成文:我們總結科研範式本質上可能隻有兩種。
經驗範式,即開普勒範式。本質上從大量數據中總結規律,然後解決實際問題。如開普勒從幾十年的資料中發現了天體的運動規律。
另一種是物理範式,即牛頓範式。它隻尋求事物之間的基本規律來解決實際問題。比如牛頓力學、相對論、量子力學等,都隸屬于牛頓範式。
這兩種範式在傳統科學中應用非常廣泛,但在實際應用過程中也會面臨比較大的挑戰。
開普勒範式很多時候都比較高效,但由于隻看數據、不知道原理,所以有時候是知其然不知其所以然。它往往需要大量數據,比如傳統AI行業數據非常多,但是到工業界應用後就會發現,數量還是不夠多或者高質量數據不夠多,很難分析出背後規律,同時還有一定應用場景的限制,所以它表現的結果往往夠快但不夠準确。
牛頓範式可以深刻揭示事物背後的規律,但當它遇到數據規模比較大的場景,數據呈線性增長,需要的計算量是指數級增長,算到一定規模後可能無法繼續。所以它遇到的挑戰是算得準但不夠快。
這就是兩個傳統範式在科研上會遇到的挑戰。AI能解決什麼問題?
AI在工業界,尤其是CV、NLP上獲得了極大成功。本質上AI是一個高效處理問題的工具,能夠把高維函數高效地降為低維函數,從而解決計算問題。
比如圖像識别,輸入的圖片是幾千萬像素高維的像素密度分布函數,通過AI可以降到幾維、幾十維分類的問題。
由此給我們一個啟示,可以用AI來學習科學原理,在保持科學原理精度的情況下,降低它的計算複雜度,用學到的方法解決實際問題,這就是AI for Science的方法。
通過這些方法,也開發出了一系列計算工具,總結微觀層面一系列相互作用力問題,使得原來需要花費大量時間計算、或者長時間計算都無法解決的問題,能夠在短時間範圍内解決,實現效率上的提升,這就是AI for Science如何解決傳統科學範式所不能解決的問題。
百圖生科瞿佳潤:生物領域很多時候被認為是一種實驗科學,它曆史上的範式就是在不斷嘗試、試錯,從中篩選到一些東西,再漏鬥式地往下走。但是這個過程相對比較長,成功率難以保障。每一輪篩選都有一定概率,如果把整個漏鬥疊加起來,成功率會很低。
但如果給它再扣一個帽子的話,我認為有了AI for Science工具之後,會把實驗科學轉化為系統工程的方式來解決問題。
在一個閉環體系内,每一輪都用AI從一個很大的空間中預測、篩選到少量合适的候選對象,再進入到閉環進行主動學習。這樣的好處是可以極大程度縮短單輪次周期。
實事求是來說,現在一輪下來AI的成功率能絕對比傳統生物辦法高很多嗎?我覺得還有很長一段路要走。
但如果單輪周期被極大縮短了,效率就會提高。
比如原來從雜交瘤開始做免疫,從免疫、克隆挑選、雜交瘤制備、測序、藥物研制,整個流程需要2~4個月。但讓AI加入到單輪預測中,不到一周即可實現。後面蛋白表達純化、測定,大概需要3周,這樣就能将整個流程從3、4個月縮短到1個月。
一輪次不一定會縮短很多時間,但如果把輪次疊上去,最終體現在同等時間水平裡的成功率會高很多。經過多輪叠代,顯著提升效率,同時間接解決了成功率的問題。
第二個點,百圖生科不隻做單藥,還做靶點角度挖掘,而且會很關注從頭測序的靶點挖掘。
我們經常開玩笑說,這件事是真正在用産業的方式做科研,因為靶點問題會相對更複雜,如果将藥物問題歸為工業問題還有迹可循,靶點問題過去都是各大學校、科研院所通過篩選得到的。
所以我們通過AI來把靶點研究問題系統化,它會最終體現在成功率提升上,這也是一個很大的影響。
量子位劉萌媛:我們知道任峰博士團隊在國内率先利用AlphaFold發現了CDK20小分子抑制劑,任博在AI for Science領域有長久經驗,有沒有特别的心得體會可以和我們分享一下?
英矽智能任峰:心得體會有很多。AlphaFold預測蛋白質是一個非常典型的AI for Science,它解決了困擾人類50多年的問題。
而當科學問題解決了之後,該如何應用到實際場景?
這就是我們正在做的事,通過AI的方式解決蛋白質折疊問題,再将AlphaFold預測蛋白質結構應用到藥物研發上。根據我們團隊發在arXiv上的成果,僅設計合成了13個化合物,就能找到針對全新靶點活性非常好的小分子。
AI for Science從我的角度來講,我們是一個AI賦能的Biotech,用AI來做創新藥物。這其中有很多問題,是一個風險很高的行業,現在普遍需要十幾年時間、20億美金以上的研發投入,才能做一個創新藥出來,效率非常低。
通過AI的加持,來解決藥物研發領域裡的生物、化學以及臨床方面的問題,可以大幅縮短研發周期、提高研發效率、降低研發成本。
這為整個生物醫藥研發提供了颠覆性的解決思路。
傳統藥物研發依靠人類想象,所有創新都基于人。但有了AI加持後,可以在化學、生物學層面做更多探索,以前人類大腦中觸及不到的想象空間,AI通過浏覽大量數據、積累更多知識,從而具備更豐富的創新性。
AlphaFold的成功很難複制
量子位劉萌媛:剛剛任博提到了AI for Science在生物領域會有非常明顯的提升效果,現在還有哪些領域有可能去複制AlphaFold所帶來的這些改變呢?這個問題瞿總有相關的見解嗎?
百圖生科瞿佳潤:複制AlphaFold2蠻難的。之前我們内部也有在讨論說為什麼AlphaFold2能夠引起這麼大的轟動,AI已解決的問題不少,這個問題也在某種意義上出圈了,大家都關注到它。
我覺得可能有幾個因素。
蛋白質結構研究,無論是靶點方面還是藥物研發,都是非常底層基礎的。
蛋白質結構預測,尤其是實現準确預測複合物結構,它将不再僅僅是可視化問題那麼簡單,其背後涉及諸多能量問題,包括可以去比對給定蛋白可以和哪些蛋白形成關聯。
所以其實它也可以泛化到靶點網絡的問題,它是支撐很多問題的根本問題。
生物界有像施一公這樣的頂尖科學家在這個方向發力,包括CASP比賽也有很多人關注。綜合來講,多方面的原因造成它非常轟動。
其實我們公司在做一個類似的事情,它不一定能引起同樣的轟動,但我們覺得會對科學有很大的影響,就是對于組學的預測。
它本質上是蛋白這個問題的另一面,因為蛋白已經成為最後的載體了,但是基因層面的問題:從基因組到表觀組、轉錄組、蛋白這一系列的多組學問題,以及一個細胞怎麼通過它的組學的組合來表征免疫激活狀态,也是一個非常複雜的高維度問題。
本質上如果我們能夠把它的映射表征學習好,我們就能精準預測到給定一個外界的擾動這個細胞有沒有響應。
那麼再進一步,這就變成藥物響應的問題了,它可以通過該映射表征去匹配精準的細胞和精準的蛋白之間的調控關系,從而再引入臨床數據。
比如說,如果能夠知道哪一類病患裡的哪類細胞比較占主導地位,又能知道怎麼調控這一類的主導細胞發揮很好效果,整個邏輯就串起來了。
這也是我們大力投入的方向,現在有十幾個臨床隊列,有高仿真的體外模拟體系産生大量的數據閉環。
量子位劉萌媛:提問一下深勢科技的胡總。深勢科技更多是從計算問題的底層出發去看待AI for Science。深勢在AI for Science的應用上在其他領域現在已經有怎樣的涉足?是否生命醫藥領域更有天時地利,所以比其他領域更容易推進?
深勢科技胡成文:AlphaFold2确實是行業标志性的事件,大家都體會比較深,我們也有一些相關進展的工作。
大家知道國内很多公司做了類似模型,我們也提出了Uni-Fold,這不是為了打榜。
我們的核心邏輯是,預測出來的結果是靜态的,但蛋白質其實是動态的,它才會有如此豐富的特征。
拿到靜态結果并不能往後解決更多問題,所以我們又開發了一套動态的采樣算法,把原來Uni-Fold預測的靜态結果作為起點,對蛋白質結構進行動态構象進一步優化結構,基本上可以達到類似于實驗室精度的效果。
這對于創新藥後續的開發是比較好的技術,對靶點發現、分子對接也都是比較好的起點,這一系列的工具已經在我們自己内部的平台上。
AI for Science本質上來說是一套方法論,所有的宏觀信息都是由微觀決定結構的,本質上都是底層原子、分子性質、結構和相互作用力決定了上層宏觀性質,這一套方法同步在其他領域也有相關突破。
比如在材料領域,電池是一個比較典型的場景。我們通過計算來加快電池、電解液新材料的發現和性質預測,和甯德時代、金羽新能也取得了一系列突破。
燃燒也是比較典型的一個例子,我們推出了一個平台叫DeepFlame,能夠有效的模拟燃燒反應的過程。
解決的問題是類似于航空發動機過程當中的試驗和模拟——以前計算出來極其複雜,通過AI方式能夠大大降低計算的複雜度,減少了大量實驗的成本。
在科研領域你會發現傳統的科研隻有兩大塊:要麼做試驗、要麼搞理論。
做試驗要有大量的時間,不管是化學、物理試驗都一樣,包括實際操作、時間成本和經濟成本都會比較高。
我們通過AI for Science的方法也提供了一系列平台工具,使得很多的科研人員能夠通過計算去模拟很多傳統實驗。
這個趨勢現在開始從學校到工業領域都有所顯現,我們能看到北大化學系、生物系等,原來一半人做理論、一半人在做實驗。
現在很多實驗人員開始去做計算,包括前期篩選模拟的工作盡可能讓計算去做,剩下少量的工作進行模拟,所以計算的招生人數和實驗人數也是越來越多的。
所以我們能看到AI for Science不僅僅是在生物醫藥制藥行業有廣泛應用,在很多基礎科學研究方面也有廣泛的發展空間。這是我們的理解。
接下來我們需管理好對AI的預期
量子位劉萌媛:我們剛剛一直在講AI for Science它的發展前景,包括它給我們帶來的好處和改變。但它也将會面臨挑戰,大家目前覺得最大的一個挑戰會是什麼?以及談到AI的時候我們經常會說算法、算力和數據,那在AI for Science新的細分領域裡面最重要的還是這三要素嗎?
英矽智能任峰:其實胡總應該更有資格去談AI for Science,我們在工業或者技術方面可能做得更多一點。但是我可以發表一些自己粗淺的看法,我個人認為從AI的角度、從方法論的角度來講,AI不管是for任何的Science或者是應用,目前面臨最大的挑戰是如何去管理預期。
因為以前在AI發展過程中,剛開始所有人都不太相信AI,後來慢慢信的人越來越多,之後大家對它的預期非常高,好像AI無所不能。
預期高的話,對整個行業來講是一個非常大的挑戰。因為任何一個失誤或者是失敗,就會導緻大家對整個行業失去一定的信心,這可能是目前整個AI行業不管是for Science還是for Industry都面臨的一個比較大的挑戰,即我們如何管理好自己的預期,如何管理好客戶對AI技術的預期以及其他行業對AI行業的預期,這是非常重要的。
做Science的話,如果所有事都能成功就不叫Science,Science總要容忍很多失敗,而且經常失敗的比成功的案例還要多。
所以即便有AI的加持,隻是提高了效率、提高一些成功率,但并不能說可以100%成功,把大家對AI for Science的預期管理好,可能是我們以後要工作的一個方向。
百圖生科瞿佳潤:AI"三要素"依然是存在的,但是如果說映射到生物學問題的話,最重要的還是數據。
算力這個事,現在你有資金就可以用到這些,大家都用雲計算了,你也不用自己去搭這些硬件。
然後你說算法這件事情,現在國内很多AI人才,包括交叉學科的人才也都可以有。
當然,怎麼去管理不同背景的雙方團隊能真的互相理解也很有挑戰性,但本質上做這個方向的事情就必然要面對這樣的挑戰。
我覺得數據是更難的問題,尤其是在生物這個行業。
我還是以靶點舉例子。AI隻是一個工具上的變化,這種工具上的變化并不能扭轉一些本質上的問題。
所謂本質上的問題是在靶點也好、藥物也好,一直有一個诟病,即體外的這種體系很難映射體内的環境。不少生物領域裡基礎的研究都有這樣的短闆。AI學到的也包括這些短闆,很難說體外體系不好情況下,能學到體内真實的規律。
我們現在反而面臨的一個問題是,在閉環的過程中怎麼能把體外的體系優化到盡可能能模拟體内體系的狀态,而且它還得是一種滿足AI需求的高通量産數據方式,即"高通量低成本"的方式,這個挑戰是非常大的,包括藥物也一樣。
最開始大家說我們用公開的數據,其實我們自己内部做過一個研究,公開專利的數據在内部把所有一樣的序列合出來,然後去做親和力,它的關聯是非常差的。在這種情況下,根本就不能作為标準。
所以我想表達的是,我們希望用AI去研究Science,但是我不管用AI研究Science,還是基于生物學傳統手段研究Science,都要基于一個好的研究體系,而這個體系現在對我們來說是很具有挑戰性的。我相信這對其他的同行來說也是一樣具有挑戰的點。
深勢科技胡成文:剛才兩位都講得比較多,算力、算法、數據這肯定還是很重要的。從我的角度來說,還可以出現一些新的挑戰。
第一,人才,尤其是跨學科複合型的人才。
因為AI for Science不是說把一批AI公司和一些科學家搞在一起就OK了,本質上需要雙方去理解,不同領域的人在一起才能産生化學反應,碰撞出原創性的突破。
這種人才還是需要花大量時間去培養和學習的,也需要借助學術界和工業界的努力,所以人才是第一位的,目前還是比較緊缺。
第二,生态共建問題。
互聯網傳統AI商業上的巨大成功,使得在不管是數據、模型、算力方面都形成一套比較完整的生态鍊,人才供給比較豐富,包括最近各大公司、各個平台也推出了很多預訓練大模型,使得新的應用、新的開發上手會非常容易。
我們最近也推出了AI for Science預訓練大模型,叫DPA-1,是全球首個覆蓋元素周期表近70種元素的預訓練模型,該成果由北京科學智能研究院、深勢科技、北京應用物理與計算數學研究所共同研發,DPA-1被譽為自然科學界的GPT,這個模型能夠極大降低後續科研人員從頭訓練的成本,我們也希望跟同行們一起來推動AI for Science整個生态系統的繁榮。
量子位劉萌媛:由于時間問題,今天AI for Science的圓桌環節到此暫告一段落。感謝三位嘉賓為我們帶來的精彩分享,也期待後面有同樣優秀的創企在AI for Science領域為我們帶來新的研究進展以及落地成果。謝謝大家!