一個遊戲 AI,怎麼幹起醫生的活了?
而且這本事還是從打遊戲的經驗裡總結來的。
喏,拿一張病理全片掃描圖像,不用遍曆所有高倍鏡視野,也能找到病竈所在。
在它看來,這個過程和《我的世界》裡伐木居然是類似的。
都是三步走:
先觀察大環境
鎖定小範圍
最終确定目标。
而且這種方法效率還賊高,是傳統方法的400%。
不愧是拿過 NeurIPS MineRL 競賽冠軍的遊戲 AI ……
所以,它到底是怎麼做到的?
遊戲 AI 怎麼懸壺濟世?
在介紹這隻遊戲 AI 前,讓我們先來了解一下處理病理切片的難點究竟在哪。
與想象中隻需掃一眼不同,臨床科室首先會将組織切片進行全片掃描數字化處理。
在這之後,交到醫生手裡的往往是一張幾萬乘幾萬像素、甚至更高的高分辨率圖像,能達到每個像素 0.25 微米。
醫生要做的就是在這幅布滿密集細胞和組織的超大尺寸圖像中,肉眼找到風險的病竈位置并進行判斷,可謂是 " 大海撈針 " 了。
近些年也不是沒有人嘗試過用深度學習方法來解決這一問題,但遇到的挑戰是:
第一個,盡管病理圖像(WSI)具有十億像素大小的高分辨率,卻往往隻有一個圖像級标簽。
目前絕大部分的方法都依賴于在高倍鏡下對全切片進行密集采樣的方式進行特征提取,并對所有采集特征進行信息整合進而實現全片診斷,工作量可想而知。
第二呢,這些圖像的病變區域往往很稀疏。現有的方法大多依賴于多實例學習框架,需要在高倍率下密集采樣局部的圖像塊(patch)。
這不僅增加了計算成本,還導緻了診斷相關性弱、數據效率低下,一張切片往往需要幾十分鐘才能完成計算。
不過,這次來自騰訊的 " 絕悟 " 團隊就發現了盲點——
傳統模式下盡管醫生需要肉眼去看,但他們往往會先用顯微鏡在低倍鏡下掃片,憑借經驗發現疑點後再用高倍鏡複核。
而這種操作,如果放到 AI 的世界裡,不就是最優路徑決策問題嗎?這不正是強化學習能搞定的事?
再聯系到強化學習又常用在遊戲 AI 裡,遊戲 AI 又是絕悟 AI 的長處所在,嗯優勢閉環了。
此前,絕悟 AI 就憑借最優路徑決策策略在 MOBA、RTS、我的世界(Minecraft)等多類型遊戲中戰績斐然,還拿過 AI 頂會 NeurIPS MineRL 競賽冠軍。
當時,CMU、微軟、DeepMind 和 OpenAI 聯手在頂會 NeurIPS 上舉辦了一個名叫 MineRL 的競賽,要求參賽隊伍在 4 天時間内,訓練出一個能在 15 分鐘内挖出鑽石的 AI" 礦工 "。
來自騰訊的絕悟 AI 以 76.97 分的絕對優勢一舉奪魁,成功成為挑戰賽曆史上 " 挖礦最迅速 " 的 AI。
而在《我的世界》裡找木頭的動作,和在病理切片裡找病竈,其實思路差不多。
同樣是環顧四周搜集全局信息(病理醫生在低倍鏡下掃片),然後鎖定視角(高倍鏡确認),找到木頭後執行采集動作(确認病竈),如此往複。
于是,就在這隻遊戲 AI 的基礎上,騰訊的研究人員推出了最新的研究成果 "絕悟 RLogist",寓意正是 RL(reinforcement learning)+ Pathologist(病理學家)。
那麼絕悟 RLogist 具體是怎麼實現的呢?
決策提效 400%
就像上文提到的人類醫生的解決思路一樣," 絕悟 RLogist" 采用的正是基于深度強化學習的,找尋最優看片路徑的方法。
這一新方法的好處很明顯:避免了用傳統的窮舉方式去分析局部圖像切塊,而是先決策找到有觀察價值的區域,并通過跨多個分辨率級别獲得代表性特征,以加速完成全片判讀。
通過模仿人類的思維方式,不僅提高了看片效率,還做到了節約成本。
具體而言,研究人員通過條件特征超分辨率實現了交叉分辨率信息融合。
受益于條件建模,未觀測區域的高分辨率特征,可以根據已經被觀測過的低分辨率和高分辨率的特征配對,而被更新。
其中一個關鍵步驟,是為病理圖像分析領域定義一個強化學習訓練環境。該方法使用離散化的動作空間、設計合理的圖像分塊和完成狀态獎勵函數,去提升模型的收斂表現,以避免局部最優。
相應的訓練 pipeline 如下述算法所示:
從結果上看,絕悟 RLogist 的優勢非常明顯。研究人員選擇 " 淋巴結切片轉移檢測 " 及 " 肺癌分型 " 兩個全片掃描圖像的分類任務進行了基準測試。
結果表明,與典型的多實例學習算法相比," 絕悟 RLogist" 在觀察路徑顯著變短情況下,能夠實現接近的分類表現,平均用時縮短至四分之一,決策效率提升 400%。
不僅如此,該方法同時還具有可解釋性。研究人員将決策過程可視化後,發現未來不管是醫療教育還是實際場景,絕悟 RLogist 都能很好地發揮作用。
目前,該論文已被 AAAI 2023 接收,代碼已開源。
值得一提的是,研究人員還強調,未來将沿着絕悟 RLogist 的方向繼續優化,包括通過引入更強的神經網絡結構增強 RLogist 的表征學習能力,以及使用更高階的 RL 訓練方法避免學習到錯誤的觀測路徑等。
" 絕悟 RLogist" 從何而來?
提到 AI" 絕悟 ",想必很多人都不會陌生。
畢竟《王者榮耀》裡的 AI 玩法,就是 " 絕悟挑戰 "。
△紅方 AI 铠大局觀出色,繞後蹲草叢扭轉戰局
還有《我的世界》、3D-FPS 品類遊戲等,可以說 " 絕悟 " 遊戲老玩家了。
其背後團隊騰訊 AI Lab也是讓 AI 學會玩遊戲的老玩家了,從 2016 至今已經開發出了 AI" 絕藝 "、AI" 絕悟 ",并形成了 " 開悟 " 平台。
AI" 絕藝 ",是棋牌類遊戲玩家。
它的開發始于 2016 年,最早從圍棋起步。
2017 年," 絕藝 " 在 UEC 世界電腦圍棋大會上奪得冠軍,現在是國家隊的專業陪練。
除此以外,它還會下國際象棋、打麻将。在四人麻将上," 絕藝 " 是業界首個在國際标準時達到職業水準的麻将,拿下過 IJCAI 麻将 AI 比賽的冠軍。
緊随 " 絕藝 " 身後,2017 年 " 絕悟 " 研發啟動。
它強調的不再是簡單博弈,而是多智能體 AI 在面臨更複雜環境下的策略問題。
2018 年 " 絕藝 " 達到《王者榮耀》業餘玩家水平,2019 年達到職業電競水平。
後面 " 王者絕悟 " 也為王者榮耀玩家帶來了 " 挑戰絕悟 "、" 英雄練習場 " 等玩法,成為玩家訓練上分的好幫手。
此外," 絕悟 " 玩《我的世界》,拿下了 NeurIPS MineRL 競賽的冠軍,成功成為挑戰賽曆史上 " 挖礦最迅速 " 的 AI。
" 足球版 " 絕悟也曾獲得過谷歌舉辦的線上世界足球賽冠軍。
而在做遊戲 AI 的過程中,騰訊 AI Lab 還順道與王者榮耀一同沉澱出了一個平台 "開悟"。
也就是将騰訊的平台、算法、場景給學生、學術界做一定的開放,讓他們進行相關的博弈研究。2020 年 8 月," 開悟 " 平台組織了第一場開悟的高校比賽,今年還發布了王者榮耀 1v1 開放研究環境。
實際上,遊戲領域,一直被視為 AI 最好的試驗田。
從 " 絕悟 " 這幾年的戰績中,不難看出它在強化學習等方面已經積累了一定能力。
那麼将最擅長的能力向外遷移,落在實際應用層面,也是行業内的大勢所趨。
這一回,可真就不能說遊戲 AI" 不學無術 " 了。
論文地址:
http://arxiv.org/abs/2212.01737
開源地址:
https://github.com/tencent-ailab/RLogist