谷歌大模型下場，FDA完成首批，這個AI賽道起飛在即

文｜vb 動脈網

通過患者體内發出的聲音 " 聽音辨病 " 成爲現實又近了一步！

今年初，谷歌（Google）正式宣布生物聲學基礎模型 HeAR，并在近日宣布将其用于肺結核早篩。同時，今年稍早時候，Eko Health（簡稱 Eko）的人工智能獲得 FDA 審批，被認爲是 FDA 審批的首個利用聲音輔助醫生識别心衰的人工智能。

動脈網統計發現，生物聲音标志物近來進展迅速，正迎來重大突破。

谷歌下場，FDA 首批，聲學标志物 AI 進展神速

近幾個月以來，生物聲學标志物這一新興領域頻頻出現在聚光燈下。以該領域最知名的企業之一 Eko 爲例，在今年迎來了雙豐收——其突破性人工智能算法在 3 月被 FDA 批準，随後便在 6 月完成了 4100 萬美元的 D 輪融資。

另外一家知名企業TytoCare 則在去年 8 月完成了 4900 萬美元的融資，其人工智能算法則剛剛在 7 月底獲得了 FDA 的額外批準，可用于檢測成人和兩歲以上兒童的肺部濕啰音，以進一步檢測潛在的肺部疾病。

如今，看好這一領域的谷歌也攜大模型入場。

今年初，谷歌發布了名爲 HeAR（Health Acoustic Representations）的人工智能模型的研究成果。這個專業的生物聲學基礎模型使用了超過 3 億條兩秒長的音頻數據集（其中包含約 1 億條咳嗽的音頻數據）進行訓練，皆是從 30 億個公共非版權 YouTube 音視頻中提取剪輯而來，希望能夠在生物聲學标志物的醫療應用上取得新的進展。

谷歌的研究團隊在 6 個數據集的 13 個健康聲學事件檢測任務、14 個咳嗽推理任務和 6 個肺活量測定任務的健康聲學任務上對 HeAR 進行了基準測試，證明HeAR 能夠在廣泛的任務範圍中非常準确地識别與醫療相關的聲音模式，稱其爲目前功能最爲強大的生物聲學基礎模型之一絕不爲過。

比準确性更讓人興奮的是其對拾音設備極佳的兼容性。研究采用了不同的音頻輸入設備，從高端智能手機到入門智能手機，再到隐藏式麥克風，最終表明HeAR 能夠在不同的拾音設備上泛化并以有限的數據集訓練以實現高性能。

8 月底，谷歌宣布了HeAR 的第一個應用項目，将與印度企業 Salcit Technologies 合作，将 HeAR 用于肺結核早篩。

快速發現結核病人并提供及時治療是避免結核菌傳播的主要途徑，但目前臨床上主流的診斷技術還比較 " 原始 "，應用最廣泛的痰塗片距今已有百年曆史，但這一方法從取樣到出結果往往至少需要一個月時間，且其陽性率隻有約 30%，準确率、效率和速度均較低。

雖然影像檢查和最新的分子生物學診斷技術的準确性和效率有顯著提高，但受成本和技術的限制導緻其很難在基層醫院推廣。相比之下，通過智能手機對患者咳嗽聲的采集分析實現肺結核早篩爲院外提供了一種極具潛力的普适性無創診斷手段，可使基層獲得比以往強得多的篩查能力。

除了肺結核，哮喘和慢阻肺也是生物聲學标志物的目标。澳大利亞的 Resapp Health 在該領域有較長的積累，并在澳大利亞上市。旗下兩款産品之一—— SleepCheckRx 用于識别阻塞性睡眠呼吸暫停，已獲 FDA 批準；另一款産品 ResAppDx 則可通過咳嗽和呼吸聲幫助診斷肺部疾病，也已獲 CE 批準。

2022 年底，藥企巨頭輝瑞以 1.79 億美元收購了 Resapp Health。

谷歌的這一大模型主要用于呼吸系統疾病的應用，尚處于起步階段。在對聲音标志物的利用上，心髒類疾病的進展最快，并在今年迎來了突破。

今年 5 月，Eko 宣布其與數字聽診器配套的人工智能軟件—— "Eko low ejection fraction tool ( eleft ) " 獲批，被認爲是 FDA 所批準的第一個可輔助心衰早期篩查的人工智能算法，是一項重大的醫學創新。

借助 Eko 的這一人工智能，醫生可以在 15 秒内僅憑數字聽診器采集到的心音檢測心髒低射血分數（或稱心髒低 EF 值）——這一指标反映了心髒的收縮泵血能力。射血分數降低類心衰（HFrEF）也是主要的心衰類型，根據統計，在美國超 600 萬心衰患者中，有一半屬于射血分數降低類心衰。

在以往，射血分數檢測需要應用超聲檢測，不僅成本較高也對操作人員有一定的要求，并不适合基層常規檢查。患者往往隻會在已有明顯症狀的時候才會做進一步檢查，因此錯過早期黃金幹預時機的案例屢見不鮮。

Eko 的人工智能算法結合配套數字聽診器可以識别心髒雜音，有望在最初級的常規檢查中盡早将射血分數降低類心衰患者篩查出來。被篩查出來的患者則可以接受進一步的檢查以實現盡早幹預。

Eko 的進展并非一蹴而就，這家成立于 2013 年的公司一直專注于将聲學标志物付諸實用。早在 2015 年，其數字聽診器就獲得了 FDA 審批。不過，當時這款産品目的主要在于遠程傳遞，并沒有任何輔助功能，僅僅隻是将采集到的心髒聲音通過藍牙傳輸到手機，随後再通過手機将音頻數據上傳到雲端供專家進行遠程會診。

然而，這種方式可以将患者的音頻數據與電子健康記錄（EHR）集成在一起，以實現無縫轉診、文檔編制和病情實時監測。這爲Eko 之後逐步建立 " 世界上最大的心音數據庫 "奠定了基礎。這些心音數據之後被 Eko 用于訓練人工智能，用于識别心髒病早期症狀，對于心髒疾病的早期診斷及治療具有重要意義。

這些努力終于在近年結出了碩果。2020-2023 年間，Eko 又獲批了多款醫療器械，除了升級後的數字聽診器，更包括可生成心音圖并對其進行分析的人工智能算法。

除了 Eko，全球有不少企業也在這一領域取得了實質性進展。比如，日本 AMI（Acute Medical Innovation）旗下可輔助識别瓣膜性心髒病（包括主動脈瓣狹窄）早期征兆的 AI 聽診器就在 2022 年 10 月通過了日本醫療器械審批。

這一領域的進展，有目共睹。

生物聲學标志物潛力巨大，起飛在即

人體器官的物理結構會随着生理和病理狀況而改變，從而導緻不同疾病患者發出的聲音以及器官自身發聲産生特異性變化，這些聲音特征可被作爲疾病的 " 聲音标志物 "。一個簡單的例子莫過于得了感冒後聲音會變沙啞，便是這種變化的一種體現。

一直緻力于研究生物聲學标志物研究的環宇瑞聲創始人、CEO 高政向動脈網介紹了生物聲學标志物的原理：" 舉例來說，肺癌患者因主動脈瘤、縱膈腫瘤等壓迫支氣管導緻咳嗽金屬音并伴随聲音嘶啞，肺炎患者則因一側或雙側肺泡發炎引起的感染導緻肺泡充滿液體或膿液，而發出伴随痰鳴音的咳嗽音。不同疾病的聲學标志物具有獨特性和差異性，通過梅爾語譜圖（Mel-spectrogram）進行可視化特征鑒别性分析，可以發現肺癌、肺結核與健康人之間聲音的顯著差異，從而爲疾病診斷提供全新的視角和方法。"

健康人和肺部疾病患者的梅爾語譜圖

正因爲此，聲音數據自古以來都是醫學範疇内必要的醫療數據。中醫自古強調的 " 望聞問切 " 中的 " 聞 " 就是指聆聽患者的聲音和氣息，也在幾千年的實踐中被證明的确可以對某些疾病進行診斷。

1816 年被發明，并于 1819 年被公布聽診器的出現則代表了醫學界對于生物聲音标志物的進一步探索。因其成本低廉和小巧便攜的特點，聽診器得到了普及。在諸如 CT 等大型醫療器械出現之前，通過人體聲音的變化診斷疾病一直都是主要的醫學檢查手段。

不過，受限于傳統聽診器對聲音的采集精度限制，以及人類聽覺器官的極限，聽診器隻實現非常粗淺的判斷，且高度依賴于醫生經驗。盡管如此，它在基層應用中的作用仍然不能被小視。

數字時代的到來則爲已有兩百多年曆史的聽診器帶來了新生命。數字聽診器利用電子技術将聲波轉換爲高精度的數字化電信号，然後通過放大和處理，從而獲得清晰度遠比傳統聽診器高得多的聲音。再加上人工智能近年的高速發展，将生物聲學标志物用于臨床開始從以往的 " 遙不可及 " 逐漸向 " 觸手可及 " 轉變。

即便如此，這一進程也并不是一條坦途。音頻信号會受到環境噪聲的幹擾，說話聲、戶外噪聲等因素都會影響咳嗽音特征的提取和分析。此前，受制于硬件性能限制，往往難以抓取到高質量的聲音信号。

一個好消息是傳感器技術近年的迅速進步極大地解決了這一短闆。以壓電陶瓷傳感器作爲拾音部件的新一代電子聽診器相比以往已經具有更好的信号質量和更平穩的頻響曲線。能夠獲得更加準确、清晰的心肺音信号，從而準确獲取用戶健康數據。

更爲重要的是，作爲更爲普及的聲音标志物拾取設備，智能手機曆經多年激烈競争和技術進化，普遍在麥克風拾音性能上進步巨大，足以滿足基本的音頻信号采集需要。

" 智能手機對聲音頻率的要求實際上已經符合臨床需求了。雖然不同的手機會帶來聲音的一些變化，但是通過領域泛化技術和損失函數改進可以将這種差異縮小，所以，現在硬件基本不會産生太大的影響了。" 高政向動脈網介紹道。

在解決了硬件的門檻後，聲學标志物的發展正在進入快車道。

西天取經非坦途，國内進展不輸巨頭

硬件的問題雖然基本解決，但生物聲學标志物的應用并非一條坦途，仍需解決一系列難點。

高政表示，目前生物聲學标志物的應用難點主要集中在軟件方面，即人工智能部分。技術上仍然需要解決人工智能模型有關患者聲學标志物靶點特征分析、複雜環境及跨設備場景下模型穩定性，以及少量精标注數據下小樣本的學習方法等難題。

由于病理因素，呼吸系統疾病患者（如肺結核）與健康人之間的咳嗽聲音特征差異較爲顯著，較易識别。然而，不同的肺部疾病患者卻可能表現出類似的症狀，其咳嗽音的特征可能相互重疊，難以辨别是哪種具體的疾病。

如何在通用音頻特征基礎上，針對咳嗽的發聲特性以及特定疾病（如肺結核）的病理特性及症狀表現，設計精準的特定疾病患者咳嗽音的靶點特征，從而實現将特定疾病患者與健康人群以及其他肺部疾病患者的精準區分，是一個仍需解決的難點。

複雜環境及跨設備場景下的模型穩定性則是另一個難點。通常，模型訓練所采用的音頻數據較爲理想，但實際應用中需要識别的音頻信号會受到各種幹擾，會影響咳嗽音特征的提取和分析。此外，不同拾音設備的性能差異也可能導緻咳嗽音頻質量和特性發生變化，将會影響模型的診斷結果。

" 在模型訓練過程中，如何通過數據增強、噪聲抑制等方法減輕噪聲影響，利用領域泛化技術消除設備差異，從而提升診斷模型的魯棒性将是提升生物聲學标志物模型實際可用性的關鍵問題。" 高政表示。

此外，由于音頻數據的采集及标注都較爲困難，這要求模型在少量精标注數據的條件下仍然保持較好的檢測性能。如何解決小樣本數據和複雜模型學習之間的矛盾也是一個課題。

" 音頻數據的獲取是目前最困難的一環。在目前的醫學檢測手段中，醫學影像數據占據了 90% 的醫療信息，從而爲模型的訓練提供了基礎。但此前沒有醫院會專門存儲音頻數據，對于人工智能的訓練來說就成爲了無米之炊。" 高政向動脈網介紹道。

"高質量音頻數據集非常缺乏。如果用開源數據則會涉及到跨信道的問題。以谷歌爲例，它的模型訓練所用的數據集是從 Youtube 的音視頻數據中剪輯而來，尤其是視頻數據轉成音頻數據需要多次解碼，會造成數據丢失。此外，像微信語音也存在類似數據壓縮的問題。我們的模型訓練用了 2000 萬條聲學數據，最大的優勢就是所有數據都是手機錄制，其信道是完全一緻的。" 他補充道。

他表示，高質量數據的缺乏會對相應産品的研發帶來難題：" 統計來看，目前已獲批的醫療 AI 産品都具有較高的敏感性（90% 以上）和特異性（85% 左右）。但聲音跟影像不太一樣，個體之間是有很大差異的。僅僅用這種少量的标簽數據訓練出來的模型在真實環境中使用，要達到要求的敏感性和特異性并不容易。"

正因爲此，高政認爲，大模型可以提升這個模型的穩定性和在真實世界的這種泛化性，将成爲未來聲學标志物能否投入實用的關鍵。

這種大模型的趨勢已經開始顯現。成立于 2016 年的 Canary Speech 主要利用聲音标志物檢測疾病症狀明顯之前的情緒、壓力和能量水平，但一直沒有引發太多的關注。去年 5 月，Canary Speech 宣布與微軟合作，導入微軟大模型技術助力研發。今年 6 月，這家企業首次獲得了 1300 萬美元的 A 輪融資。

在生物聲學标志物的研究上，國内的進展也頗爲可觀，有關生物聲學标志物應用的媒體報道也并不鮮見。中國醫科大學附屬第一醫院就在此前開展了基于聲學生物标志物的頸動脈狹窄智能診斷技術研究，目前該項目的頸動脈狹窄輔助診斷準确率已達到 97%。此外，首都醫科大學附屬北京胸科醫院也正開展将該聲學生物标志物應用于肺癌、肺結核智能診斷的臨床研究。

寫在最後

基于聲學标志物的 AI 智能診斷技術有着廣闊的應用前景，除了呼吸系統疾病、心腦血管疾病外、神經性疾病（例如阿爾茲海默症、抑郁症、創傷後應激障礙等）以及胎心音等更廣泛的醫療領域都有其用武之地。

随着硬件和人工智能等相關技術的進步，生物聲學标志物的研究進展正在加速，相信未來将會越來越多地迎來相關領域的突破。動脈網也将對此保持關注，也歡迎行業人士不吝賜教。