将一塊僅硬币大小的圓片,貼在喉嚨處,嗓子有問題的人就可以重獲新 " 聲 " 了。
這是清華大學發表在 Nature 子刊上的最新研究成果,一個用石墨烯材料做成的可穿戴喉嚨。
△ Nature Machine Intelligence(自然 · 機器智能)
它可以準确識别到佩戴者喉嚨處的細微振動以及模糊的話語,然後将之合成爲正常的語音,平均識别準确率高達 99.05%。
據稱,這款設備在噪音非常大的地方也好使。
如此一來,那些不能正常發聲的人,包括喉切除患者、臨時嗓子發炎者、長時間講課的老師、在嘈雜環境工作但需要交流的人等,都有救了。
當然,還有不少人直接 cue 起了李雪健老師。
要說幫喉嚨有問題的人解決交流問題,科學家早就在研究了。
不過此前的一些方案由于帶有一系列外設或者多通道電極,通常具有侵入性且不夠便攜。
要解決這倆問題,需要感應器足夠靈敏且小巧,在外部就能使用。
還需要足夠貼合皮膚。
因爲理論上,喉部的振動反映的是聲帶以及相關肌肉群的運動。
一些聲帶發聲有障礙的人,可能會訓練食管發聲,因此,需要柔性傳感器來保持對皮膚的貼合從而照顧到這一部位。
好在,有這麽一種東西可以滿足這些需要。
它就是用柔性激光直寫(laser-scribed)石墨烯(LSG)制成的機械傳感器,專門用于身體表面。
不過,由于不确定這種設備對低頻肌肉運動和傳遞到皮膚表面的聲音振動是否敏感,作者團隊對它的蜂窩狀微觀結構進行了優化。
最終,它可以做到在 >1000 次的彎曲測試後仍表現出均勻穩定的靈敏度,準确識别出頻率範圍在 100 – 20kHz 之間的振動信息。
由于 LSG 薄膜具有導電性和導熱性,這種設備也可以通過熱聲效應産生聲音。在聲音發射穩定性的實驗中,作者證明它可以做到連續三小時都保持穩定。
下面是這款可穿戴智能喉的工作流程:
首先,設備将收集到的振動信息編碼爲标準脈沖編碼調制(PCM)信号。
然後通過快速傅裏葉變換(FFT)生成相應的頻譜圖。
接着通過模型進行外部處理和識别,将檢測到的多模态信号轉換爲相應的語音。
最後通過熱聲效應驅動設備發聲,幫助佩戴者完成交流。
實驗表明,這款設備對音素、音調以及單詞的識别準确率平均達到了 99.05%。
下圖則顯示了設備在不同強度(dB)噪音下的識别精度。
可以看到,它在環境噪聲超過 60dB 的情況下,也能保持識别能力,抗噪能力遠遠優于麥克風。
"Talk is cheap",作者也進行了實戰測試。
他們找來一位完成了喉切除(非全切)手術的志願者,檢測六個日常短句的識别情況。
從頻譜圖可以看出,可穿戴智能喉可以感知患者喉嚨的發聲振動。
不過由于發聲器官不完整,患者有時會在說話時吞咽聲音。不過微調模型仍然能夠從信号中提取足夠的信息,将識别準确率做到 81.25%。
接着,他們又對用到的單個 AlexNet 模型進行了優化(Alex Net+ReliefF+SVM),最終實現了 91% 的識别精度。
總的來說,由于制造工藝可行、靈敏度高、性能穩定、抗噪能力強以及集成了發聲能力,作者認爲,這款可穿戴喉嚨可以成爲下一代語音識别和交互系統的理想工具。
而網友們也腦洞大開:
有讓加個音色調節的過濾器,變成可穿戴變聲器的;
也有說來個實時翻譯,就讓人直接擁有說多種語言的能力的。
你覺得還有哪些妙用?
論文地址:
https://www.nature.com/articles/s42256-023-00616-6
參考鏈接:
https://weibo.com/1231317854/MwsEvkugi?refer_flag=1001030103_