阿裡達摩院,又搞事兒了。
這兩天,它們發布了一個全新的語音識别模型:
Paraformer。
開發人員直言不諱:這是我們 " 殺手锏 " 級的作品。
——不僅識别準确率 " 屠榜 " 幾大權威數據集,一路 SOTA,推理效率上相比傳統模型,也最高可提升 10 倍。
值得一提的是,Paraformer 剛宣布就已經開源了。
語音輸入法、智能客服、車載導航、會議紀要等場景,它都可以 hold 住。
怎麼做到的?
Paraformer:從自回歸到非自回歸
我們知道語音一直是人機交互重要研究領域。
而當前語音識别基礎框架已從最初複雜的混合語音識别系統,演變為高效便捷的端到端語音識别系統。
其中最具代表性的模型當屬自回歸端到端模型 Transformer,它可以在識别過程中需逐個生成目标文字,實現了較高準确率。
不過 Transformer 計算并行度低,無法高效結合 GPU 進行推理。
針對該問題,學術界近年曾提出并行輸出目标文字的非自回歸模型。
然而這種模型也存在着建模難度和計算複雜度高,準确率有待提升的問題。
達摩院本次推出的 Paraformer,首次在工業級應用層面解決了端到端識别效果與效率兼顧的難題。
它屬于單輪非自回歸模型。
對于這一類模型,現有工作往往聚焦于如何更加準确地預測目标文字個數,如較為典型的 Mask CTC,采用 CTC 預測輸出文字個數。
但考慮到現實應用中,語速、口音、靜音以及噪聲等因素的影響,如何準确的預測目标文字個數以及抽取目标文字對應的聲學隐變量仍然是一個比較大的挑戰。
另外一方面,通過對比自回歸模型與單輪非自回歸模型在工業大數據上的錯誤類型(如下圖所示,AR 與 vanilla NAR),大家發現相比于自回歸模型,非自回歸模型在預測目标文字個數(插入錯誤 + 删除錯誤)方面差距較小,但是替換錯誤顯著的增加。
阿裡達摩院認為這是由于單輪非自回歸模型中條件獨立假設導緻的語義信息丢失。與此同時,目前非自回歸模型主要停留在學術驗證階段,還沒有工業大數據上的相關實驗與結論。
Paraformer 是如何做的呢?
針對第一個問題,阿裡達摩院采用一個預測器(Predictor)來預測文字個數并通過 Continuous integrate-and-fire ( CIF ) 機制來抽取文字對應的聲學隐變量。
針對第二個問題,受啟發于機器翻譯領域中的 Glancing language model(GLM),他們設計了一個基于 GLM 的 Sampler 模塊來增強模型對上下文語義的建模。
除此之外,團隊還設計了一種生成負樣本策略來引入 MWER 區分性訓練。
最終,Paraformer 由 Encoder、Predictor、Sampler、Decoder 與 Loss function 五部分組成。
核心點主要包含以下幾點:
Predictor 模塊:基于 CIF 的 Predictor 預測語音中目标文字個數以及抽取目标文字對應的聲學特征向量;
Sampler:通過采樣,将聲學特征向量與目标文字向量變換成含有語義信息的特征向量,配合雙向的 Decoder 來增強模型對于上下文的建模能力;
基于負樣本采樣的 MWER 訓練準則。
效果 SOTA,推理效率最高提 10 倍
最終,在學術界常用的中文識别評測任務 AISHELL-1、AISHELL-2 及 WenetSpeech 等測試集上, Paraformer-large 模型均獲得了最優效果。
在 AISHELL-1 上,Paraformer 在目前公開發表論文中,為性能(識别效果 & 計算複雜度)最優的非自回歸模型,且 Paraformer-large 模型的識别準确率遠遠超于目前公開發表論文中的結果(dev/test:1.75/1.95)。
在專業的第三方全網公共雲中文語音識别評測 SpeechIO TIOBE 白盒測試中,Paraformer-large 識别準确率超過 98%,是目前公開測評中準确率最高的中文語音識别模型。
配合 GPU 推理,不同版本的 Paraformer 可将推理效率提升 5~10 倍。
同時,Paraformer 使用了 6 倍下采樣的低幀率建模方案,可将計算量降低近 6 倍,支持大模型的高效推理。
量子位将贈送 3 張阿裡研發的會議紀要産品 " 聽悟 " 特邀用戶年度權益卡,每天可使用離線語音 / 視頻轉寫 10 小時 + 實時轉寫 8 小時,最高價值超萬元!
體驗地址:
https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary
論文地址:
https://arxiv.org/abs/2206.08317