鳳鳴AI引擎發布，實時音頻看起來真的無處不在了

ChatGPT 火了之後，Sam Altman 的話開始被挖出來，反複咀嚼，奉爲圭臬。

他曾有一個很簡單的定義一種産品或技術革新是否具備确定性的方法：一小撮最先接觸到它的人每天會在這東西上花很長小時，長期沉浸其中，那這東西大概能成；反之，如果一個新事物仍然在哪怕一小撮人都無法上瘾的階段，那一個新的浪潮就還不是時候。

這位 OpenAI 創始人重新誇贊了一番 iPhone，又踩了一腳 VR，然後将 ChatGPT 推上那個 "iPhone 時刻 "。但這樣看起來基于常識又過于理想化的判斷思路并不是沒有反例，比如曾短暫風靡的 Clubhouse。

或許有一種更長尾角度的判斷思路。比如當最堅固的諾基亞用戶也開始打聽喬布斯，那 "iPhone 時刻 " 才真的來了；或者當穿着白袍，戴着白巾的保守中東網民開始舉着手機社交的時候，世界才确定真的進一步跨越到了一個實時互動的巨大浪潮裏。

2016 年成立的 Yalla Group 是目前語聊房市場中體量最大的公司，它在 2020 年成爲阿聯酋第一家在紐交所上市的科技公司。上市三年後，這已經是一個月活用戶接近 3200 萬人，付費用戶超過 1200 萬人的巨型流量體。

在 Yalla 的聊天房裏，經常可以看到超過 1000 人同時在場的盛況。在這個上線 2000 人的音頻空間裏，很多聲音是從沙特阿拉伯、卡塔爾甚至阿聯酋傳過來的。

這樣的事正在發生。

實時互動浪潮

實時互動的浪潮在國内洶湧，無數場線上演唱會的出現佐證着這場實時互動的技術變革。

近年鮮有在公衆視線中露面的羅大佑在去年 5 月完成了自己的首場線上演唱會，他唱了 21 首歌，4200 萬人通過微信視頻号看了這場演出。而在同一天，孫燕姿在抖音上做了自己的第一場線上 " 唱聊會 "，觀看次數（同一賬号可重複計入）達到了 2.4 個億。

外界将全球範圍内音視頻産品的興起歸因于疫情的推動，将國内線上演唱會的風潮描述爲一場場平台之争，但從技術底層看來，實時音視頻傳輸網絡（Real-time Network, RTN）在延時降低、弱網對抗等方面的能力突破，乃至整體上以視聽爲信息流通方式的實時互動的技術成熟，才是談論這一切的基礎。

2011 年 WebRTC ( Web Real-Time Communications ) 開源，然後一個完整的十年周期之後，W3C 和 IETF 兩大标準制定組織在 2021 年宣布 WebRTC 成爲官方标準，此後用戶無需下載額外組件或單獨的應用程序，便可以支持在網絡上的實時音視頻通信。

" 這意味着實時音視頻将被帶入 Web 的任何地方，爲 WebRTC 第一代技術的标準化進程劃上了完美句号。" 聲網 CEO 趙斌在 2021 年如此總結，他也将 WebRTC 成爲官方标準的時刻看作一個起點，" 下一代 WebRTC 技術、行業、标準進化等方面的探讨也将由此正式提上議事日程 "。

RTE 從技術到用戶心智上已經度過了從 0 到 1 的建立過程，未來的進化方向将會由終端的場景來給出方向。從元宇宙這樣複雜綜合的場景到從線上演唱會這樣的垂直場景，都是近年湧現出來的。在這中間，線上 K 歌可能是實時互動中最極端的場景之一。

它的核心玩法與除了聽力的其他感官全無關系，這完全指望實時互動中音頻能力的進展。艾瑞咨詢的一份研報表示，時延 400ms 之内就可以被視爲強互動體驗的必要條件，當實延達到 200ms 内，實時互動體驗開始逼近現實。對于多人 K 歌這樣的嚴苛場景來說，200ms 的延遲已經意味着合唱時無法被忽視的錯位感。實時合唱理想的實延阈值需要低到 50ms 左右的水平。

" 星戰之父 " 喬治 · 盧卡斯曾說：" 電影所呈現的效果的一半靠音效組成 "。電影是人類最早對于沉浸感的夢幻發明，現在一場更劇烈的、虛拟與現實的相互入侵已經呼之欲出的時候，實時互動中的音頻能力首先被考驗。這個過程中，實時音頻作爲一種基礎能力正在進一步原子化。

鳳鳴 AI 引擎在上升，音頻能力在下沉

傳統的 RTC 概念，從信息傳遞的角度出發，音頻功能僅提供簡單的語音溝通，滿足單一的場景和通話标準，對于音質并無太高的需求，也就是所謂的 " 能夠溝通 "。伴随着實時互動創新場景的湧現，用戶對于音頻體驗的需求也産生了從量變到質變的進化。

音頻娛樂在當下已經不是一種獨特的 " 需求 "，而是所有泛娛樂場景中的标準配置，這爲 RTE 技術、産品及解決方案的提供者提出了更高的要求。

比如在線 K 歌、線上會議等場景，用戶的需求早已從能夠溝通到希望 " 脫離現實 "，屏蔽外界幹擾，實現純淨溝通；對于元宇宙、虛拟活動、遊戲競技等場景，用戶則是希望從簡單溝通實現 " 極緻拟真 " 的沉浸式體驗。

适配當下的實時音頻技術，既要聽感上無限接近真實世界，又要在體驗上脫離現實。這二者拟合在一起，就是聲網的鳳鳴 AI 引擎。

圖源：聲網

3 月 23 日，實時互動雲服務商聲網發布了囊括 AI 降噪、AI 回聲消除、空間音頻、最佳音效在内的新一代音頻技術智能引擎 " 鳳鳴 AI 引擎 "。開發者與企業可以如搭積木般靈活調用對應組件，并廣泛應用在語聊社交、在線 K 歌、線上會議、遊戲競技、虛拟活動等諸多場景

從 Yalla 到 Oasis，背後都是聲網實時音視頻技術在提供底層能力。這些最早在語聊房場景積累起來的音頻實踐開始沉澱成不同場景下的音效配置方案，這些方案在産品化之後，成爲鳳鳴 AI 引擎最佳音效的語音能力。

如果把音質、延遲問題當作實時音頻在還原現實時遇到的最初難題，那麽模拟出聲音的空間感已經開始成爲新的增量。空間音頻能力也是聲網鳳鳴 AI 引擎矚目的語音能力之一。

鳳鳴 · 空間音頻技術可以模拟頭部球面區域立體聲場，使用戶在音頻聽感上具有空間感。當用戶操作虛拟人物在虛拟場景裏移動，可以實現根據虛拟人物的面部朝向、音源朝向、遠近距離與上下高度，呈現不同聲音效果，完美模拟現實聽覺感受。

鳳鳴 AI 引擎的空間音頻能力可以完成對大量場景的重建。

圖源：聲網

在疫情中，大量在線展會、線上博物館的新場景出現，這些場景中已經可以構建出優秀的視覺空間效果；另一條線上，由 Clubhouse 帶起的互動播客将聲音的空間感推向外界。這樣的空間音頻效果如果疊加上進當前已有的線上場景，将進一步颠覆後者的體驗。

比如當羅大佑再次出現在線上演唱會時，聽衆可以聽出羅大佑身後樂隊中吉他手和貝斯手的位置區别；或者在一場博物館的線上遊覽中，參觀者可以随着自己的走動聽到 " 身邊 " 其他人對于展品的議論。

同時，空間音頻是元宇宙和遊戲這類具備 3D 場景玩法的最佳搭檔，如狼人殺、虛拟演唱會、虛拟活動等場景，可以有效的增強用戶在線上的互動、聽覺體驗，重構用戶在虛拟世界的沉浸感與臨場感。

并且由于聲網 3D 空間音頻采用純軟件算法方案，對于調用的開發者來說無需考慮硬件設備因素。通過任意耳機在手機和電腦端即可體驗沉浸感受，且支持 iOS、Android、Mac、Windows、Unity、Unreal 等多平台。開發者不必擔心空間音頻功能對于用戶設備的影響。據數據測算，開啓空間音頻功能後，相應設備 CPU 消耗增幅平均值< 0.7%，内存消耗增幅平均值< 2M。

沉浸感交給 AI

極緻的音效和空間音頻能力能夠讓鳳鳴 AI 引擎盡可能的在實時互動場景中還原出聲音的真實。另一方面，AI 能力讓這種真實成爲體驗上脫離現實的沉浸感。

鍵盤敲擊聲、房屋的裝修動靜或者室外的汽車噪音，這些真實的聲音會影響沉浸感的形成。聲網鳳鳴 AI 引擎集成了利用算法對穩态和非穩态噪音進行屏蔽的 AI 降噪能力，可以在保證人聲無損傷的前提下，強力抑制 100+ 類型突發噪聲，在低信噪比或人聲密集場景下實現純淨通話體驗。聲網表示，鳳鳴 AI 引擎的降噪能力幾乎可以覆蓋現實中常見的所有噪音種類。

圖源：聲網

對噪音的改善本質上是爲了保證實時音頻交流中純淨的通話體驗。鳳鳴 AI 引擎靈活的降噪能力在保證強降噪的同時可以兼顧高保真。這意味着它可以穿透商場這種人聲極度密集的場景。并且當對話者暫時遠離麥克風導緻聲音模糊時，聲網的 AI 降噪算法也可以做到使對端能清晰的聽到該用戶的聲音。

除此之外，鳳鳴 AI 引擎的另一項能力在于強力的回聲消除能力。在線上會議、在線 K 歌、多人連麥等場景中，回聲的存在是影響通話質量以及互動體驗最大的因素之一。聲網的 AI 回聲消除技術可以利用算法對環境中産生的回聲混響進行有效抑制，并且能夠智能适應各類環境以及對不同音源做精準分離，從混合的近端信号中消除不必要的遠端信号，保留近端人聲發送到遠端，從而實現全面消除回聲，實現高保真音頻體驗。

圖源：聲網尾聲

聲望在 2021 年發布了 RTE 萬象圖譜，這張巨大的實時互動生态圖景中已經出現了圍繞教育、泛娛樂、IoT、企業協作、金融、醫療等 20 多個行業賽道的 200 多個場景。作爲實時互動底層技術服務商，并且正在推動這場浪潮的聲網，帶來的明确反饋是，音頻體驗的提升能夠增強平台用戶的核心體驗。

對于相關的開發者和行業用戶來說這直接意味着，對噪音的抑制能夠提升語聊房用戶活躍度和留存，以及遊戲開黑場景的通話時長；回聲消除能顯著提升用戶的在線 K 歌體驗；而立體、具備空間感的音頻體驗則能提升元宇宙社交、遊戲競技、線上會議、虛拟活動等場景中用戶的臨場感和沉浸感。

在業務邊界不斷擴展，對實時音視頻體驗的訴求越來越垂直化的情況下，以往功能單一的玩法已很難變現，融合更多玩法是趨勢，而鳳鳴 AI 引擎則是一個集成式的實時音頻解決方案。

相比聲網此前自研 Solo 和 Nova 引擎在音頻 Codec 維度的創新，鳳鳴引擎的改進主要集中在 3A、空間音頻和 AI 方法的引入上，這是聲網在 RTC 音頻領域針對核心技術的長期投入結果。聲網算法專家許冉指出，未來聲網将基于鳳鳴 AI 引擎形成新一代 RTC 音頻解決方案，比如探索更個性化的語音方案、語音超分、co-experiencing 場景等。

而鳳鳴 AI 引擎本身也會繼續進化。聲網音頻娛樂産品負責人楊帆介紹，鳳鳴 AI 引擎目前正在開發變聲這一功能，用戶将可以體驗 20+ 變聲風格，多樣角色扮演花式玩轉語聊場景。

随着鳳鳴 AI 引擎的發布，聲網作爲底層技術服務商的角色進一步加強。實時互動領域的進一步繁榮，也将從 RTE 相關技術的整合和模塊化開始。實時互動開始真的像人類需要空氣和水一樣，成爲大衆日常所需，無處不在了。