最近,WebRTC 的早期創建者之一,Fixie.ai 聯合創始人兼 CTO Justin Uberti 近日宣布加入 OpenAI,領導實時 AI 項目的開發。他認爲語音交互是 AI 的未來,我們正在回歸對話式的社會。
JustinUberti 加入 OpenAI 這個決策現在看起來順理成章。早在今年 5 月,OpenAI 發布第一個端到端 voice-in, voice-out 的大模型 GPT-4o,十年前電影《Her》描述的場景開始照進現實。低延遲、高智能的 AI,憑借信息秒回、不會失聯、7 × 24h 情感陪伴、随時提供情緒價值的能力,讓 AI 的角色超越了簡單的生産工具,開始深入地融入生活的方方面面。
事實上,近兩年時間裏,AI 從 " 能說話 " 到 " 會說話 ",能力越來越強,有關 AI 的讨論也不再局限于 "AI 助手 ",話題甚至開始頻繁出現 "AI 男友 / 女友 ",AI 陪伴成爲社交應用的主要發展趨勢之一。根據 A16Z 的 8 月份最新報告,Top100 的 app 中,16% 的産品爲 AI 陪伴類産品,且占 top20 中的 6 個。
當 AI 陪伴應用廣闊的市場空間以及巨大的發展潛力得到市場廣泛認可之時,其中一個值得關注的重點是,語音交互成爲了當下最爲關鍵的入口。
不管是星野、Character.AI、築夢島、Poly.AI 等原生 AI 應用,還是國内頭部泛娛樂 app 包括 TT 語音、Soul 等推出 AI 分身、 AI 寵物、AI 伴侶玩法……不同應用的玩法和設計上雖然各有千秋,但核心要素都是以對話爲主要交互方式,爲用戶提供情感體驗。
上述現象背後潛藏着一個趨勢性變化:随着 AI 陪伴應用市場的不斷發展,也将激發用戶對更優質的語音交互體驗的強烈需求。而在 AI 技術引領的時代變革中,如何緊跟用戶日新月異的需求,提升産品體驗?
近日,「即構科技」發布的自研音頻引擎—— Purio AI 音頻引擎,給到市場一個新的解決方案。該方案通過三大核心技術:AI 降噪、AI 回聲消除和音量均衡技術,爲用戶打造純淨、保真、舒适的聽覺體驗。不僅支撐社交應用用戶獲得更好的音質體驗,還能配合最新的 AI 陪伴方案,讓 AI 陪伴更拟真。
「即構科技」發布的自研音頻引擎—— Purio AI 音頻引擎
當語音成爲交互的關鍵入口
毫無疑問,語音作爲人類做自然便捷的溝通方式,是智能時代人機交互的關鍵入口。
一方面,通過 RTC 技術應用,低延時的快速響應讓人與 AI 的互動更接近真實。另一方面,通過語音識别,讓機器識别人的情緒、語調成爲可能,最終輸出更精準、更智能的回答。
從各大 AI 廠商的産品發展趨勢亦可看到,語音是不可或缺的一環。比如 GPT-4o 發布以來,端到端實時多模态成爲國内外廠商跟進的新方向,其中國外 AI 廠商 Character.AI 推出通話功能、微軟 AI 表示年底将擁有實時語音界面,國内豆包 8 月宣布大模型已支持實時語音通話新功能、10 月份 Kimi 發布語音通話功能……
可以預見,語音交互也将成爲未來對話式多模态大模型交互的終極形态。
不過,語音交互對用戶而言并不陌生,在已經成爲生活中的點點滴滴的智能家居、手機、車載、智能穿戴、機器人等領域,語音交互技術已經實現快速滲透和落地,多數時候,隻需張張嘴,機器能代替人類完成一系列任務。
并且,語音交互因其在促進陌生人社交關系以及提升熟人溝通效率方面具有顯著效應,使其在社交、辦公等場景被廣泛運用,成爲應用的基礎能力。互動場景基于語音通話快速創新,比如遊戲開黑、語聊派對、在線 K 歌、直播、教育等各類新穎、豐富、個性化的實時互動體驗,滲透到用戶的日常。
便捷性更是使得語音互動在随時随地發生,比如通勤時參與線上會議、用餐時與搭子遠程唠嗑或者戶外來一場直播等。随時随地互動的便捷習慣,也帶來了比以往更複雜的通話環境,音質問題也比以往更加頻繁了。
比如在人機互動中,嘈雜環境将明顯降低識别準确率;多人會議中,任意用戶攜帶明顯噪音上麥,将沖擊多人房氛圍,不好的反饋也會影響用戶本身的發言欲望,嘈雜的表現更會導緻觀衆流失;K 歌應用在複雜的環境下,人聲音質也将變得 " 沉悶渾濁 " 甚至 " 漏回聲 "" 吞音 ",用戶體驗欠佳……
用戶如何才能在複雜環境中擁有 " 絲滑 " 的交互體驗?語音互動關鍵技術的創新突破是關鍵一環,重點在于如何在不失真的情況下盡量的把噪聲去除的更幹淨,保證用戶聽的更清晰。
在這樣的背景下,「即構科技」發布 Purio AI 音頻引擎,通過升級 AI 降噪的算法效果、推出全新的的 AI 回聲消除算法、動态響度均衡算法等核心算法,爲用戶帶來純淨、保真、極緻舒适的聽覺體驗。
用創新,爲用戶帶來優質體驗
Purio AI 是「即構科技」專注于音質增強的最新技術。
據悉,「即構科技」從 2015 年就開始走上自研音頻引擎創新之路,其中 2015 年自研 3A 音頻引擎、2018 年服務互聯網頭部客戶超 70%,并不斷推出适合各行業的一鍵接入語音互動解決方案、在 2021 年首發打通音樂版權商的全套 KTV 解決方案,技術上首創場景化 AI 降噪、K 歌專業 AEC 算法、首家支持單房間萬人連麥的規模等等。
在 2022 年,「即構科技」正式發布 AI 降噪功能,彼時 AI 降噪在海外市場已經被廣泛運用,而國内相對保守,根本原因在于國内對安靜互動環境暫不依賴。然時過境遷,随着用戶時常遇到噪音幹擾,大到公共場所、戶外鬧市的人車嘈雜,室内場所的電視、音樂,小到鍵盤敲擊、插拔耳機、咳嗽、吞咽等。
因此,好的語音互動體驗,也就成爲用戶當下最迫切的需求。換言之,如何實現音質的提升,即主要的 3A 能力優化:降噪、回聲消除、自動增益控制,成爲解決用戶痛點的核心能力。
首先,以降噪技術爲例,傳統降噪沒法有效抑制瞬态噪聲、傳統回聲消除對人聲損傷較大等,也就存在環境适應能力差的問題。AI 技術的發展與加入,通過其較強的泛化能力,正好彌補傳統方式在複雜環境中的适應能力。
不僅如此,AI 的能力讓降噪和回聲消除不僅能夠适應用戶多變的環境,有效抑制幹擾同時還原人聲,還能具備場景的識别能力,比如 AI 能充分理解 " 幹擾 " 和 " 人聲 " 的區别,做到精準分離;也能做到不同場景智能切換效果,比如進場音樂不是噪音、會議場景中掌聲不是噪音等。
實際應用中,比如最早把 AI 引入到的移動社交産品的公司之一——趣丸科技,通過「即構科技」音頻技術,保障 2 億用戶順暢、優質的連麥體驗,也持續爲用戶創造新的語音社交玩法。
趣丸科技 2022 年上線的 " 在線 K 歌 " 玩法,便是結合即構 Purio AI 音頻引擎技術,實現了 K 歌場景效果的顯著突破:動态響度均衡能力帶來了精準人聲伴奏對齊,解決 K 歌過程中人聲與伴奏相互沖突的問題;K 歌打分技術提供了準确且及時反饋的演唱評分系統,能夠結合音高、節奏、吐字、氣息等多維度,對用戶的唱歌水平進行更加全面、客觀的評價……
TT 語音 × 即構科技合作案例
值得注意的是,AI 的加入,實際上也爲語音交互帶來了新的挑戰,其中最突出的影響莫過于模型複雜,性能消耗巨大,給實時場景交付提出了很大的挑戰。即在時延和功耗方面,落地到中低端機型裏面不僅延遲高功耗大,容易發熱,應用很難運用 AI 能力。
爲解決此類由 AI 加入所産生的拖後腿問題,「即構科技」通過重參數化、參數共享、模型量化等多種技術手段,實現低開銷、低延時、高保真的效果。新品 Purio AI 音頻引擎依然保持以往超低延遲、輕量化特性,在延遲方面 AI 級算法
在過往的基礎上,Purio AI 具有全場景 400+ 噪音種類識别與消除技術,相比 2022 年版本抑制效果提升 52%。在多重高精度 AI 技術加持下,抽絲剝繭剔除噪音,精準還原人聲,人聲保真度客觀指标達到業界領先水平。同時,其還具備場景化 AI 降噪能力,能夠智能調節 AI 降噪策略;AI 算法能夠智能識别并消除高達 99.9% 的音頻回聲,多重高精度 AI 技術分離近端信号與回聲信号,确保精準還原音質……
如今,「即構科技」音質增強技術已廣泛用于直播、聽歌、社交、電台等泛娛樂社交應用,以及金融雙錄、在線教育、視頻會議、智能硬件等行業應用中。