字節跳動的首個 AI 硬件,就這麽水靈靈地來了——
一款塞了大模型的藍牙耳機!
這個 AI 耳機,名叫 Ola Friend,"Ol á " 在葡萄牙語中意爲 " 你好 ",因此它的中文名就是:你好呀 朋友。
首先,Ola Friend 最大的亮點,就是第一個做到了真正把通用大模型應用到耳機場景——
戴上耳機,隻需一句 " 豆包豆包 ",就可以随時随地喚醒 AI,并跟它做任何交流。
例如出門前詢問天氣、路面狀況,現在的 " 打開方式 " 是這樣的:
視頻詳情:https://mp.toutiao.com/profile_v4/graphic/articles
當然,這些問題都隻能算是開胃菜,我們直接來上一下難度——英語口語練習!
視頻詳情:https://mp.toutiao.com/profile_v4/graphic/articles
不難看出,現在跟 AI 練習英語口語,就變成戴個耳機就能實現的事情了,而且你可以随時打斷豆包說話(1 分 29 秒左右)。
當然,作爲一個藍牙耳機,其本身最基本的 " 聽 " 的功能也是非常重要的。
Ola Friend 在設計上屬于不入耳的開放式(OWS)耳機,單隻的重量隻有 6.6 克(親測佩戴無重感)。
在音效方面,由于設計采用 27.5 度夾角,發聲單元會更靠近耳道,聲壓比會相對大一些;并且還采用了 10mm 動圈發聲單元、動态 EQ1.0、動态低音補償、定向防漏音等設計,提升了耳機的音質。
上面視頻中豆包說話的音效,其實就已經非常接近佩戴時候的真實感覺了。
但畢竟我們第一時間拿到了 Ola Friend,定然不能就這麽簡單放過它——
實測嘛,就是要狠狠地、各方面地都來體驗一把。
嘈雜環境、方言,統統都能 hold 住
首先我們需要介紹一些基本的功能和設置。
Ola Friend 在和手機配對的時候,需要雙手同時按住兩側機身,然後就可以在手機藍牙中找到它并連接。
但要想開啓 AI 大模型功能,還需要進豆包 APP 的 " 我的→設置 " 裏,找到 "Ola Friend 耳機 " 選項,進行第二次配對;其中," 豆包智能體 " 選項中的喚醒功能是默認開啓的。
接下來,我們就再貼近真實生活場景來一波測試。
畢竟我們戴耳機不僅僅是在安靜的環境,大多數可能都是非常嘈雜的環境,那麽在用 Ola Friend 跟豆包對話的過程中,它會不會受到外界環境的影響呢?
我們這波測試的環境設置如下:電腦外放音樂,用中英摻雜的方式跟豆包對話。
(由于對話文字内容較長,以下幾個實測視頻将以字幕的形式呈現)
視頻詳情:https://mp.toutiao.com/profile_v4/graphic/articles
即便背景放了巨大音量的英文歌,但豆包還是能夠精準識别出用戶的聲音,在問及 " 爲什麽今年的 the Nobel Prize in Physics 頒給了 Geoffrey Hinton" 時,豆包也能做出準确回答。
由此可見,在嘈雜的現實環境中,Ola Friend 也是完全可以 hold 住的。
而之所以能夠如此,是因爲 Ola Friend 是可以像朋友一樣專門記住你的聲音,這就大幅降低了錯誤打斷的概率。
同樣的問題,同樣的環境,我們再有請方言出戰——四川話!
視頻詳情:https://mp.toutiao.com/profile_v4/graphic/articles
這一次,我們特意切換了語音風格爲 " 呆萌川妹 ",是不是相當地有那味兒了!
那麽對于複雜的數學題,Ola Friend 又将做何表現?
我們不妨以電影《抓娃娃》片段中的那道經典題目來提問(這次我們切換了聲音爲 " 溫暖阿虎 "):
一個長 2 米,直徑 30cm 的圓柱形木材,做半徑 6cm 比做半徑 8cm 能多做多少個球?
視頻詳情:https://mp.toutiao.com/profile_v4/graphic/articles
從求解過程中不難看出,不論是要求 Ola Friend 直接給出答案,亦或是在它求解過程中任意打斷(1 分 17 秒、1 分 59 秒、2 分 14 秒),它都能像跟真人交流一樣嚴絲合縫。
不難看出,戴上了 Ola Friend,就宛如實時地在跟 AI 大模型電話一樣,而且是有問必答、随意打斷、多輪對話的那種。
因此,像在做飯燒菜等場景中,這個 AI 大模型耳機就能在釋放雙手的同時,還能做到答疑解惑。
方便,着實是方便。
那麽接下來的一個問題便是:Ola Friend 是如何做到的?
大模型 +TTS+ASR 煉成
扒開 Ola Friend 内核,關鍵之一是字節于業界領先的大規模自回歸文本到語音模型—— Seed-TTS。
幾個月前,字節發布了 Seed-TTS 技術論文,引發圈内廣泛關注。
它可以依據上下文理解文本情緒,能生成與人類語音幾乎無法區分的高質量語音,說話自然有感情,連停頓、喘息、換氣聲都合成得真真兒的。
視頻詳情:https://mp.toutiao.com/profile_v4/graphic/articles
從技術實現上來看,Seed-TTS 基于自回歸 Transformer,模型架構包含 speech tokenizer 從語音中提取 token 信息,語言模型建模文本和語音 token 的關系,擴散模型從語音 token 生成連續的語音表征,最後通過聲碼器生成最終的語音。
訓練含三個階段:
預訓練:使用大量數據訓練,實現廣泛的應用場景和說話者覆蓋。
微調:說話者微調,以提高特定說話者或任務的性能。
後訓練:使用強化學習進行後訓練,全面提高模型性能。
與以前的模型相比,Seed-TTS 在自然性和穩定性方面有顯著提升。
經實驗,Seed-TTS 不僅具有零樣本上下文學習能力,基于短音頻提示生成相似聲音的新語音,還可以針對特定說話人進行微調,進一步提高相似度。
在情感等方面 Seed-TTS 具有更高的可控性,且支持跨語言語音合成,拿捏講話的音調、韻律、節奏。
Ola Friend 另一大法寶是語音識别技術—— Seed-ASR。
與 AI 智能音箱和車載語音系統相比,耳機通常在公共空間中被使用。這些場所環境嘈雜并且人多,因此在這些環境中進行聲音識别和意圖判斷面臨較大挑戰。
而字節 Seed-ASR 技術,不僅讓 Ola Friend 能聽懂用戶說話,甚至能通過上下文識别各類信息。
Seed-ASR 以大語言模型爲基礎,通過輸入連續的語音表示和上下文信息,顯著提升了在不同應用場景下對多樣語音信号的識别準确率。
它支持包括普通話及多種方言在内的多語言識别,在豐富的訓練數據上進行大規模的自監督學習,還通過了階段性訓練策略,包括監督式微調、上下文感知訓練和強化學習,進一步優化性能。
Seed-ASR 在公開測試集和内部綜合評估集上均展現出比現有端到端模型更低的詞 / 字錯誤率。
除此之外,依靠豆包大模型,Ola Friend 還有 buff 加成——
能夠雙向實時對話,随時打斷也可以,支持引入其他話題多輪交流,而非每句話都要喚醒詞并且聽完全部再回複。
與傳統智能音箱助手等大多是特定任務可以多輪(如追問天氣情況)不同,接入大模型之後,在交流中随意切換話題也不怕,可以做到通用場景全雙工連續對話。
另外,Ola Friend 進行了很多工程優化,像是鏈路預加載等,使得端到端交互時間可以縮短,降低用戶講話後得到反饋的時間。
開放式耳機的 AI 進化
作爲字節跳動豆包團隊第一款 AI 硬件,幾天前官方剛發布預熱海報,就有大批網友開始猜測 Ola Friend 是耳機呢?還是眼鏡呢?還是耳機呢?
這下它的神秘面紗終于被揭開,那爲啥字節能将 AI 交互引入到耳機場景呢?
不僅得益于自家的豆包大模型支持,還與其硬件團隊的實力密不可分。
據了解,九月份,字節跳動正式宣布成功收購開放穿戴式音頻産品廠商 Oladance,完成 100% 控股。
Ola Friend 硬件團隊就是原 Oladance 耳機團隊,也就是最早做 OWS 開放式耳機的那幫人,有深厚技術積累。
團隊出身如此,所以 Ola Friend 也正如我們前文所提到的,不僅從設計上不單單考慮了 AI 硬件的性能,還兼顧了傳統開放式耳機的舒适度和音質。
同時團隊還專門推出了優化降噪算法,算法已申請專利,針對輕聲喚醒和交互專門做了改進,用戶用較輕的聲音就能喚起豆包。
也就是說,在公開場合中悄默聲就能喚醒,媽媽再也不用擔心我會社死。
大模型技術的發展正如日中天,各種 AI 硬件如雨後春筍般湧現,從智能家居到個人助手,AI 正在深刻改變我們的生活方式。
在這一背景下,字節跳動推出的 Ola Friend 無疑爲 AI 硬件耳機市場帶來了新的活力。
據悉,Ola Friend 将于 10 月 17 日起售,聽說後續 AI 功能還會持續更新,未來 Ola Friend 不僅能喚醒豆包,還可以喚起更多智能體。
那麽你對這個首款 AI 大模型耳機心動了嗎?