▲圖像由 AI 生成
能 " 動口 " 解決的事情,不用總是 " 動手 " 啦。
作者 | 徐豫
編輯 | 漠影
在生成式 AI 浪潮的影響下,智能硬件開始出現全新的人機交互體驗。
AI 智能助手更有針對性地實時解答你的 " 十萬個爲什麽 ";AI 卡片錄音機能幫你實時轉寫會議内容,還随手就羅列好了會議總結、要點分析和待辦事項;AR 眼鏡戴上後就能看到文字、圖片、視頻中的實時多語言字幕;智能門鎖會根據來訪人士定制主人的聲音,模仿你的聲音取快遞、拿外賣,或者改變聲音語調以恐吓無關逗留人士;毛絨小熊真的成爲孩子的知心朋友,可以一起聊聊煩惱、疑惑和心事 ……
可以預見,更智能化的多模态大模型賦予了智能硬件新的生命。
就在上周六,RTE 2024 第十屆實時互聯網大會 IoT 分論壇圓滿結束。多位 AI 智能硬件賽道的資深人士齊聚一堂,共同探讨如何讓 " 智能硬件産品們 " 迎頭趕上 AI 的好時代。聲網 IoT 行業負責人吳昌儒、曠視增值業務部負責人史澤鴻,海馬爸比聯合創始人譚國豪、佐臻科技技術經理徐偉恩、小米 Xiaomi Vela 開源負責人杜超、蓮偶科技軟件部總裁楊旺分享了他們在打通 AI 與智能硬件屏障方面的實戰經驗。
01 .
AI 驅動多模态交互, 人機互動更自然
在傳統的硬件設備中,人機交互大多通過按鍵、觸摸屏等圖形用戶界面(GUI)來完成。但随着 AI 技術的引入,尤其是對話用戶界面(CUI)的崛起,用戶可以通過語音、視覺、手勢等多種方式與設備進行互動,帶來了更加自然、直觀的交互體驗。
"AI 驅動的智能硬件不再單純依賴固定的功能按鈕或菜單,而是通過對用戶意圖的理解,圍繞用戶想要完成的任務進行設計。" 聲網 IoT 行業負責人吳昌儒舉例說道,智能家居中,用戶僅用一句話便可觸發多個設備的聯動,說出 " 我要看電影 ",AI 系統随之做出自動調節燈光、開啓電視、調整空調溫度等操作。這種基于任務導向的設計,讓用戶體驗更爲絲滑和智能,大幅減少了手動操作的繁瑣。
住着一個 AI Agent 的智能硬件不用再孤立工作,而是能夠與其他智能硬件之間形成互聯,彼此協作。也就是說,每個設備中的 AI Agent 都能獨立執行特定任務,同時也能根據需求與其他 AI Agent 協作,整體上是一個複雜且靈活的智能系統。
現場,其他與會嘉賓也圍繞各自産品或業務在 AI 方面的落地各抒己見。
長期以來,AI 與 AR 的結合都是智能眼鏡的理想答案。對于聽音樂、拍視頻、翻譯等需求,不少市面上在售的 AR 眼鏡都基本能滿足,佐臻科技則爲 AR 眼鏡找到了更多個性化的應用場景。
其最新款的 AR 眼鏡不僅适用于跌倒檢測、呼吸監測等看護場景,還可以滿足AI 或 XR 多人混合實時互動算繪場景的需求。也許在不久的将來,隻要一副 AR 眼鏡,人們就能遠程觀展、跨國雲旅遊、多語言同聲傳譯、實時共享影片、異地協同查看雲端文件和 3D 模型。
按照徐偉恩的設想,裝備了 AI 引擎的 AR 眼鏡未來将即時提供更多個性化的反饋。舉個例子,你佩戴着 AI 眼鏡,剛好路過了一輛停在路邊的車,你多看了幾眼這輛車的 Logo,AI 眼鏡會猜到你可能對這個汽車品牌感興趣,随之提供相關的信息。值得一提的是,這種呈現信息的方式是私人化的,可以降低人們對信息共享的顧慮。
在徐偉恩看來,聲網的語音交互技術充當了 AI 智能硬件實時人機交互的關鍵神經元。而 AI 智能硬件隻有真正實現随時随地調用資料、與人交互、與環境交互後,才能與真實生活串聯起來。
當底層的語音技術還較爲稚嫩時,人們很難想象手上一枚小小的戒指,也能将 AIoT 的風吹到直播出海這一領域。
蓮偶科技最新的空間戒指 TOALL L-Ring 2 通過多模态大模型落地了錄音轉寫、AI 對話、同聲傳譯等功能,有助于人們在直播、講課件、播放 PPT、看電視以及駕駛過程中盡可能解放雙手。未來,外貿主播在直播過程中,戴上它 " 揮揮手 " 就可以完成口型視頻合成、情緒模拟、聲紋模拟、語音合成等,從而同步、同時生成多語種的直播間。
水準較高、穩定可靠的實時 AI 語音交互技術,可謂是 AIoT 的強心劑。AI 智能硬件若能及時語音反饋危險情況,在關鍵時刻或許能 " 救命 "。
基于高精度的數據訓練,海馬爸比的嬰兒看護機可以實時監測嬰兒的睡眠情況和哭聲,判斷嬰兒是否 " 遮臉 ",并針對可能窒息的情況做出提醒。海馬爸比聯合創始人譚國豪告訴智東西,有了 AIoT 智能硬件技術的加持,新一代的嬰兒看護器對嬰兒哭聲、狀态的識别更敏感,可以及時發現吐奶等其他可能引發窒息的情況。現在,AI 智能硬件或許比新手爸媽更能聽懂嬰言嬰語。
海馬爸比下一步計劃将這些 AI 智能硬件融入個性化育兒教育、優化睡眠的嬰兒房環境、互動式講故事、協作式育兒支持等場景,爲每個有娃家庭安排一個工作經驗 " 無上限 "、具備專業知識的 " 智能保姆 "。
譚國豪稱,聲網的 AI x IoT 智能硬件解決方案可以有效解決" 自動化場景但被動化輸出 "的 AI 技術應用困境,推動了智能硬件從工具轉向服務。在他看來,AIoT 中的 AI 智能硬件不應是被動地監測和響應,而是生成有意義的内容,并與用戶展開有效互動。
小米則選擇用一個面向輕量 AI 智能硬件的系統 "Xiaomi Vela",來串聯起不同生活場景中的智能硬件。将來借助該系統,小米的智能手表、智能手機、智能平闆和智能電視等硬件可以在其 AIoT 網絡中實現聯動。
曠視科技的 AI 生産力平台 Brain++ 已實現 AI 視覺算法的快速量産,并将其與智能門鎖、寵物智能用品、養老機器人、體育及訓練等場景相結合。
其中,在寵物智能用品方面,Brain++ 可以提供諸如寵物檢測、貓臉識别、貓砂檢測和寵物 Vlog 等功能。在智能門鎖方面,其可以實現生物特征識别、人員分析、快遞和外賣提醒、兒童和寵物離家、鄰居隐私保護、AOV 和時光濃縮等功能。
02 .
秒級人機對話, 生成式 AI 盤活 IoT 生态
相較于觸控、空間手勢等人機交互方式,語音交互的技術和形态更成熟,上手難度也更低,在 AI 時代仍具有獨特的發展前景。吳昌儒提出多模态交互、對話式交互、大模型三者共同構成了AI Agent(智能體)。
同時,語音交互技術作爲 AI 智能硬件的底層技術之一,其即時性、準确性水平高低,在很大程度上影響着用戶的人機交互體驗。從 " 喂,Siri",到紅極一時的智能音箱、故事機,再到當前快速叠代的多模态大模型,人機語音交互的體驗正在不斷優化。
吳昌儒認爲,實時、準确、跨平台是 AI Agent 真正能夠引入智能硬件的關鍵,聲網 AI x IoT 智能硬件方案應運而生。該方案能夠在低功耗、低算力芯片上快速實現大模型的接入,具備低延時實時互動、低成本靈活适配的特性,通過豐富的功能在智能硬件場景中構建真實、自然的 AI 語音交互體驗。
例如其對交互延遲進行優化,語音交互延時低至 1s 内;支持多模态 AI 語義識别和理解;支持 AI 降噪,保證清晰的語音交互;支持小包體、低内存、低功耗;适配超 70 種主流、高性價比的芯片等,幫助開發者與企業快速構建适配自身硬件的 AI 實時語音對話服務。
聲網 AI x IoT 智能硬件解決方案進一步優化了端到端互動體驗,實現了人與設備之間基于大模型(LLM)的毫秒級互動體驗,并且在80% 丢包情況,即網絡較差的環境下,仍能做到音頻通話流暢。
爲了讓整個集成更加簡單,聲網還提供了模塊化的組件。企業無需額外集成 STT、TTS 這些模塊化的組件,就可以達到音頻的端到端對話目的。
除此之外要讓 AI 聽得懂,收集的信息更有效,AI 降噪算法和 VAD 控制是非常重要的一環。爲此,聲網自研了 AI 降噪算法,可以有效抑制鍵盤、腳步、雜音、嘯叫等超 100 種常見噪聲,同時爲了改善駕駛、商場等場景的收聲效果,也針對性地優化了算法。
在流暢和清晰的基礎上,聲網還追求語音對話過程中自然的交流感。其 AI x IoT 智能硬件方案支持 AI-VAD 技術,具有較高的語義理解能力,可以随時打斷說話,模拟了人類對話時的真實反應。
除了推出内嵌多模态大模型的 AI 原生設備,AI 智能硬件廠商還可以通過一套 AIoT 智能硬件解決方案和系統,複用現有的 IoT 資源,提供更進階的人機交互體驗。對此,聲網最新的 AI x IoT 智能硬件方案也能在兼容性和商業化落地上提供支持。
該方案适配超 70 種主流、高性價比的芯片或模組,包括展銳 Cat.1 系列芯片、樂鑫 ESP32-S2/S3、BK7256、BK7258、傑理 AC7916、博流 BL808 等 RTOS 芯片,以及高通、聯發科、君正、Sigmastar、全志、海思、Mstar 等 Linux 芯片。
在低功耗、低算力芯片上快速接入多模态大模型這一特點,解決了部分采用端側 AI的智能硬件由于算力不足,AI 功能開發受限的痛點。這也意味着,許多做 IoT 的企業可以利用聲網的模塊化組件快速挂上 AI Agent,擁有 AI 能力,并獲得新的商業化引擎。
總的來說,聲網的 AI x IoT 智能硬件解決方案針對生産力、情感陪伴、穿戴式裝置優化了 AI 語音交互體驗,具備低延時實時互動、低成本靈活适配的特性,從而在智能硬件場景中提供真實、自然的 AI 語音交互體驗。
03 .
結語: AI 智能硬件越來越有人情味
不少 AI 智能硬件上下遊廠商關注到一些更具有人文意義、更貼近人性的領域。
聲網爲獨居人士提供了 AI 對話式的智能門鎖解決方案;曠視科技自研算法生産平台 AIS 首次應用于非遺文化保護;海馬爸比爲自閉症兒童推出了一款心理咨詢機器人,心理醫生可以通過此類機器了解到患者更真實的想法,從而提供更準确的心理療愈方案。
有了 AI Agent 的加持,物聯網中各個組件之間可以更高效、靈活地通信和任務調度。AI 智能硬件的角色也從 " 管家 " 變成 " 衛士 ",未來不僅可以幫人們減少一些重複性的勞動,還可以執行更多人們原本難以兼顧的工作。