實時音視頻領域拓荒者的十年

2015 年，聲網将 WebRTC 大會引入中國，籌辦了第一屆面向國内開發者、業務人員和用戶的 RTC（實時視音頻）大會。在大會開始的前夕，現任聲網市場 VP、RTC 大會主策人彭小歡失眠了，她非常擔心明天會不會有人來。

一晃十年過去了，當年的 RTC 大會早已升級爲 RTE（實時互聯網）大會， 10 月 25 日 RTE 2024 也如期而至，但早已不用擔心是否有人光顧，現場可謂是座無虛席。

圖：RTE2024 開幕當天的現場

國内大模型領域的「大模型六虎」，其中的智譜、MiniMax、零一萬物團隊都出現在 2024 年 RTE 大會上，在 ChatGPT 發布後的近兩年時間裏，智譜和 MiniMax 分别在 tob 和 toc 兩條路線上越走越深，有許多心得可以分享，通義千問團隊也帶着國内最大開發者生态的經驗在 RTE 大會上加入讨論。

此次 RTE 大會也不乏 AI 大牛創業者的身影，例如全球最受矚目的 AI 科學家之一，一年前從阿裏巴巴離職、躬身入局大模型 Infra 的賈揚清也出現在 RTE 大會的主論壇上，分享了他在 AI Infra 領域創業 18 個月後的經驗心得以及對 RTE+AI 的趨勢判斷。

除此，谷歌、螞蟻、面壁智能、生數科技、商湯、曠視、WPS、Soul 等也在大會上分享了團隊過去一年裏在 ChatGPT 時代的 AI 探索。

今年的 RTE 大會，可謂是大咖雲集，AI 内容拉滿。

迄今，RTE 大會已經是第十屆，十年如一日地每年堅持舉辦，從未間隔。恰逢 GenAI 爆發，聲網深耕的 RTC（實時音視頻）技術，讓人與 AI 的交互不再局限于文字，也可以通過語音通話進行生動、流暢的低延時交互，這也成爲當下國内外大模型廠商新的發力點——多模态。

而今年的 RTE 大會便提供了一個交流平台，憑借在業界的影響力，吸引各行各業專家參與，使得業内一起共同探索 RTE+AI 的未來潛力，這也将給 RTE 和聲網帶來更多機遇與挑戰。

當年，聲網 CEO 趙斌期待 " 通過 RTC 這樣的大會讓開發者使用實時音視頻功能像使用水一樣簡單 "，十年後，實時音視頻功能成功在各行各業應用，絲滑地融入大衆的工作生活中。在此十年之期，也是聲網創辦的十周年，RTE 開始與 GenAI 結合。

走到今天，一切都源于 RTE 大會以及背後的聲網公司十年前的那份堅持與初心。

拓荒到蓬勃：技術布道者到行業風向标

今天，實時音視頻（RTC）互動技術已經成爲一項基礎設施，在我們的日常生活中無處不在。

視頻會議、在線課堂、社交平台直播連線 PK 等衆多場景都有實時音視頻的支撐，才有了低延遲、低卡頓、高清晰度、沉浸式的互動體驗。

十年前，國内實時音視頻還是一片荒原，聲網看到機會，率先推出 RTC PaaS 服務以此來打開市場。實時音視頻技術門檻較高，僅有 WebRTC，開發者依然很難上手實踐，而在 RTC PaaS 模式下，開發者隻需調用簡單的 API 接口就能實現實時音視頻互動，極大地降低了開發者的門檻和成本。

彼時恰逢移動互聯網全面爆發，整個行業生機勃勃，實時音視頻也開始尋找落地的契機。

成立後的第二年，聲網創始人趙斌意識到實時音視頻将是互聯網企業必須的工具和功能，聲網作爲在這片荒原上第一個揮鋤頭開荒的人，必須擔負起技術布道者的責任。

所以在 2015 年，爲了讓實時音視頻行業擁有一個能進行技術交流、行業趨勢探讨的機會，聲網将 WebRTC 大會引入中國，籌辦了第一屆面向國内開發者、業務人員和用戶的 RTC 大會，這也是一個爲開發者而生的純行業技術峰會。

第一屆 RTC 大會議程安排上僅由一個主會場、一個分論壇，以及一個 workshop 組成，就吸引了 700 多名觀衆參與。之後，聲網與參會者約定——一年一會，萬象更新。

在第一屆 WebRTC 大會上，W3CWebRTC 标準中 Media Capture 和 Streams Specifications 核心部分的合編者—— "WebRTC 标準之父 "Dan Burnett 出席現場會議，并與伊利諾伊理工學院客座教授 Alan Johnston 一起，爲開發者們進行了約 8 個小時的培訓課程，對于開發者來說，在當時 RTC 專業知識極度匮乏的年代，猶如久旱逢甘霖。

2015 年的 RTC 大會打破了 RTC 技術布道在國内「三無」狀态：無行業會議、無專業書籍、無專業媒體及社區。而在 RTE 大會邁入第 10 年之際，聲網也于今年 8 月正式出版行業首本系統介紹實時互動的技術型科普圖書《讀懂實時互動》，持續爲科普實時互動添磚加瓦。

十年過去了，今天 RTE 大會已經成爲業内當之無愧的 " 全球規模最大音視頻行業峰會 "，大會規模擴張到 20 多個論壇，觀衆數上限一度達到六七千人。

據聲網官方統計，這些年間，大會累計影響了 200 多萬開發者，覆蓋 300 多個行業場景，吸引 2000 多名專家講師參與分享，成績斐然。這期間，RTE 大會似乎每年都能 " 押題 " 成功，成爲行業的風向标。

2015 年，在第一屆 RTC 大會上，聲網提出 " 直播連麥 " 将成爲主流玩法，第二年，連麥互動便成爲直播風口。

2016 年，聲網認爲在線教育将成爲新風口，第二年，在線教育迎來爆發式增長。

……

2023 年，大會主題是智能、高清，再一次成功預判了未來趨勢，24 年年初多模态爆發，Sora、GPT-4o 引爆輿論，多模态成爲各大模型玩家最重要的發力方向。

當 AI 成爲科技界的主流，RTE 第十屆便是以 "AI 愛 " 爲主題，推出了覆蓋 AI、出海、Voice AI 等 20+ 行業及技術分論壇。

在此次大會上，聲網 CEO 趙斌認爲生成式 AI 正在驅動 IT 行業發生大變革，主要體現在四個層面：終端、軟件、雲和人機界面，其中 AI Native Cloud 将成爲主流。

Lepton AI 創始人兼 CEO 賈揚清也認爲繼 Web 雲、數據雲之後，AI 是雲的第三次浪潮。在 AI 雲的形态下，實時的交流和智能的結合在用戶體驗環節非常重要，可以說實時将直接與生産力劃上等号。

作爲此次大會的主論壇演講嘉賓，賈揚清分别從 AI 應用、雲、GPU 算力雲技術以及企業大模型自主性等層面帶來了他對 AI 基礎設施進化的解讀。他認爲，今天是最容易建設 AI 應用的時代，越是簡潔的 AI 模型思路越容易産生優秀的效果。

本次大會持續了兩天，大會上的分享嘉賓集結了當下 AI 屆的名流，包括「大模型六虎」中的智譜、MiniMax、零一萬物，還有谷歌、WPS、Soul 這些在 AI 應用落地探索走在前列的企業。他們結合自身業務，分享了過去兩年裏在 AI、大模型方向的探索，這将是給與業界的一筆寶貴經驗。

本次大會不僅囊括了 RTE+AI 發展的前沿技術分享，還将關注點放在了當下大家最關心的 AI 落地問題上。

大會最精彩的一部分便集中在在圓桌讨論環節，就 AI 的 6000 億美金難題，Lepton AI 創始人兼 CEO 賈揚清、MiniMax 合夥人魏偉、面壁智能聯合創始人＆CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯合創始人 Tony Wang 五位嘉賓一起探讨了從 AI 基礎設施到 AI 商業化落地的機會與挑戰。

賈揚清認爲基于開源架構的應用會越來越普遍；王鐵震呼籲大家不僅要關注開源模型本身，還要重視開源模型的基礎設施和數據閉環；魏偉則闡釋了在産品和用戶服務過程中，文本、語音、音樂、視頻這些模型可以很好地幫助藝術、影視、音樂等領域的創作者提高效率，并提出新思路；曾國洋認爲未來算力一定會越來越便宜，算力成本優化最終會轉化爲訓練更強大的模型。

在大會上，聲網發布了他們的 RTE+AI 能力全景圖，在全景圖中，聲網從實時 AI 基礎設施、RTE+AI 生态能力、聲網 AI Agent、實時多模态對話式 AI 解決方案、RTE+AI 應用場景五個維度，清晰呈現了當下 RTE 與 AI 相結合的技術能力與應用方案。

正如 CEO 趙斌所說，生成式 AI 與 RTE 結合帶來的場景創新，将成爲下一個十年的主題。

新機遇：

實時多模态是通向 AGI 的必由之路

今年 5 月，GPT-4o 一經發布便再次引起業内熱議，其展示出的實時語音交互能力讓人印象深刻，開創了 AI 實時語音交互的先河。

在發布會上，GPT-4o 展示了大幅降低的語言延遲，平均 320 毫秒的反應時間，讓 AI 與人類的對話第一次接近人類真實對話的反應速率。

實時的交流和智能的能力是人機結合的重中之重，正如賈揚清在 RTE 大會上所說，實時可以跟生産力劃等号。

但要達到人類可接受範圍内的「實時」，端到端實時多模态的崛起隻是近來取得技術突破的一條明顯，它從思考速度上縮短了語音的交互實踐，而另一條暗線則是 RTC（實時音視頻，Real-Time Communications）技術的進步。

而 GPT-4o 正是在采用 RTC 方案後，便展現出了自然、流暢的低延時語音交互體驗。而且在實際應用中，用戶的設備很多時候不能始終聯網，所以無論多強大的模型都要依靠 RTC 技術來實現實時對話。

因此，RTC 是将多模态大模型跟實時互動場景連接起來的關鍵技術橋梁。

聲網 CEO 趙斌稱，生成式 AI 有一個大的、清晰的方向就是向多模态清晰深度進化，除了提供 GPT-4o 發布會上令人驚豔的情感拟人對話之外，更重要的是打開大模型進一步智能進化的數據需求。

目前文字訓練數據基本上已經被充分利用，語言本身是一種聲音化的文字，能夠提供的信息和數據的空間将會被放大很多倍，并且超過文字，自然環境的聲音和視覺數據的獲取、運用，将給大模型提供幾乎無限的數據空間。因此多模态成爲當下的重要發展方向。

在推進多模态清晰深度進化上，聲網通過過去和多個行業夥伴打磨、對接、深度實驗、測試、評估，發現多模态對話體驗存在兩個關鍵側面：（1）聲音體驗包括延遲、語氣、情感、情緒、口音，這些都是人與大模型進行人機對話時體驗的關鍵角度。（2）人與大模型支持的 agent 對話時的互動體驗中，最核心的就是「打斷行爲」，如果在對話中打斷不自然，出現搶話、不知道如何順利開展下一段讨論等行爲，也會對人機交互的效果産生影響。

而這些要通過對現有的 RTE 技術棧等基礎設施進行改進，大模型才有機會大規模參與到與人的各種對話，在各種場景、形态、模型下開展直接語音對話。未來 RTE 基礎設施将會成爲多模态大模型 AI Infra 的關鍵部分。（注：RTE 在提供 RTC 音視頻服務的基礎上進一步提供了更加豐富和靈活的實時互動能力，讓開發者可以根據不同的場景需求，自由地選擇和組合各種實時互動能力，打造出更加個性化和差異化的實時互動體驗）。

趙斌認爲隻有把 RTE 技術運用地足夠好，部署到全球各個雲和邊緣節點，大模型的多模态能力才能普遍地、高質量地走進各種實時互動場景。

而在這場多模态帶來的實時對話式 AI 的競争中，由于 RTE 技術門檻較高，那麽接下來，隻有擁有核心技術和具備行業解決方案能力的實時音視頻廠商才能接住大模型帶來的這波新機遇。

在國内市場，聲網不僅是頭部玩家，還是實時音視頻領域的拓荒者，深深紮根行業已達十年。

10 月初 OpenAI 發布了實時 API 公測版，瞄準了 GPT-4o 語音到語音的 AI 應用和智能體，還公布了三家語音 API 合作者的身份：LiveKit、Twilio，以及 Agora。

其中，Agora 的兄弟公司便是聲網，從底層的 RTC 等音視頻能力來看，兩個兄弟公司都有一緻且深厚的技術積累。

相較于市面上大部分 2-3 秒的 AI 互動延遲實踐，聲網的對話式 AI 解決方案将對話響應延時優化至 500 毫秒，該方案以語音爲核心，支持視頻擴展，實現文本 / 音頻 / 圖像 / 視頻的組合輸入 & 輸出，通過豐富的功能構建真實、自然的 AI 語音交互體驗。

而聲網 RTE 技術在 AI 上的探索，并不是追風口的一時興起，早在四年前，transformer 在學術界嶄露頭角不久，聲網是業内首家開始把 AI 技術引入 RTE 技術棧的公司，用于改善音視頻傳輸保障。

不僅如此，緊跟兄弟公司 Agora 的步伐，聲網跟 MiniMax 正在打磨國内第一個 Realtime API。聲網 CEO 趙斌在 RTE2024 上展示了聲網基于 MiniMax Realtime API 打造的人工智能體。在演示視頻中，人與智能體能輕松流暢地進行實時語音對話，即便人打斷提問、進行新的提問，智能體也能像人一樣反應靈敏。

可以預見的是，AI 跟 RTE 結合，正給人機交互帶來諸多可能，純文字互動的大模型無法實現 AGI，RTC 加持下的實時多模态将是必由之路。「雷峰網消息」