經常看直播的朋友,可能有過這樣的經曆:
在不同的直播間,長相甜美的主播小玉與主播小美同樣是 1080P 高清分辨率,但小玉由于開播環境比較暗,直播設備比較差,美顔功能不夠自然等原因,導緻看到的畫面視覺效果卻遠遠不及小美。
長此以往,小玉的直播間人氣下滑,粉絲越來越少。
爲了提供更好的直播體驗,彌補不同硬件和開播環境的缺陷,聲網最新發布的" 實時高清 ·超級畫質 "就解決了這一難題。
這其中涵蓋了不少視頻黑科技,比如畫質增強算法、人眼感知優化、移動端實時多倍超分等,能夠實現 360P 的視頻秒變 1080P,視頻畫質的智能補光、色彩增強,全面提升視頻畫面的分辨率、畫質和流暢體驗。
智能調節畫面色彩、智能補光:榜一大哥看了都說好
不管是直播還是音視頻通話中,視頻畫質在很大程度上決定了用戶體驗的好壞,對此,聲網的視頻技術團隊在過去幾年深耕實時視頻畫質增強,上線了 AI 畫質。
AI 畫質充分利用了視頻采集播放端設備的平台能力,在影響視頻畫質的色彩、清晰度、風格化等方向上提供了一站式的解決方案,其中就包括暗光增強、色彩增強、視頻降噪等多維度的畫質增強算法組合。
智能補光:很多主播在直播時經常會遭遇光照條件較暗或者背光的開播環境,這會導緻成像的場景中畫面較暗且不清晰,有效的細節信息看不到。對此,聲網的暗光增強算法在面臨光照條件較暗、背光、光照不均勻的環境時會進行智能補光,自适應提升視頻畫面的亮度,恢複畫面細節輪廓和增加畫面清晰度。
主播在使用補光燈等設備時,經常還會遭遇曝光過強的問題,聲網" 暗光增強 "算法就規避了這一問題,避免過度增強正常曝光的區域,最大化平衡性能和畫質效果。該算法還支持了智能場景檢測,根據光照條件動态自适應地開啓和關閉。
智能調節色彩飽和度:在直播中,用戶有時會看到主播的畫面變灰,并出現失真,這時候往往是畫面的色彩飽和度出了問題。對此,色彩增強算法可以智能調節視頻畫面的飽和度,改善畫質,使得畫面色彩更加豐富和逼真,提升人的視覺主觀感受。該算法還融合了多種膚色識别算法,确保人物膚色不會因色彩增強而變得突兀。
視頻降噪帶來雙 BUFF 增益:當我們在光線不足的情況下拍攝視頻時,手機爲了彌補缺少的光線,會自動增加 ISO 值,從而導緻畫面出現噪點。在視頻直播 / 通話的場景中,同樣會出現噪點,聲網的" 視頻降噪 "功能可以在低端采集設備和暗光場景,大幅減少閃爍的噪點,并最小化 " 拖影 " 等視頻降噪最常見的負作用。
此外,視頻降噪還具備另一層 buff,開啓後可節省 28-35% 的傳輸碼率,進一步提升視頻接收端的畫面質量和清晰度。
人眼感知優化:你關注的更高清
我們在觀看視頻或圖像時,往往會希望主觀關注及感興趣區域能夠擁有較高的清晰度,而對于非關注區域,隻需要達到基本視覺要求即可。
基于人類的視覺特點,在視頻編碼中,通過對感興趣區域進行低壓縮比,甚至是無損壓縮編碼,以獲得高質量的重建圖像,而對非關注區域采用較高壓縮率,這就是ROI (Regions of Interest,感興趣區域)視頻編碼技術。
在直播 / 視頻通話場景中,聲網通過 ROI 和 PVC 算法,提升人眼感知畫面的細節效果,ROI 主要凸顯畫面細節,PVC 凸顯色彩優化,以綜合提升觀衆對畫質的主觀體驗。由于聲網的 SDK 主要面向直播 / 視頻社交 / 會議類應用,畫面中往往人臉就是感興趣區域或者視覺聚焦區域,因此聲網 AI 感知處理算法是基于人臉檢測的視頻編碼技術。
實現原理是通過檢測到人臉區域确定感興趣區域,在編碼過程中,對圖像中人臉的區域降低量化參數值,從而分配更多碼率,以提升感興趣區域的畫面質量,而對非人臉區域的區域則提高量化參數值,分配更少碼率,在不損失圖像整體主觀質量的前提下,降低視頻碼率,提高視頻質量。
△經 ROI 編碼處理後的圖像對比 360P 秒變 720P:畫質跨越式提升
不管是色彩、暗光增強還是 ROI 人眼感知優化,都是在視頻分辨率不變的基礎上進行畫質效果的提升。而在一些欠發達的海外地區或智能硬件終端中,受到設備性能、傳輸成本、用戶帶寬等限制,傳輸的往往是低分辨率的視頻,因此爲了提升視頻畫質質量,進而提升用戶的觀看體驗,需要借助拯救分辨率的 " 魔法 ":
視頻超分辨率技術,在用戶端将接收到的低分辨率視頻重建成紋理豐富、細節清晰、觀看體驗佳的高分辨率的視頻,簡稱爲超分技術。
目前業内很多主流的終端實時超分算法更集中在 PC 端,PC 端的設備相對可以提供更強的算力,實現高性能的視頻畫質實時增強。
但當下直播、視頻通話等場景都逐漸集中在移動端,在移動端用戶設備性能參差不齊,這就要求移動端實時超分的複雜度必須極低,這樣才能在大部分移動設備中做到實時處理,并在超低計算量的情況下還能保持較好的視頻超分效果。
對此,聲網的人工智能算法團隊經過持續的技術鑽研,推出了業内首個基于移動端的實時多倍超分算法,該算法的優勢是成本低、功耗小,不需要部署 GPU 服務器,僅依靠移動端設備自身的 CPU、GPU 或 NPU 來實時超分,以較小的算法計算量實現視頻分辨率的多倍超分,有效增強了視頻的畫質,并降低視頻傳輸的成本,普通的 360P 畫質能夠通過超分實現對标 540P 效果。
通過下面的視頻,可以更直觀的感受 360P 開啓超分後的畫質效果。
聲網移動端實時超分的技術原理是基于深度學習算法進行豐富的視頻數據訓練,從大量的低分辨圖像和高分辨圖像對,有監督地學習低分辨到高分辨率的映射關系,實現圖像放大後,細節豐富、畫面清晰的效果,其超分效果、自适應能力明顯優于傳統的超分方法。
在性能和适配方面,聲網多倍超分算法在中低端機型也能實時處理,能夠覆蓋 95% 以上的 iOS 視頻用戶,85% 以上的安卓用戶。且 CPU 消耗、SDK 内存消耗低,單幀處理耗時平均在 10ms 以内,在 1 對 1 視頻通話場景中開啓多倍超分後,SDK 的内存消耗隻增加 10% 左右。
伴随視頻進入超高清時代,人們在直播、視頻互動中也在追求更高清、更美觀、更自然的視頻畫質,APP 廠商也應與時俱進,在保證視頻高分辨率的前提下,注重對畫質細節的提升,才能搶占更多用戶市場,帶來更多流水。
需要實時提升直播 / 社交平台的畫質,可以用聲網 "實時高清 ·超級畫質" 試試。如想進一步了解 "實時高清 ·超級畫質",可在後台留言,會有工作人員與您聯系。
* 本文系量子位獲授權刊載,觀點僅爲作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~