京東創始人劉強東啊,他昨天又加班了。
準确來說,是他的 AI 數字人形象 " 采銷東哥 ",昨晚開啓了自己生涯第四場直播。
這次東哥幹的是圖書采銷工作。
與上兩次直播不同,這一回直播間不僅有了數字人助理,還有多機位切換等展現方式。與此同時,和留言區及屏幕前觀衆的互動方式也有所增強。
量子位就此事詢問了京東雲言犀算法總監,得到答案是:
每一場想側重表示的不一樣。技術的手段比較豐富,很難一場裏面都推出來。
不得不說,京東這回拿自家的京東雲言犀數字人擠牙膏,還挺有自己的節奏(doge)。
一周時間裏,四場劉強東數字人連播,可謂出師大捷——
據公開的 " 戰報 ",其首秀不到 1 小時,直播間觀看量超 2000 萬,帶貨 GMV 超 5000 萬。
難怪網上沖浪的時候,有人評價道,AI 東哥真的是 " 數字人帶貨的天花闆 " 了。
而且京東自己放話,這就是京東雲言犀數字人的平均技術水平,且成本不到真人直播的 1/10。
" 自己的狗糧自己先吃 "
劉強東 AI 數字人 " 采銷東哥 " 上播第一天起,就有許多質疑。
質疑一,真的是數字人嗎?真的不是讓劉強東提前坐那兒,錄好視頻然後再播嗎?
且看采銷東哥的表現:
形象和真人劉強東幾乎一毛一樣,寸頭、西裝、左手腕帶表,肉眼難辨真僞。
口音能較好貼合唇部動作,語速快、連音多,一般語句吐字較輕,一些重點會重音表強調,尋求認同時用 " 啊 " 來銜接;耳朵尖的朋友可能還能聽出他的宿遷口音。
動作姿态不算僵硬,能有頭部、手部的動态動作,且動起來後整個人也受光均勻。
但随着直播場數的增加,這種疑惑聲漸漸下去了。
可能大家都覺得,是在沒什麽可能讓劉強東忙中撥冗,每天坐在那兒提前錄播吧。
質疑二,如果真的是數字人劉強東,那大夥兒看到的效果,會不會是面對自家一号位做的 " 特供版 "?
換言之,其他公司如果同樣想用京東雲言犀數字人來做主播,是不是根本達不到這個效果?
就這個問題,京東雲言犀負責人是站出來給了解釋的:" 劉總數字人技術,代表了我們現在的通用技術。"
大白話就是說,用了京東雲言犀數字人,所有的大 V/CEO 主播都能有同樣的這個效果,至少在 120 秒之内 " 惟妙惟肖 "。
如果不信,可以親自驗證——前段時間京東 618 招商,給所有品牌商家免費開放了數字人基礎版使用 30 天權益,都能用上。
京東雲言犀負責人笑着表示,去年京東雲就已經基于言犀大模型升級了數字人技術。
用句軟件公司的梗,"Eat your own dog food",自己的狗糧自己先吃,最開始團隊内部先給京東雲言犀負責人做了個 AI 數字人出來,但回頭看和現在劉強東的數字人沒法比。
2022 年開始,京東雲言犀數字人就已經開始商業化,目前有 4000 多家品牌使用。
去年雙十一後,京東雲言犀團隊開始制作采銷 AI 數字人,首先是在大時尚事業部測試,包括公衆接受程度,停留時長,用戶轉換率,交互程度等。
團隊心想,既然要追求刺激,那就把 "Eat your own dog food" 貫徹到底,幹脆給公司老大也搞一個吧!
劉強東 AI 數字人 " 采銷東哥 " 就這麽誕生了。
10 億參數數字人大模型輕量上陣
采銷東哥身後,是京東雲言犀大模型團隊,及其大模型做小後打造的 10 億參數數字人大模型。
總的技術來看,言犀 2 年多前就選擇了端到端的方式,即建模——驅動——渲染的一體化。以至于 Sora 出來後,團隊驚喜發現端到端的技術方向是可取、可喜的。
不過,雖然和 Sora 是同一條路子,但最後應用的場景不太一樣,言犀大模型數字人的賽道更聚焦,專注人物生成(原因是團隊評估人物視頻生成商業價值和社會影響力可能都更大)。
而關于端到端的路線,這裏展開說兩句。
現在基本分爲兩大類,一類是完全端到端,中間不對任何環節進行顯示的建模,完全是隐性的,都在一個空間裏面做;另一類是對簡單基本素材的人臉建 3 萬多個點 Mesh 模型,再去控制人物的表情、唇型,然後做紋理的渲染。
京東雲言犀說得很明白,2 種方案會根據場景需求做不同使用。
京東雲言犀負責人表示,其間比較得意的是人物大姿态的動作。
" 早期真人數字人,動作幅度比較小。基本上臉部不會怎麽動,因爲一旦頭動了,可能就剩半個嘴唇了。" 他透露,在大姿态方面做了較多技術投入,才有了現在 AI 劉強東的活動自如。
此外,身爲主播,語音表達無疑也十分重要。
既要複現真人主播的語音、語調,又要學習真人說話的習慣,如語速、語調、重音、倒吸氣。
就拿劉強東本人來說,他講話很少有輔助詞,也較少清晰讀出連接詞,如 " 跟着 " 的 " 着 " 字經常被一筆帶過。
因爲出生江蘇宿遷,他的話語裏還是會 " 露餡 ",冒出宿遷口音來。比如 " 時間 " 中的 "sh" 會有更重的鼻音;後鼻音有時會被吞掉,變成前鼻音。
就,還挺有特色的。
原本呢,京東雲言犀技術團隊的計劃是用劉強東 2017 年的一段演講音頻作學習素材,但測試發現,演講時劉強東的語氣太過正式了,和直播帶貨有點畫風不搭。
團隊無奈把劉強東 " 抓 " 到鏡頭前,錄了 30 分鍾的音視頻,讓他閑聊自己的經曆什麽的。
用這段音頻爲底提取出聲學特征,就能通過已經被喂了 5 萬小時語音數據訓練的言犀語音大模型合成出人工語音。
不過據量子位了解,京東雲言犀大模型團隊的最新戰績,是使用 6 秒素材複現具體某個人的聲音。
團隊成員還分享了其他一些關于 AI 數字人背後的事:
訓練過程中,主賽道錨定人物向,因此不管是從數據的采集、清洗和各方面都做了精細化聚焦。
推理實現方面,除了模型代碼壓縮、量化等常規操作,還對 INT4 和 INT8 進行了精度調改。
團隊下一步計劃,是把語音、視頻生成兩塊綜合到一起。
當然,另一部分挑戰是嘗試用非常小樣本或零樣本學習的方式就能抓住真人本尊的特點,繼而生成惟妙惟肖的數字人。
" 采銷東哥是京東數字人平均水平 "
京東雲言犀負責人表示,其實京東内部對數字人有一個分級。
第一級的數字人效果,可以做真人的補充工作,處于向真人看齊階段。
第二級數字人可以媲美真人,真人不在,也可以承擔重要場合、重要時間的主播工作。
并且播出後,會有人分不清主播是真是假——從這個角度來說,圖靈測試應該算是通過了。
不過,雖然在形象、表情、語音、動作複刻尚佳,但是本尊的深度思想,大模型數字人還沒有辦法 1:1 同步。
到了第三階段,本尊和數字人之間不是替代關系,更像是真人有了個數字分身,能夠真正深度抓住本尊的思想、文化、知識背景、一些理念。
而且,京東自家直播間有一個120s 戰鬥。
簡單說就是直播時,如果用戶在 120s 之内都不覺得眼前的數字人讓自己别扭,就會跨過恐怖谷效應,接受這個數字人,看他的展示、聽他的解說。
而且看到 120s,因爲對主播産生了信任,往往很大概率會下單。
" 目前來看,數字人直播帶貨有很大機會會成爲一個大的爆點。" 京東雲言犀負責人解釋道," 主要是内容層次達到了新的水準,大家的接受度和信任度已經過了關鍵點了。"
說回 " 采銷東哥 ",他現在幾乎能很完美地被生成 120s 以上的形象,并且足以以假亂真。
也就是說," 采銷東哥 " 現在處于京東數字人分級裏的第二階段,這也是京東雲言犀數字人的平均水平。
團隊還提到,其實目前 AI 大模型數字人大規模商用,技術已經不是難點了。
難點是什麽呢?是主播個人的形象要跟整體調性相匹配,在選品、互動方面還需要下很多功夫。
One More Thing
聊着聊着,一個有趣的問題被抛出來。
問,未來在京東直播間,有沒有可能誕生一個類似于董宇輝的 AI 數字人超級主播?
京東雲言犀負責人和算法總監相視一笑,說:
(這件事)技術上是有可能的,但在倫理和感情上不一定能成立。
比如很多丈母娘喜歡董宇輝,是因爲這個人有很實在的特質,很文雅,有知識。
我不知道在倫理上到底之後會怎麽解決……
— 聯系作者 —
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~