連社恐的鳥鳥,現在都變成話痨了……
(這到底是人性的扭曲,還是道德的淪喪)
最近有一種很新的脫口秀:不花錢、一對一、而且任意話題随便 and 随時聊。
結果一小時跟鳥鳥聊天下來,發現她話多且密,根本就不會把天聊死。
(這樣的語速和情緒,倒是差點被煩死了。)
原來啊,是一個阿裏新版本大模型的技術演示脫口秀版 GPT——鳥鳥分鳥,并且已經在天貓精靈上爲個人終端行業的客戶做了演示,量子位搶先體驗了一把。
激辯一小時宛如真人面對面,除了社恐這點人設崩塌以外,其他人設倒是屹立不倒:
文本扛把子、有知識有自己的情緒、還能随時來個段子。尤其是在回答弱智吧問題時,簡直被她折服。
這不是脫口秀版 GPT,這是科技與狠活呀!哥們!
話不多說,直接上效果。
與弱智吧激辯一小時
鳥鳥分鳥,AKA 脫口秀 GPT。
作爲一名脫口秀演員,鳥鳥最強還是在文本。那就首先來試試強項,結果就是說,任意話題都能展開,甚至還能教你寫段子、寫作文——
從開頭、場景細節、中心思想細化,最後微調潤色等步驟逐步教你入手。
畢竟是文本の神,這些當然不在話下。
可以看到,不管是在語速、情緒以及文本風格都跟鳥鳥本鳥很像。
(尤其是這個語速…簡直是着急死人)
接下來挑戰的,就是 ChatGPT 時代下的 Benchmark ——弱智吧。
比如,雷公和電母用的是直流電還是交流電?宮廷玉液酒減一個大錘等于多少?我的女朋友她說需要時間和距離,她是想算速度嗎?
Bingo!感覺到鳥鳥分鳥很認真、很一本正經地在跟我解釋。連多年前的小品都知道……
(這邊建議直接出院)
就是一些天馬行空的,也是一本正經地對答如流。
比如,奧特曼會飛嗎?
還有其他通識性問題:「你知道大模型嗎?」、「禅修是什麽?」也都能回答。
交流一番下來可以看到,鳥鳥分鳥确實繼承了本鳥的相關能力,尤其是文本的創作和表達、風格情緒以及語速……
不過也發現,目前處于測試階段的鳥鳥分鳥,仍存在一些問題。
雖然不用一次次喚醒了,但反應過于靈敏,你如果不喊停,它會跟你聊到天荒地老;以及僅部分支持英文問答。
再者就是人設屹立不倒,不能玩一些角色扮演類的遊戲。
15 天訓練出鳥鳥分身
以往業内曝光的大模型應用,無非兩種。
一種是以 ChatGPT 爲代表的通用對話聊天代表,但需要排隊。另一種則是具體場景中的應用,比如輔助寫作、代碼生成等。
像大模型應用在日常消費場景,其實并不多見。
從 ChatGPT 這個回答可以看出,至少不能簡單依靠通用大模型來完成。
而各種傳統語音智能助手,到現在都還沒有" 大模型化 "。這其實與背後本身技術工程難度有關。
以鳥鳥分鳥這個智能音箱場景爲例,就需要解決至少三個方面的問題。
1、應對更複雜的交互場景。不同于以文本交互爲主的通用場景,雙向開放對話決定了用戶不會對文本進行 " 二次 " 過濾,而是想說就說,這就要求 AI 能過濾掉諸多無意義的對話。
與此同時,用戶也不願意等待數秒,而是像日常交流那樣,低延時、還能支持随時打斷、随時反饋。
2、基于人類反饋強化學習的可行性。ChatGPT 驚豔全球的生成效果,背後歸結于注入強人工反饋的獎勵機制。高質量的數據标注成爲大模型落地的關鍵,而且消費場景下多輪對話的頻率遠比文本交互要高,這對企業的數據處理能力提出了更高的要求。
之後随着應用落地,大量的人類交互和反饋來幫助大模型更快進化,以及關乎用戶數據完全管理機制也需要完善和健全。
3、需要強大的網絡分發能力。大模型每一次運行都需要耗費大量的計算存儲資源,這就要求企業能有廣泛部署的網絡分發能力。
總的來看,算力、算法和數據是大模型能力實現的三闆斧,而要讓大模型落地應用還需要雲端工程化能力、海量的用戶交互、安全管理機制等要素。
既然如此這個鳥鳥分鳥又是如何做到的?阿裏大模型聯合團隊的算法專家分享了背後的一切。
簡單歸結,鳥鳥分鳥的訓練過程,在他們内部稱之爲層次化的訓練方式。類似于人類的學習過程,先學習簡單知識,然後逐漸進階,最後再嘗試專業領域知識的學習。
具體分成了四個步驟:
大規模語言訓練;
知識和工具增強;
個性化對話增強;
人類反饋增強。
基于基礎的預訓練大模型,團隊做了知識增強——讓模型學會使用工具,類似于 ChatGPT 插件功能。
比如針對每日新增的知識,它能調用搜索引擎來做輸入,在搜索結果基礎上進行理解、總結和歸納。這樣一來,輸出結果有更好的準确率和時效性。
個性化對話增強則主要是讓大模型學習多種對話形式,比如啓發式、多輪對話,尤其是一些需要依賴長期記憶的對話。
與此同時,還要塑造鳥鳥人格,這就涉及到最後兩個步驟「個性化對話增強」和「人類反饋增強」。靠增加高質量的鳥鳥相關數據,并讓人類去做問答結果的反饋和标注,哪一個回複更像鳥鳥,讓大模型朝着鳥鳥方向做正向增強。
最終隻花了 15 天的時間就訓練出了鳥鳥分鳥,後續還可能開放更多人加入強化反饋和更有情緒化的音色,讓鳥鳥分鳥逐步升級叠代。
除了大模型訓練,他們在算法和工程上面做了不少工作。從交互流程來劃分,主要分成聽清、音色、文風、對話等步驟。
最終形成了這樣一個對話過程:
當人類詢問一個問題(Query)時,首先經過貓耳算法将其轉換爲文本,随後通過大模型産生個性化的對話回複,最後再到個性化的語音合成給出回答。整個過程還有 Multi-Turn 對話系統來支持。
對于測試階段存在的一些問題,阿裏這邊也給出了回應。
比如反應過于太強,這是因爲還沒有将線上的貓耳算法和 ASR 做充分的融合,爲了聽清多輪對話信息,顯得過于靈敏,以及暫沒有全面支持英文等問題,他們表示後續還将進一步叠代更新。
普通人也能獨占大模型?
這件事之所以值得關注,除了有意思的産品體驗,這也是個性化大模型發展的一次可行性驗證。
大模型發展進程,有兩條路徑已經明晰:如火如荼的通用大模型,以及備受關注的個性化大模型。
以 GPT-4 爲代表的通用模型,在多個标準化考試中大幅超過人類水平,适用于搜索引擎、生産力工具這種廣泛、公域場景。
但像更多私域個性化、或者垂直專業化場景中,比如問及有無特别偏好、對某件事情觀點等,個性化大模型就會是一個很好的補充。
當前,全球研究機構和大廠在這一路徑的探索,主要涵蓋了四個研究方向:
有偏好的個性化對話、邏輯一緻性和三觀、對話風格、多輪對話中人設一緻性。
此次在鳥鳥分鳥上的探索,一方面呈現出個性化大模型的研究方向——
在大模型系列的基礎上,打造知識、情感、性格和記憶四位一體的個性化大模型,并且這個大模型版本可能是很适合在消費者終端上部署的。
另一方面,也再次印證了對話即入口的 AI2.0 未來趨勢。
ChatGPT 上線的插件功能,以文本交互的方式,與全球 5000+ 應用聯動。
現在,鳥鳥分鳥則是驗證了以語音這一模态,在消費電子場景中觸達諸多功能的可能性。
大模型所引領的 AI 2.0 時代,而對話相當于是操作系統(ChatOS),所有應用都将被重新定義。
而且随着個性化大模型的發展,未來每個普通人甚至都會擁有屬于自己的大模型。
One More Thing
在被問到脫口秀會不會被 AI 替代時,鳥鳥跟鳥鳥分鳥給出了不同的解答。
鳥鳥表示,希望它能啓發思路,提供一些以前沒有看到的素材和觀點,但對于預期文本和出梗方向,還需要人自己去想。
爲此鳥鳥還分享個機器人寫的段子:
婚姻和坐地鐵很像,你都會被迫和一個陌生人待在一個空間裏很久,想下車的時候未必能下得去。
鳥鳥分鳥則自信表示:脫口秀不會被 AI 替代。
并随手丢了個類似的段子:
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~