5 月 23 日,36 氪舉辦「颠覆 · AIGC」産業發展峰會。本次峰會彙聚産業力量,共同探讨企業、行業在面臨變革時的應對策略,分享思考,探索和發現産業中最具潛力的企業與最具價值的技術,在激蕩的環境中探尋前行的方向。
大會上,百度文心一格總架構師肖欣延發表了題爲《跨模态大模型賦能智能内容生成》的主題演講。在肖欣延看來,生成式人工智能時代已經到來,内容生成将成爲新一代生産方式,帶來行業發展的新機遇。肖欣延分别從圖片生成與視頻生成兩個角度介紹了百度在大模型領域的成果:百度 AI 作畫系統文心一格與基于文心大模型的視頻創作系統,展示了 AIGC 強大的内容生成能力與發展潛能。
在智能内容生成領域,AIGC 的價值不言而喻。肖欣延指出:在未來,算法、算力、數據的發展将對 AIGC 的内容生成能力産生質的提升。首先,AIGC 和語言模型的深度結合,會增強用戶語言交互體驗;其次,AIGC 在更高維度的内容生産能力如 3D 生成、長視頻生成等,将得到大幅改善;最後,随着 AIGC 效果和易用性的提升,内容生成流程将極度簡化、便捷。在演講的最後,肖欣延也表示,AI 目前面臨的事實一緻性、不可控等問題,将來整個技術範式需要加上知識維度,通過精準事實知識、多形态知識知識推理等确保 Al 走向可信可控,爲用戶提供更好服務。
百度文心一格總架構師肖欣延
以下爲肖欣延演講實錄(經 36 氪整理編輯):
肖欣延:大家好,非常榮幸參加 AIGC 産業發展峰會。我今天報告的題目是《跨模态大模型賦能智能内容生成》,重點會從跨模态角度介紹百度在智能内容生成上的工作。
最近人工智能非常火,但人工智能不僅僅是這幾年的曆史,我們回顧整個發展曆程人工智能其實已經走過 70 多年。最早 1950 年圖靈測試提出來,在此後 40 年裏面整個研究更多關注在邏輯推理和專家系統上面,在這個過程走的非常曲折,起起落落經曆兩個冬天。到了九十年代,整個機器學習、神經網絡還有深度學習逐步興起,再到近年來我們耳熟能詳的 AlphaGo、Transformer、GPT 等等這些技術出現以後,人工智能的實用效果不斷提升。到了 2022 年,人工智能不僅能做分類判别,也能夠做創作生成,生成式人工智能時代正式到來。
這也就引出了 AIGC。AIGC 有很多不同定義,在我們來看,從内容生産角度,它是人工智能帶來的新一代生産方式,是新的生産力,能夠大幅度提升内容生産的效率。這張圖大概展示了内容生産的幾個階段變化,包括早期 PGC 專業化的内容生産,到近幾年的 UGC 用戶内容生産,以及從去年開始的 AIGC 元年,通過 AI 輔助生産内容或者自動生産内容。回顧曆史會發現,每次内容生産方式的變革都會帶來非常大的内容生産力的釋放,給消費者提供全新的消費模式的體驗,所以我們非常相信 AIGC 會帶來很多新機遇。
AIGC 之所以能走到今天,大模型技術的發展是重要的推動力,從最早 AI2 ELMo、BERT 開始,到百度的文心 ERNIE,以及 GPT,大模型在過去五六年時間裏,基本上每年都有大量新的模型推出來。
百度在大模型方面做得非常早,并且持續深入的在開展,早在 2019 年開始就進行預訓練模型的研發工作,陸續發布 ERNIE 1.0、ERNIE 2.0、PLATO 和 ERNIE 3.0,有了這樣的技術積累,所以今年 3 月份百度在全球大廠中第一個發布了大語言模型——文心一言。除了語言模型之外,還有一個方向大家經常提到——跨模态模型,比如 OpenAI 推出的 Dall-E,百度發布的 ERNIE-ViLG 等。
今天的報告從更具體内容介紹基于語言的跨模态内容生成,隻要用人類擅長的語言就可以用機器幫我們生産圖片和視頻等内容。
首先介紹一下百度 AI 作畫系統産品——文心一格。
文生圖近年來進展非常驚人,最早在 2018 年時候基于 GAN 的圖像生成方法隻能生産模糊簡單的圖片,到 2021 年基于序列生成 Transformer 的框架,能比較好理解語言,根據語言生成意境還不錯的圖片。2022 年擴散模型出來之後,能做像素級建模,既可以生成非常宏大的圖片,也可以生成細節非常精美的圖片。
也是在這個階段百度推出 " 文心一格 ",從技術角度來講不是隻有大模型,而是基于知識和大模型的文生圖系統,綜合利用知識圖譜、跨模态生成和編輯模型,實現高效易用的創作。從理解用戶需求,原創生成圖片,到用戶對圖片進行編輯二次生成,對每一塊我們都有相應技術滿足。
首先是 prompt 學習。怎麽輸入一個比較好的文本描述,讓模型生成好的圖片,這一步對不少用戶來說使用門檻比較高。爲此,我們通過基于知識圖譜的 AI 模型,理解用戶的輸入,然後對用戶輸入的 prompt 自動進行多種維度上的智能擴充,當然這兩步我們也會端到端生成模式實現。右邊展示的例子中,用戶輸入簡單的描述,模型自動從視覺、質感、風格、構圖等角度智能補充,從而生成更加精美圖片。
接下來的擴散圖像生成就是跨模态大模型發揮的地方。我們主要通過自研文生圖大模型 ERNIE-VILG 實現。通過語言、視覺、跨模态進行知識增強,利用混合專家模型自動選擇最優生成網絡,在結合超過百億的參數規模,就實現非常領先的效果。ERNIE-ViLG 在 MS-COCO 的公開評估上以及人工評估中,取得了領先于 DALL-E、stable Diffusion 等競品的效果。
基于上面技術,文心一格能夠生成風格多樣,更懂中文的圖片。不管是關于茶道、京劇,還是中式建築,文心一格的生成效果都非常好。除了比較真實圖片的生成,在創意圖片的生成上,比如這裏的有一隻慵懶的貓在粉色的家裏面,一個狐狸騎摩托車,未來的綠色空中花園等,文心一格也可以實現對創意圖片的暢想。我們已經上線了文心一格的小程序,大家可以現場體驗一下。
如果生成一張圖片之後不那麽滿意,文心一格有更多功能可以幫助用戶進行二次編輯。首先,塗抹功能,用戶可以塗抹不滿意的部分,讓模型重新調整生成。另外也有一個很有意思的圖片疊加功能,用戶給兩張圖片,模型會自動生成一張很有意思的創意圖,比如給到水晶樣式的花和小怪獸,我們就可以自動生成一張疊加後的創意圖。我們還支持用戶輸入圖片的可控生成,我們根據圖片的動作或者線稿等生成新圖片,讓圖片生成的結果更可控。
如果前面步驟沒有辦法滿足用戶的需求,文心一格還可以做小樣本學習,快速獲得一個優質的個人定制模型。隻要提供幾張相同概念圖片到系統,經過幾分鍾微調就可以獲得定制模型,能夠保證想要的風格、主體都是一緻。
第二部分介紹下文章轉視頻技術,也就是視頻創作系統。
文章轉視頻是輸入圖文信息,輸出視頻内容。輸入文本可以是網頁文章、百科頁面、ppt 文檔,甚至是搜索 query,都可以自動生成視頻。這個功能看起來非常的簡單,但是簡單背後是需要大量技術來實現的。
視頻是當下信息最豐富的載體,它涉及到文本、字幕、腳本,還涉及到視頻素材,以及如何編排這些素材,是一個很複雜的流程。參照人們的視頻創作流程,我們将視頻創作系統設計成三大塊,文案理解與生成、素材分析與處理、素材擴充與編排,這每一步做的任務都很多,這背後是基于文心大模型統一建模的跨模态大模型來實現。
這個大模型就是百度發布的 ERNIE-UNIMO,我們希望模型利用文本、圖像、圖文對數據做統一的預訓練,通過這樣的訓練,模型能夠實現通用的語言與視覺的理解與生成。從實際效果來看,不管在公開數據集還是評測榜單上,UNIMO 模型比很多具體領域和模态的預訓練模型,在每個領域都做得更好。這樣的技術我們也用在剛才說的 TTV 生産當中,統一去執行各種各樣的任務。
最後,探讨下 AIGC 的價值,展望下未來技術的發展。
首先 AIGC 正在大幅提升内容創作的質量和效率。我相信應該很多人現在做内容創作時候,首先想的都是先去用這些 AIGC 的工具,不再自己從頭開始一點點做,這種 AI 輔助的方式使得整個生産效率得到大幅度提升。比如以海報制作來說,以前做海報成本比較高,通過 AIGC 的方式成本能降低 50%-80%,制作時間從周級别到天級别。如果放到視頻生成角度,成本制作節約的幅度更大。
除了提升效率,AIGC 還能助力想象力湧現,創造出獨特的 AI 作品。比如最左邊畫是一個貓穿唐裝在有柳樹的湖邊,還可以用 AI 創作戒指、蛋糕這樣的創意商品,創作力超乎我們的想象。
展望未來,大模型将進一步使得 AIGC 效果有質的提升。其實得益于算法、算力和數據的進展,現在 AIGC 效果已經有不錯的進展了。将來,通過更強、更統一的算法,更高性能的算力和更高質量的大規模數據,整個 AIGC 的内容生成還将有質的提升。一方面,和語言模型有更加深度結合,提供更強的語言交互,用戶可以通過語言更好更便捷的進行創作。第二,在更高維度的時空生成上,不管在時間上還是空間上,比如 3D 生成、長視頻生成等等,都将取得突破。最後,AIGC 将從輔助向自動發展,随着 AIGC 效果和易用性的提升,過去需要諸多步驟才能生成的圖片,到時候 AI 一步就可以實現。
同時,現在 AI 也經常面臨事實一緻性、不可控等問題,将來整個技術範式還需要加上知識維度,在算法、算力和數據的基礎上,通過精準事實知識、多形态知識、知識推理等确保 AI 走向可信可控,爲用戶提供更好服務。
相信 AIGC 在未來将創作出更多的價值。謝謝。