2022 年,是中國人追逐群星的裡程碑之年。
今年 10 月 31 日,中國天宮空間站的第二個科學實驗模塊——夢天實驗艙,搭載長征五号 B 遙四運載火箭發射升空。随着之後天實驗艙成功與之前發射的天和核心艙完成精準對接,中國空間站曆史性地完成了 " 合體 "。至此,中國空間站距離建成僅剩一步之遙。
從天舟四号到天舟五号,從問天艙到夢天艙,從神舟十四号到神舟十五号,取得一系列航天成果的 2022,同時也是中國載人航天工程立項實施 30 周年。三十年奮進勃發,讓中國人史無前例地接近星辰,接近宇宙中的無限可能。
而在科技賽場的另一條關鍵跑道上,2022 同樣至關重要。近日,新華社與百度文心一格聯合推出了一支 AIGC 視頻——《AI 描繪天宮盛宴》。這支視頻畫面全部由 AI 自動生成,用充滿中國韻味的筆觸,回顧了中國載人航天的三十年輝煌曆程。衆多網友感歎,AIGC 竟然在極短時間内就達成了這種效果,實在難以想象。
2022 年,被業界稱為 AIGC 元年。伴随着 AI 作畫大規模商業化落地,這一能力開始為全球用戶所接受。AIGC 的飽含巨大商業價值的下一站,就是 AI 生成内容。而在 AIGC 的 " 宇宙探索 " 中,中國人同樣不落人後。以百度文心大模型為代表的中國力量,正在帶領全球 AI 産業接近 AIGC 的無限可能。
2022 年,文心大模型在 AI 生成内容這條賽道上不停探索,給出了一系列讓人眼前一亮的成績。在其背後,既可以看到大模型在 AI 作畫領域的技術趨于完備,又可以看到中文、中國文化背景下的 AIGC 全面發展。面向 AIGC 的群星,文心大模型已經成為中國 AI 産業的一座 " 空間站 "。
探索 AIGC 更多可能,
文心大模型的成績單
在全球經濟普遍遇冷的 2022,AI 技術卻是一片繁榮。從 AI 作畫到 AI 對話,各種 AI 技術創新在全球範圍内火爆出圈。而所有 AI 能力中最讓人看好其商業前景的,則是 AIGC 的下一站——生成内容。
我們處在一個被短視頻颠覆和重構的時代。短視頻平台已經在全球範圍内形成了用戶最多、影響力大的媒介形式。AI 與視頻的結合,正變成新的巨型風口。在 2022 年,百度文心大模型先後帶來了一系列視頻生成作品,其完善的效果與創意性地表達,赢得了業界與公衆的一緻認可。
在百度 2022 萬象大會期間,數字人度曉曉作詞作曲演唱的 MV《啟航星》正式上線。這也成為成為首支全 AIGC 生成的音樂 MV。《啟航星》MV 視頻依托百度推出的 AI 藝術和創意輔助平台——文心一格,根據歌詞自動生成畫面。其不僅探索了數字人、AI 生成内容等技術的邊界,更為 MV 制作、AI 與音樂産業結合展現出了清晰的路徑。
10 月 20 日,《人民日報》發布 AI 根據二十大報告中部分詞語描繪的未來中國圖景視頻,該視頻由百度飛槳、文心一格提供技術支持。根據内容描述,文心大模型準确描繪出了未來中國的發展圖卷。筆觸老練自然,完全沒有傳統意義上認為 AIGC 内容會有的生澀感與不和諧。
等到《AI 描繪天宮盛宴》到來,我們可以看到文心大模型生成的視頻内容更加具有整體性風格,畫面調動也更有邏輯性,并且内容能夠與中國傳統文化,比如《西遊記》中蟠桃盛宴,進行有機且巧妙的結合。
在這一個個 AI 生成内容背後,我們可以看到文心大模型走出了兩條路:技術之路,與文化之路。
AI 生成内容的技術難點,
正被一個個打破
" 最先進的 AI 動畫生成技術在中國 "。
這句話,是今年 8 月文心 ERNIE-ViLG 2.0 模型通過百度 API 服務的方式進行開放公測後,一位外國開發者留在評論區的。幾個月之後,這樣的肯定依舊令我們振奮。數年前,絕大部分人可能會覺得中國難以在 AI 生成内容中實現領先,但現在這一切已經做到了。
究其根本,在于文心大模型持續面向 AIGC 的技術挑戰發起一波波沖鋒。今年在文心大模型支持的多部破圈視頻裡,我們可以看到其中的技術力表現持續升級。簡單感、不流暢、缺乏創意風格等 AI 生成内容的傳統問題,正在一個個被文心打破。
在這背後,是文心大模型 ERNIE-ViLG 2.0 跨模态圖文生成能力的幫助和支持。基于 ERNIE-ViLG 2.0,可以實現從文本内容到視頻内容中,轉化的可控性與細節描述能力不斷提升。而這源于秉承着百度在文心大模型當中探索的知識增強方向,為 ERNIE-ViLG 2.0 找到了核心的升級方向。ERNIE-ViLG 2.0 采用基于知識增強算法的混合降噪專家建模,是全球首個将知識增強與 AIGC 相互結合的大模型。其最終表現,在權威評測集 MS-COCO 和人工盲評上均超越了 Stable Diffusion、DALL-E 2 等主流模型,在 AI 生成内容等方面,取得全球業界的最佳效果,在語義可控性、圖像清晰度等方面均展現出了顯著優勢。
從《AI 描繪天宮盛宴》中,我們可以看到畫面可控性、複雜構圖和細節刻畫能力都達到了新的水平高度。AI 生成内容不再是生成一幀幀圖片合成視頻,而是基于統一風格,完整、連續地展現出了視頻全貌。這就是知識增強路徑為 AIGC 帶來的不同之處。
當時間來到 2023,中國 AI 行業、AI 開發者,以及廣大視頻創作者,将得到全球領先的 AI 生成内容能力作為發展引擎——這就是文心大模型,這座 " 空間站 " 的戰略意義。
更懂中國,更懂未來
另一方面,我們可以在《AI 描繪天宮盛宴》看到一種我們非常熟悉的審美風格,其神韻非常類似 1961 年上海美術電影制片廠制作的《大鬧天宮》。那既是中國動畫史的開端,也是深刻國民 DNA 的文化記憶。
用這種審美意蘊展現中國航天三十年的故事,是非常容易獲得國人共鳴,産生審美與文化認同的。這一點其實非常重要,AIGC 的最終價值在于文化傳播。試想一下,如果 AI 生成的内容不懂一個國家的語言、文化、典故以及審美意味,那麼最終做出來的内容是否可能實現高效率、有認同的傳播?
從這個角度看,中國的 AI 大模型發展與 AIGC 能力建設就顯得更加富有不可替代性。我們不能等到 AI 生成内容大規模落地時,一味照搬符合他國文化與英語語言習慣的内容給中國觀衆看。而文心對中文數據、中文知識的學習,以及對中國文化、中國審美的理解,則适當地填補了這個空白。從文心一格對中文的理解能力,以及最終生成内容中展現的中國意境,就可以看到目前适合中國環境的 AIGC。我們不需要在基礎能力和技術上進行漫長的模仿與追趕,而是可以站在更高點,直視 AIGC 最前沿、最令人激動的可能性。
2022 年,是中國人追逐群星之年,也是中國人追逐 AIGC 之夢的一年。伴随着更多 AI 生成内容火爆出全,更多 AIGC 的行業化方案落地,更多平台化能力開放,文心一格正在打開科技與文化融合創新的想象空間,文心大模型正在成為 AIGC 發展的新引擎。
在文心這座 " 空間站 ",我們已能看到智能世界的浩瀚星空。