大模型模式,正在新一波 AIGC 的浪潮裏被再度驗證。
從 AI 畫畫的出圈,到現如今 ChatGPT 的火爆,面向大衆的爆款産品接口背後,無不是大模型技術的突破創新。
而當這種 " 大力出奇迹 " 的技術路徑價值愈發凸顯,行業内外也不禁好奇:
AI 繪畫、ChatGPT 版搜索之後,下一個大模型的爆發點會出現在何處?
遵循技術規律推測,可以預見的是,視頻領域的技術革命已近在眼前:
從技術的角度來說,在大語言模型叠代進化的同時,谷歌、Meta 等大廠在視頻自動生成領域已有更深層的探索。
而從商業的視角來看,中信建投就在報告中指出,AIGC 在文本、音頻、視頻、遊戲等等行業中,成長空間巨大。
量子位智庫也預測,AI 生成視頻将在 5 年後迎來較爲廣泛的規模應用。
△圖源:量子位智庫 AIGC 下一站:視頻生成
不妨先展開看看相關領域的技術進展。
谷歌:Phenaki 和 Imagen Video
就在 ChatGPT 刷屏之際,谷歌 AI 生成的一段視頻突然爆火,一時分走不少讨論度。
背後的 AI 模型名爲Phenaki。隻需提供一段提示詞,這個文本轉視頻(Text-to-Video)模型分分鍾就能生成長達兩分鍾的視頻。
不僅時長遠超早期的文生視頻模型,Phenaki 生成的視頻還頗具故事性。
比如給它這樣一段場景描述:
一隻逼真的泰迪熊正在潛水;随後它慢慢浮出水面;走上沙灘;這是鏡頭拉遠,泰迪熊行走在海灘邊篝火旁。
就能得到一個這樣的視頻片段:
除此之外,谷歌還推出過基于擴散模型的 Imagen Video。其特點是分辨率高,同時可以理解不同的藝術風格和 3D 結構。
Meta:Make-A-Video
在 " 拿嘴做視頻 " 這方面,Meta 也有所布局。
Meta 的文生視頻模型名爲Make-A-Video,同樣是文本圖像生成模型的升級版,主要由三部分組成:
文本圖像生成模型 P
時空卷積層和注意力層
用于提高幀率的幀插值網絡和兩個用來提升畫質的超分模型
不僅給出一句 " 馬兒喝水 ",Make-A-Video 就能生成出一段 " 紀錄片 " 畫面來:
這個 AI 模型還具備将靜态圖像轉成視頻、根據前後兩張圖片生成一段視頻,以及基于一段原視頻生成新視頻的能力。
百度:VidPress
國内,百度也把文心大模型的能力,運用到了智能視頻合成平台 VidPress 中。
VidPress 能夠實現圖文自動轉視頻,即把文字腳本、視頻内容搜索、素材處理、音視頻對齊,以及剪輯這 5 個步驟自動化。
其中涉及的語義分析、素材相關度打分等環節,就都是基于文心大模型訓練實現的。
從技術的發展可以看出,在語言大模型、圖像大模型之後,多模态大模型已經成爲了新的趨勢。視頻就是其中具有代表性的一個應用領域。
而從商業化的角度來看,文化娛樂、教育、傳媒等諸多領域,本身就對基于 AI 的可視化内容有強烈需求。
根據中信建投對各類内容未來可 AI 制作比例的測算,在視頻成爲信息主要表達載體的當下,無論是在遊戲、短視頻、直播,還是影視等領域,AI 視頻内容生成都将成爲 AIGC 的主要關注方向。
并且在 2022 年,DALL · E、Imagen、Stable Diffusion 等多個高質量文生圖大模型的 " 轟炸 " 之下,一個新的市場規律已經得到驗證:
當生成質量提高到專業水平時,原本 AI 生成内容的商業化瓶頸,如變現困難等,将得到突破。
哪些公司是潛力股?
機會自然屬于有準備的人。
比如,Image Video 的核心團隊就已經從谷歌出走創業。據 VC 爆料,首輪估值 1 億美元。
而除了前文提到的已有革命性技術儲備的科技巨頭外,還有兩類公司值得關注。
其一,是具備數據基礎和應用場景的公司。
在這一方面,行業中的大公司普遍更具優勢。比如國外的網飛、迪士尼。
以網飛爲例,公開資料顯示,在 2012 年時,網飛就已擁有數十億條會員評價,每天能新增百萬級别的視頻播放信息,包括觀衆的觀看時長、播放設備等等。
事實上,基于如此龐大的獨家數據,網飛已經在産品中嘗試用 AIGC 替代标準内容制作。比如影片的縮略圖,就是網飛采用 AI 算法,從影片中抽取符合用戶觀影習慣和需求的畫面生成的。
就在今年 2 月初,網飛還發布了一支 AIGC 動畫短片《犬與少年》。其中動畫場景的繪制工作,都是由 AI 完成的。
同樣,國内短視頻行業兩大巨頭抖音和快手的動向,也值得關注。
目前,字節跳動的視頻編輯工具剪映,以及快手的雲剪,都已上線圖文成片、文字轉視頻的功能。用戶隻需輸入幾個關鍵詞或一段文字,AI 就能自動搜集素材剪輯出一段視頻片段。
其二,就是在垂直細分賽道上具有技術儲備的公司。
比如國内的智能視覺技術企業影譜科技,成立之初就是以人工智能視覺技術産業化爲主要目标,早在 2018 年就發布了基于生成式 AI 技術的 AGC 智能影像生産引擎,這也是國内較早提出的生成式 AI 的技術框架。
影譜科技的 AGC 通過 MCVS 技術 ( Moviebook Motion Capture from Video System ) 對現有視頻的關鍵幀進行抽取,理解、關聯及預測等處理,将視頻内容分割爲像素及子像素維度的結構化數據,并自動完成标記,即形成了對視頻中各種内容的自動化理解和标注。接下來,利用 3D 虛拟重建等計算機圖像技術,通過視頻内容自動化生産引擎 MAPE ( Moviebook Auto-Production Engine ) 生成全新的視頻,該方案融合了人工智能多模态語義理解,并利用深度學習實現視頻自動化加工以及視頻的同步生成,創新了視頻影像生産方式。
這使得 AGC 可在極短時間内生成一段個性化視頻内容,亦可以對拍攝視頻進行重構,如自動錨定關鍵幀,根據幀内容生成原圖像中沒有的、無違和感的内容,再智能化生成一段 AI 視覺内容。
據公開數據顯示,影譜科技 AI 生成引擎生成一段 60s 視頻的總成本與傳統方式相比降低 79.8% 以上,而生産率最高可以提高百倍以上;檢索一段 60s 視頻内相似幀圖像或特定圖像,所需總成本與人工相比降低 99.73%,而錯誤率降低 10 倍以上,目前主要應用于政府服務、企業、科教、泛娛樂、媒體、文旅等領域。
例如,在視頻采集和生産階段,可實現主體識别、跟随拍攝、畫質修複、自動剪輯、視頻自動生成等功能;在分發階段實現智能審核、個性化推薦等;在用戶體驗方面,結合數字孿生技術綜合使用,實現數字内容、數字空間、數字人的高效生産及可視化互動等功能。
目前 AGC 在諸多行業的應用已十分廣泛,随着與行業的數字化融合不斷加深,未來發揮的作用也将愈加明顯。
p.s. 前文提到的網飛 AIGC 短片,還有小冰公司的參與。
ChatGPT 之火,正在加速 AIGC 走向成熟
不得不說的是,盡管 ChatGPT 的火爆,讓大模型時代的 AIGC 獲得了空前關注,但 AIGC 産業,還隻能說是一個 " 新生兒 "。
根據 Gartner 發布的 2022 年新興技術成熟度曲線,生成式 AI 目前還處于 " 技術萌芽期 ",預計距離生産成熟期還有 5-10 年的時間。
但随着大模型這樣的技術底座作用愈發凸顯,越來越得到重視,不可否認的是,這個新生兒成長态勢正呈現出一種加速狀态。
并且,經過文生圖、ChatGPT 的驗證,AIGC 在其他垂直領域中的可拓展空間已經可以預見。
量子位智庫預測,2030 年,AIGC 市場規模有望超過萬億人民币。
在這個過程中,如何搶占先機,将成爲中國産業界亟需關注的命題。
至少,像影譜這樣的垂直賽道種子選手,就已經得到國資基金的重視:具備國家社保基金、中央企業、國有銀行、地方國資等出資背景。并且 D 輪融資 13.6 億人民币,創下人工智能視覺生産領域的中國最高融資紀錄。
這一回,我們能否走在世界之先?
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~