OpenAI 直播劃水的一天,谷歌版 Sora 迎來了它的 2.0 ——
Veo 2,根據文本或圖像生成更爲高質量的視頻。
從官方介紹中看,此次主要有三個方面的升級。
比如分辨率能達到 4K。
能夠理解有關鏡頭控制的 Prompt。
更注重現實物理世界與人類表情的理解和展示。
在官方賬号底下,大家都對這些效果表示了驚歎:
我真的想谷歌輸掉比賽,但是谷歌沒有輸。
另外,圖像生成模型 Imagen 3 也有進一步的改進。
谷歌版 Sora2.0:重新定義質量和控制
質量和控制,是此次視頻模型升級的關鍵詞。
除了顯而易見的清晰度的提升——最高可達 4K 分辨率,它能夠忠實地遵循簡單和複雜的指令 Prompt,并令人信服地模拟現實世界的物理以及各種視覺風格。
具體體現在它的真實感和保真度上,比如細節、僞影減少等方面都有顯著改進。
還有高級的運動功能,基于對物理學的理解,能夠更高精度的表示運動。
還能準确地遵循各種鏡頭控制類的 Prompt,比如拍攝風格、角度、動作以及所有這些的組合。
那麽接下來直觀地感受一下效果。
Prompt:特寫鏡頭聚焦于一位女 DJ 的臉部,她美麗、濃密的黑色卷發勾勒出她的五官,她完全沉浸在音樂中。她閉上雙眼,沉浸在節奏中,嘴角挂着一絲微笑。當她随着節拍點頭和搖擺時,相機捕捉到了她頭部的細微動作,她的身體本能地随着耳機中傳出的音樂而做出反應,傳到人群中。淺景深使背景變得模糊。她被鮮豔的霓虹色包圍着。特寫鏡頭強調了她迷人的氣質以及音樂傳遞和超越的力量。
還有是這種集體的蜂群也能刻畫出來。
Prompt:鏡頭輕輕飄過一排排粉刷過的木制蜂箱,嗡嗡作響的蜜蜂在畫面中進進出出。鏡頭落在站在畫面中央的優雅農民身上,他潔白的養蜂服在金色的午後陽光下閃閃發光。他舉起一罐蜂蜜,稍微傾斜以捕捉光線。在他身後,高大的向日葵在微風中有節奏地搖曳,花瓣在溫暖的陽光下閃閃發光。鏡頭向上傾斜,露出一座複古的農舍,百葉窗是薄荷綠色的,搖曳的樹木在牆上投下斑駁的陰影。用 35 毫米鏡頭在柯達 Portra 400 膠片上拍攝,金色的光線在農民的手套、果醬罐和蜂箱的風化木材上形成了豐富的紋理。
還可以切換鏡頭,從近景到遠景,而在鏡頭之下,不管是蜂蜜還是咖啡的泡沫細節都有精确地刻畫。
Prompt:太陽在一盤擺放整齊的早餐場景後緩緩升起。濃稠的金色楓糖漿以慢動作倒在松軟的煎餅上,每一塊煎餅都散發出柔軟溫暖的蒸汽雲。特寫鏡頭中,脆培根發出嘶嘶聲,金色油脂的細小餘燼在空中飛舞。咖啡以順滑的旋轉動作倒入水晶般透明的杯子中,杯子裏充滿了深棕色的咖啡油層。場景結束時,相機俯沖到新鮮切好的橙子上,以令人驚歎的微距細節展示出它明亮多汁的果肉。
那麽在根據人類對其性能的評估中,Veo 2 的表現優于其他領先的視頻生成模型
在 Meta 基準數據集 MovieGenBench 上,人類參與者觀看了 1003 個提示和響應的視頻。
結果顯示,跟市面上的主流視頻生成模型相比,Veo2.0 在整體偏好、Prompt 指令準确遵循方面都表現最佳。
值得一提的是,這裏除了 Sora,國産模型可靈、MiniMax 都上桌了。
所有的比較都在 720P 分辨率下進行,Veo 采樣時長爲 8 秒,VideoGen 采樣時長爲 10 秒,其他型号采樣時長爲 5 秒。我們向評分者展示完整視頻時長。
最後,他們表示,創建逼真、動态或複雜的視頻,并在複雜場景或複雜運動的場景中保持完全一緻性仍然是一項挑戰。他們将繼續開發和改進這些領域的性能。
圖像模型 Imagen 3 也增強了
除此之外,還增強了他們的圖像生成模型 Imagen 3。
可以生成更多樣化的藝術風格,如現實主義、夢幻、肖像畫等等。
生成的圖像會更忠實于 Prompt,哪怕這個 Prompt 有多麽地離譜。(Doge)
而從各種生成的圖像來看,視覺效果也比之前更明亮,構圖也更加平衡。
好了,感興趣的朋友可戳下方鏈接了解更多詳情。
參考鏈接:
[ 1 ] https://deepmind.google/technologies/veo/veo-2/
[ 2 ] https://x.com/GoogleDeepMind/status/1868703624714395907
[ 3 ] https://deepmind.google/technologies/imagen-3/
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>