白交 衡宇 發自 凹非寺
量子位 | 公衆号 QbitAI
Stable Diffusion 要王者歸來了?
Stability AI CEO Emad Mostaque 最新推文,四段視頻引人無數遐想。
不少網友懷疑,這是 Stable Video Diffusion 新版本的演示 Demo。
因爲從效果上看,不管是畫面清晰度、一緻性還是流暢度都十分驚人。
比如這隻毛絨熊帶着泳鏡潛水。
毛絨熊動作十分流暢,甚至還眨眼睛。而背後也有豐富的海水細節。
再加上 Emad Mostaque 本人,自今年 1 月 1 日開始就消失了幾星期,始終未曾在社交網絡上露面。
網友覺得,這一波更像是憋了個大新聞。Stability AI is back?
(一度以爲 Stability AI 已經在競争中落後)
Stable Diffusion 殺回來了?
從釋出的四秒 Demo 來看,應該是針對 SVD 視頻生成功能的升級。
不過基于文本還是圖像生成尚不能斷定,直接來感受一下效果。
還有這種動漫風夜晚的街道。
去年 11 月,Stable Video Diffusion(SVD)正式問世,當時除了支持圖像、文本到視頻之外,還支持物體 3D 合成。
按照當時透露的計劃, SVD 隻是作爲基礎模型,接下來還将繼續拓展,建立起整個 Stable Diffusion 的生态系統。
當時網友對 Demo 的反饋包括光影不對、而且整體不連貫(視頻幀與幀之間閃爍)。
而從現在 Demo 看,以一個類似視頻作對比:綠色機器人躺在床上。
可以看到,機器人,以及旁邊的杯子燈盞,甚至床被枕頭的褶皺細節都更爲豐富了。
而且在機器人臉上也有明顯的光影映射。
不過更多更新信息還得等官方版本發布才能知曉。
值得一提的是,在這條推文之後,Emad Mostaque 還發了條類似的。
沒有文字,四張靜圖。
網友們表示了期待。" 希望這個模型能全方位地超越 SDXL,并更好地及時叠代。"" 這是 SD3?"
不過這個地球西紅柿是什麽鬼???
又是同一天,他們的 StableLM2 1.6B 發布,一個隻有 16 億參數的小語言模型。它經過了英語、西班牙語、德語、法語、葡萄牙語和荷蘭語等多語種訓練。
幾天前,他們剛發布新年以來第一個大語言模型 Stable Code 3B。
如此頻繁的進展,Stability AI 莫不是真的要翻身了?
決戰視頻生成
之所以要說翻身,因爲 Stability AI 在上一波文生圖賽道裏的确備受矚目,Stable Diffusion 的爆火,讓它一度成爲全球最受關注的 AI 獨角獸。
但随着 Midjourney 的出現,以及 OpenAI 谷歌在内的頻繁進展,而内部也不安生,包括 CEO 疑似剽竊成果、挪用公款,公司商業模式不明晰、拖欠工資等情況爆雷,Stability AI 一度陷入風波之中。
去年 11 月官宣進軍視頻生成賽道,彼時已經有 runway 和 pika 這樣的熱門玩家出現了。
如今 SVD 新版本疑似亮相,之所以受到衆人關注,除了本身企業之外, 還同當下正在高能爆發的視頻生成賽道密切相關。
不少網友直言:真是一波又一波的卷,一家比一家更卷。
要麽是比版本發布叠代,這段時間國内大廠阿裏字節等新進展頻出。要麽是從生成效果,清晰度、流暢性,前段時間,Moonvalley 橫空出世,驚呆不少人。
又或者在可控性等上面去卷……
這不就在前幾天,runway 的 Gen-2 再進化——
隻需 5 個筆刷,對着一張圖一頓刷刷刷刷刷,原本靜止的小鳥們就各自運動了起來。
那麽在視頻生成這個賽道,你看好 Stability AI 嗎?
參考鏈接:
[ 1 ] https://twitter.com/StabilityAI/status/1747352719487054105
[ 2 ] https://x.com/emostaque/status/1748405750907457548?s=46&t=HBob6gxh8cOfZTIbieKeSA
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~