有一說一,前幾天就已經立冬了,眼瞅着又快到年底了現在。
擱往年的情況,到了年底這才到各大廠商紛紛發力的時候,年關将近嘛,總得搞出點啥新東西,給大家漲漲眼界。
雖然說最近關于 AI 的新消息不是很多,但是人家這段時間肯定也沒閑着,這不,一個多月前,也就是 925 那天我們才跟大家說了豆包的視頻生成,這兩天,豆包又又又上新了新功能。
簡單來說,這回豆包支持 " 一句話編輯修改圖片 " 了。
雖然文生圖已經搞了兩三年,但這回,我敢說真算是國産 AI 文生圖裏的新突破了。
可能不少差友還覺得, AI 生圖不是已經挺厲害的了嘛,怎麽還不能修改圖片?
實際上,我們這幾年也測了不少文生圖大模型了,支持圖片精确修改的還真沒有,目前做的最好的真就是豆包。
就比如說 ChatGPT-4o ,你讓他畫個打籃球的人還可以,但是你要想改動一下,把環境換成沙灘,不好意思,整張圖都變了。
不止 OpenAI 的不行,谷歌的 Gemini 也一樣。
本來說讓它把圖中的雞變成鳄魚,結果不僅沒變成,還把背景給全改了,兩次的籃球也完全不一樣。
拿 AI 自己生的圖搞都這樣,更别說本地上傳的照片了。
就拿最簡單的給圖像換顔色來說,即使在豆包以前的版本裏,這種效果也不理想。
比如我們直接把 925 活動裏,給脖子哥拍的照片傳上去,然後告訴豆包,你給我把脖子哥抱着的小白狗換成小黃。
結果就是,整張圖都變了,風格大變就算了,構圖也不一樣。
但是現在,這回用上這個上新了的豆包,同樣的照片同樣的提示詞,你再看看:
滑動查看 AI 效果
雖然有一點點小瑕疵,但要跟前面的一比,是不是高下立判!
不但保留了脖子哥的動作,表情,小狗的形狀也跟上傳的圖差不多,說換成黃色就換黃色,一點不含糊。
再來試試圖像消除,效果也不錯。
Prompt: 幫我生成圖片:消除白色小狗
發現沒,這個文生圖變得智能了,它能識别出照片裏的内容,你想修改啥他就隻改啥,哪裏不對改哪裏, so eazy!
而且不僅能做到識别,修改顔色,消除物品這些基本功能,你想整點複雜的也一樣可以。
比如更換圖片的背景。
我們把差評硬件部視頻裏,米羅的照片傳上去,然後叫豆包把我們的拍攝間背景改成上海陸家嘴。
Prompt: 幫我生成圖片:背景換成陸家嘴
哎嘿!還真就換成了,紙張的折痕還都一點沒變。
你甚至可以分得清背景裏,哪個是 " 開瓶器 " 環球金融中心;哪個是 " 注射器 " 金茂大廈;哪個是 " 打蛋器 " 上海中心大廈,陸家嘴三件套安排的明明白白。不知道的故意第一眼看去,還真以爲我們公司搬到浦東了。
除了這些現實中存在的場景,科幻作品中想象的東西,這回豆包也能夠生成。
我們讓豆包把米羅改造成戰錘 40K 風格,結果也是相當的 amazing 啊,雖然換了個人種,但是五官還算依稀能看出米羅的影子,要是戴上頭盔,真就跟星際戰士一樣了。
Prompt: 幫我生成圖片:衣服換成戰錘 40K 裝甲,手拿激光炮
更重要的是,雖然人物的着裝和風格變了,但圖片前面的桌子,跟背景的牆壁、窗簾、挂畫可都是一點沒動。
就這個效果,你要不跟别人說,誰知道這到底是 AI 生成還是 PS ,一眼望去是真分不清。
不過,在人物測試中我們還發現,如果你拿AI 生成的圖進行修改,效果比用照片還要強上不少。
你比如就說,我們先生成一張屏幕前各位彥祖的日系寫真,然後告訴豆包,把彥祖的襯衣換換顔色。
Prompt: 幫我生成圖片:衣服顔色換成棕色
你瞅瞅,臉部的細節,頭發的細節,甚至背後牆磚上的紋理,遠處的電線杆子,都一點沒動,說換裝就換裝,那叫一個幹淨利落。
當然了,用人像演示還是爲了測試它在人臉細節上的把握能力,畢竟人臉這玩意,一但生成的不好,就會産生恐怖歡樂谷效應,一眼盯真的事。
戴珍珠耳環的少女都見過吧,世界名畫,我們讓豆包給你把人臉換成貓臉版本,來看看它對跨物種的面部融合做的咋樣。
Prompt: 幫我生成圖片:把人臉換成貓
結果整體瞅下來,表現還是相當不錯。不但保留了頭飾、衣服紋理的細節,小貓耳朵這塊也處理的很好,沒穿模,直接能拿去當微信頭像用了。
除了照片人像這些,物品啥的理論上會更容易,但是我們還得測,比方說汽車。
我們把一張大衆 CC 的照片傳上去,讓它給換成奔馳。
Prompt: 幫我生成圖片:車頭換成奔馳
結果也還行,前臉一套都改成了奔馳 C260 ,還是現款的,其他的像車身顔色,周圍的環境,也都沒變。
但遇上了多人物,複雜場景的情況下,豆包又會表現成啥樣呢?
就像劉華強買瓜這段,咱今天就把這個換成劉華強買炸雞和棉花。
結果效果還怪好嘞,瓜販子衣服上的圖案都一模一樣,所有的西瓜都改掉了,特聰明。
Prompt: 幫我生成圖片:把西瓜換成棉花和炸雞
還有一個重點是,如果同時給豆包不同的修改要求,它能不能全部完成。
就比如,西遊記裏的唐三藏,我想給改成戰地版唐三葬,給的提示一句話裏有三個指令,同時要完成戴墨鏡,拿機槍,換背景,三樣任務。
Emmm ,結果還是全部都完成了,效果也可以。墨鏡一戴誰也不愛,身處戰場手拿機槍,六根清淨貧鈾彈,一息三千六百轉,殺生爲護生,斬業非斬人,主打一個物理超度。
綜合來看的話,不止照片、視頻截圖,包括在制作梗圖表情包這一塊,豆包都能夠手到擒來,即便細節上還能發現可以提高的地方,但話又說回來,不怕人比人,就怕貨比貨嘛。
就目前來說,比起以前的文生圖模型,确實是高的不知道哪裏去了。
看到這可能有差友就要問了,世超鴿鴿,爲啥豆包這次突然就跟換了個媽媽生的一樣,比之前聰明了這麽多?
該說不說,這裏面确實有門道。
這麽說吧,我們以前用的文生圖模型,基本用的都是 Diffusion 技術,是先把圖片一步步變糊,然後反向分析怎麽從糊到清晰,從而産生新的圖像。
但問題是,在這個過程中,模型生成圖像是基于全局信息的,要想局部修改,不好意思,整體全都要重來,所以每次生成的都不一樣,也沒法在細節上再調整。
我們這兩年也測了不少文生圖模型,咋說呢,東西是沒問題,可以生成,但都沒法一模一樣的,準确還原出想象中那個樣子,就比如這種:
而那些 AI 藝術家們,搞出來的都是下面這種,細節拉滿,跟電影截圖似的。
是不是感覺跟人家用的都不是一個軟件?
圖源:Mac Baconai , "Al 的異星 cult 幻想之城 "
可要實現人家這種效果,提示詞弄的就得巨複雜,還要微調很久很久,甚至他們還編纂了專門的提示詞辭典。大夥要是沒訓練過這個,實際上就很難做好圖,更别說把自己的照片傳上去編輯了。
如果能像畫畫一樣,哪裏不對改哪裏,逐漸成型就好了。
而豆包這次更新的,正是這個方向。爲了實現圖片編輯的效果,豆包這次的文生圖采用的是 SeedEdit 模型。
相比隻是通過文字生成,這玩意更微操,它會把圖片的理解和生成融合到一個統一的大模型框架裏,從而在生成和編輯圖像的時候,可以事無巨細的參考咱傳上去的圖像,完事兒控制的就相對精準,而且出來的圖片也更自然。
打個比方,如果說以前的文生圖模型是無情潑墨畫匠, SeedEdit 就更像畫筆精巧,有創造力的畫家。實際我們上面用下來,可以說效果确實相當不錯。
實際上, SeedEdit 這樣的技術,目前行業内也剛開始用,能集成在 AI 助手裏的,豆包其實是第一家。
而像 AI 編輯圖片這種方向,現在早就已經是是圖片編輯行業的标配,各種修圖軟件、剪輯軟件甚至手機相冊裏都在做。
但是先不說效果,起碼現在其實大多數産品都還是要手動塗抹修改,或者自己在上面 P 圖,加配飾,不知道大夥怎麽覺得,我反正每次 P 背景,消除人物,都得花不少功夫。。。
至于 AI 直接出的圖嘛,咱上面也說了,跟抽卡似的,很難一次就有理想的圖,還沒法再二次修改。
這也就是爲啥咱開頭就說,由 AI 直接控制的編輯修改圖片,會是一個技術突破了。
換句話說,這個技術不僅改變的是 AI 文生圖,其他的照片修改、視頻剪輯啥的,基本全都能用得到。
到時候,直接跟語音助手說一聲給我出圖!AI 就幫你往你想的方向調整,美美當甲方,想想都爽。
撰文:納西