用完這次更新的豆包，我想把PS卸了。

有一說一，前幾天就已經立冬了，眼瞅着又快到年底了現在。

擱往年的情況，到了年底這才到各大廠商紛紛發力的時候，年關将近嘛，總得搞出點啥新東西，給大家漲漲眼界。

雖然說最近關于 AI 的新消息不是很多，但是人家這段時間肯定也沒閑着，這不，一個多月前，也就是 925 那天我們才跟大家說了豆包的視頻生成，這兩天，豆包又又又上新了新功能。

簡單來說，這回豆包支持 " 一句話編輯修改圖片 " 了。

雖然文生圖已經搞了兩三年，但這回，我敢說真算是國産 AI 文生圖裏的新突破了。

可能不少差友還覺得， AI 生圖不是已經挺厲害的了嘛，怎麽還不能修改圖片？

實際上，我們這幾年也測了不少文生圖大模型了，支持圖片精确修改的還真沒有，目前做的最好的真就是豆包。

就比如說 ChatGPT-4o ，你讓他畫個打籃球的人還可以，但是你要想改動一下，把環境換成沙灘，不好意思，整張圖都變了。

不止 OpenAI 的不行，谷歌的 Gemini 也一樣。

本來說讓它把圖中的雞變成鳄魚，結果不僅沒變成，還把背景給全改了，兩次的籃球也完全不一樣。

拿 AI 自己生的圖搞都這樣，更别說本地上傳的照片了。

就拿最簡單的給圖像換顔色來說，即使在豆包以前的版本裏，這種效果也不理想。

比如我們直接把 925 活動裏，給脖子哥拍的照片傳上去，然後告訴豆包，你給我把脖子哥抱着的小白狗換成小黃。

結果就是，整張圖都變了，風格大變就算了，構圖也不一樣。

但是現在，這回用上這個上新了的豆包，同樣的照片同樣的提示詞，你再看看：

滑動查看 AI 效果

雖然有一點點小瑕疵，但要跟前面的一比，是不是高下立判！

不但保留了脖子哥的動作，表情，小狗的形狀也跟上傳的圖差不多，說換成黃色就換黃色，一點不含糊。

再來試試圖像消除，效果也不錯。

Prompt: 幫我生成圖片：消除白色小狗

發現沒，這個文生圖變得智能了，它能識别出照片裏的内容，你想修改啥他就隻改啥，哪裏不對改哪裏， so eazy!

而且不僅能做到識别，修改顔色，消除物品這些基本功能，你想整點複雜的也一樣可以。

比如更換圖片的背景。

我們把差評硬件部視頻裏，米羅的照片傳上去，然後叫豆包把我們的拍攝間背景改成上海陸家嘴。

Prompt: 幫我生成圖片：背景換成陸家嘴

哎嘿！還真就換成了，紙張的折痕還都一點沒變。

你甚至可以分得清背景裏，哪個是 " 開瓶器 " 環球金融中心；哪個是 " 注射器 " 金茂大廈；哪個是 " 打蛋器 " 上海中心大廈，陸家嘴三件套安排的明明白白。不知道的故意第一眼看去，還真以爲我們公司搬到浦東了。

除了這些現實中存在的場景，科幻作品中想象的東西，這回豆包也能夠生成。

我們讓豆包把米羅改造成戰錘 40K 風格，結果也是相當的 amazing 啊，雖然換了個人種，但是五官還算依稀能看出米羅的影子，要是戴上頭盔，真就跟星際戰士一樣了。

Prompt: 幫我生成圖片：衣服換成戰錘 40K 裝甲，手拿激光炮

更重要的是，雖然人物的着裝和風格變了，但圖片前面的桌子，跟背景的牆壁、窗簾、挂畫可都是一點沒動。

就這個效果，你要不跟别人說，誰知道這到底是 AI 生成還是 PS ，一眼望去是真分不清。

不過，在人物測試中我們還發現，如果你拿AI 生成的圖進行修改，效果比用照片還要強上不少。

你比如就說，我們先生成一張屏幕前各位彥祖的日系寫真，然後告訴豆包，把彥祖的襯衣換換顔色。

Prompt: 幫我生成圖片：衣服顔色換成棕色

你瞅瞅，臉部的細節，頭發的細節，甚至背後牆磚上的紋理，遠處的電線杆子，都一點沒動，說換裝就換裝，那叫一個幹淨利落。

當然了，用人像演示還是爲了測試它在人臉細節上的把握能力，畢竟人臉這玩意，一但生成的不好，就會産生恐怖歡樂谷效應，一眼盯真的事。

戴珍珠耳環的少女都見過吧，世界名畫，我們讓豆包給你把人臉換成貓臉版本，來看看它對跨物種的面部融合做的咋樣。

Prompt: 幫我生成圖片：把人臉換成貓

結果整體瞅下來，表現還是相當不錯。不但保留了頭飾、衣服紋理的細節，小貓耳朵這塊也處理的很好，沒穿模，直接能拿去當微信頭像用了。

除了照片人像這些，物品啥的理論上會更容易，但是我們還得測，比方說汽車。

我們把一張大衆 CC 的照片傳上去，讓它給換成奔馳。

Prompt: 幫我生成圖片：車頭換成奔馳

結果也還行，前臉一套都改成了奔馳 C260 ，還是現款的，其他的像車身顔色，周圍的環境，也都沒變。

但遇上了多人物，複雜場景的情況下，豆包又會表現成啥樣呢？

就像劉華強買瓜這段，咱今天就把這個換成劉華強買炸雞和棉花。

結果效果還怪好嘞，瓜販子衣服上的圖案都一模一樣，所有的西瓜都改掉了，特聰明。

Prompt: 幫我生成圖片：把西瓜換成棉花和炸雞

還有一個重點是，如果同時給豆包不同的修改要求，它能不能全部完成。

就比如，西遊記裏的唐三藏，我想給改成戰地版唐三葬，給的提示一句話裏有三個指令，同時要完成戴墨鏡，拿機槍，換背景，三樣任務。

Emmm ，結果還是全部都完成了，效果也可以。墨鏡一戴誰也不愛，身處戰場手拿機槍，六根清淨貧鈾彈，一息三千六百轉，殺生爲護生，斬業非斬人，主打一個物理超度。

綜合來看的話，不止照片、視頻截圖，包括在制作梗圖表情包這一塊，豆包都能夠手到擒來，即便細節上還能發現可以提高的地方，但話又說回來，不怕人比人，就怕貨比貨嘛。

就目前來說，比起以前的文生圖模型，确實是高的不知道哪裏去了。

看到這可能有差友就要問了，世超鴿鴿，爲啥豆包這次突然就跟換了個媽媽生的一樣，比之前聰明了這麽多？

該說不說，這裏面确實有門道。

這麽說吧，我們以前用的文生圖模型，基本用的都是 Diffusion 技術，是先把圖片一步步變糊，然後反向分析怎麽從糊到清晰，從而産生新的圖像。

但問題是，在這個過程中，模型生成圖像是基于全局信息的，要想局部修改，不好意思，整體全都要重來，所以每次生成的都不一樣，也沒法在細節上再調整。

我們這兩年也測了不少文生圖模型，咋說呢，東西是沒問題，可以生成，但都沒法一模一樣的，準确還原出想象中那個樣子，就比如這種：

而那些 AI 藝術家們，搞出來的都是下面這種，細節拉滿，跟電影截圖似的。

是不是感覺跟人家用的都不是一個軟件？

圖源：Mac Baconai ， "Al 的異星 cult 幻想之城 "

可要實現人家這種效果，提示詞弄的就得巨複雜，還要微調很久很久，甚至他們還編纂了專門的提示詞辭典。大夥要是沒訓練過這個，實際上就很難做好圖，更别說把自己的照片傳上去編輯了。

如果能像畫畫一樣，哪裏不對改哪裏，逐漸成型就好了。

而豆包這次更新的，正是這個方向。爲了實現圖片編輯的效果，豆包這次的文生圖采用的是 SeedEdit 模型。

相比隻是通過文字生成，這玩意更微操，它會把圖片的理解和生成融合到一個統一的大模型框架裏，從而在生成和編輯圖像的時候，可以事無巨細的參考咱傳上去的圖像，完事兒控制的就相對精準，而且出來的圖片也更自然。

打個比方，如果說以前的文生圖模型是無情潑墨畫匠， SeedEdit 就更像畫筆精巧，有創造力的畫家。實際我們上面用下來，可以說效果确實相當不錯。

實際上， SeedEdit 這樣的技術，目前行業内也剛開始用，能集成在 AI 助手裏的，豆包其實是第一家。

而像 AI 編輯圖片這種方向，現在早就已經是是圖片編輯行業的标配，各種修圖軟件、剪輯軟件甚至手機相冊裏都在做。

但是先不說效果，起碼現在其實大多數産品都還是要手動塗抹修改，或者自己在上面 P 圖，加配飾，不知道大夥怎麽覺得，我反正每次 P 背景，消除人物，都得花不少功夫。。。

至于 AI 直接出的圖嘛，咱上面也說了，跟抽卡似的，很難一次就有理想的圖，還沒法再二次修改。

這也就是爲啥咱開頭就說，由 AI 直接控制的編輯修改圖片，會是一個技術突破了。

換句話說，這個技術不僅改變的是 AI 文生圖，其他的照片修改、視頻剪輯啥的，基本全都能用得到。

到時候，直接跟語音助手說一聲給我出圖！AI 就幫你往你想的方向調整，美美當甲方，想想都爽。

撰文：納西