對國内 10 款免費 AI 文生圖工具 5 個梯度的進階體驗對比,哪款工具更得心應手?
作者 | 程茜
編輯 | 心緣
距離龍年春節隻剩 11 天了,你的新年頭像或紅包封面準備好了嗎? 如果還沒有,AI 繪畫工具可能是個 " 私人定制 " 的不錯選擇。
過去一年,AI 文生圖模型持續進化,不僅能熟練駕馭各路畫風,而且陸續解決畫不好手、搞不明白空間位置、不理解 " 紅燒獅子頭 " 等有歧義或抽象概念的種種難點。
國外 Midjourney、DALL · E 3、Imagen 2 雖好,但用起來有一定門檻。好在國内大模型企業們急追猛趕,發布了一大波适合中國人體質的 AI 繪圖工具,在易得性上甩開國外 AI 工具十條街。
這些工具通通可以免費體驗,通過網頁或 App 即可使用,在使用門檻上基本拉不開差距。拼生成速度吧,大緻每張圖片都能在半分鍾内生成,具體受網絡環境或浏覽器狀況的影響,做不到很客觀。
那麽誰才是國産 AI 文生圖工具的頭号玩家?誰才是輔助專業創作者提高效率、解救繪畫小白于水火之中的神器?回答這個問題,要考察兩個關鍵能力:理解到位,畫得精細。
爲此,我對國内10 款免費的 AI 文生圖工具進行了 5 個梯度進階的體驗對比,考題包括但不限于日常腦洞、網絡名梗、頭像設計、公司年會、春節氛圍、跨界組合、詩詞理解、多輪修改,來看看哪款工具更得心應手、更能秒懂用戶的心。
綜合來看,智譜 AI 的智譜清言是整體表現最穩定的一款 AI 文生圖工具,在 10 個考驗中基本都能生成符合我要求的圖像。
不過全員翻車的考題也不少,例如畫出來的鹦鹉爪子不僅奇形怪狀,數量也與真實不符;理解不了時下正熱的 " 南方小土豆 ",還把 " 拿着冰糖葫蘆 " 這一動作畫成了串在一起的土豆;把福字、春聯上的文字寫的像鬼畫符 ……
論文字理解能力,智譜清言、文心一言、訊飛星火、通義萬相、混元助手的表現更勝一籌。360 智繪、美圖 MiracleVision 則在面對第一道題的 " 阿拉斯加 " 時就出了岔子,莫名把阿拉斯加畫成一個男人 / 北極熊。
論畫面精細程度,智譜清言、通義萬相、文心一格生成的春節氛圍圖幾乎可以拿來即用;但畫出來的吉祥物,即使直接點名龍年背景,結果通義萬相、訊飛星火、抖音豆包的吉祥物形象可以說與傳統 " 龍 " 沒有關系。
論多輪修改的靠譜程度,文心一言是每一輪都堅持到最後的玩家,智譜清言都是忠于上一幅圖片修改,騰訊混元助手的表現則可圈可點,有的每一步需求都理解到位,有的卻加了一些奇怪元素。整體來看,多輪修改是畫圖、設計的必備技能,但基本所有的 AI 繪畫工具都無法做到。
爲了保證對比的公平,我在體驗每一個工具的生成能力時均以第一次生成圖片爲準,具體的對比如下:
01 .
青銅難度:1-2 個關鍵詞,鳥爪、網絡熱詞難拆解,訊飛、智譜 AI 表現亮眼
第一階段青銅難度的提示詞較爲簡單,這些提示裏包含的關鍵詞大多隻有 2 個,包含生成圖片中的主要角色,以及其這一角色的地理位置、行爲動作、圖片大小、圖片風格等其中之一個關鍵要素。
首先是 "一隻站在樓頂的阿拉斯加",主要包含對地理位置和阿拉斯加犬種的理解。
将兩個關鍵詞分拆來看,各個工具都通過周圍樓層的對比或者俯瞰來呈現 " 站在樓頂 "。大多數圖片也都突出了阿拉斯加大型犬、黑白配色、長毛等主要特征。
但是令我沒想到的是 " 阿拉斯加 " 這個常見犬種,竟然會有 AI 生成的形象完全與之不搭邊。美圖 MiracleVision 畫了一隻形似北極熊的動物站在了樓頂,360 智繪更離譜,畫了一個男人站在樓頂。
第二道題是生成 "一隻站在樹杈上的粉色鹦鹉",這一提示詞的關鍵詞主要包含地理位置、粉色、鹦鹉。這道題的難點在于鳥爪和人手一樣,都是困擾 AI 的一道難關,一些 AI 生成的鳥爪圖經常會出現形态扭曲、奇怪的情況。
果不其然,10 款 AI 繪畫工具全都翻車。鹦鹉腳趾爲對趾型足,兩趾向前,兩趾向後。但這些圖片中有的将腳趾隐藏在樹幹之後,有的即使畫出了腳趾但數量和位置也不對。
不過這些 AI 生圖都呈現了 " 站在樹杈上、粉色 " 的特點,也都能一眼看出是鹦鹉,但經不起細看。
當我放大圖片細細觀察時,通義萬相、訊飛星火、訊飛星火繪畫助手、美圖 MiracleVision 在鹦鹉眼睛的處理上也出了岔子,有的鹦鹉一側有兩隻眼睛、有的眼球很小完全失真。
第三道難題是 "一個拿着冰糖葫蘆的南方小土豆,‘南方小土豆’是東北人對遊客的昵稱",這一提示詞的主要難點在于理解 " 拿着冰糖葫蘆 " 和 " 南方小土豆是遊客 "。
從結果來看,有的圖片将土豆當成山楂串了起來,有的直接将一顆顆小土豆重新排列組合,還有的直接搬來了土豆的卡通形象。
其中獨樹一幟的當屬訊飛的兩款 AI 工具,充分理解了 " 小土豆是遊客 " 這一概念,我也終于在 10 張圖片中看到了真人形象。
但冰糖葫蘆全部翻車也是我沒想到的,隻有智譜清言的卡通形象在一根木棍上串着幾顆紅色果子,還稍微與冰糖葫蘆貼邊。
青銅挑戰的最後一道題是,"用青花瓷風格畫冷杉",對圖片風格進行了指定。
這一大難題的生成結果之間的差距較大,有将冷杉畫到青花瓷器具上、有将青花瓷花紋畫到冷杉上、還有使用青花瓷對應的線條顔色等直接呈現一幅畫。
前兩種雖然将青花瓷風格和冷杉這兩大元素相結合,但理解的仍然不夠準确。其中通義萬相、智譜清言、騰訊混元助手的圖片感覺甚至可以直接拿來用,其将青花瓷風格直接融入到了畫中。
不過,智譜清言的畫還有一個小 bug:将冷杉畫成了松樹。
02 .
白銀難度:關鍵詞數量翻倍
漢字、指定位置内容翻車多
白銀階段的提示詞難度上升,關鍵詞從 2 個增長到 5 個以上,并且需要對關鍵詞描述加以理解。
第一道題爲了契合即将到來的春節,讓 AI 繪畫工具生成了 "一張春節氛圍濃重的圖片,需要包含燈籠、春聯、福字",除了美圖 MiracleVision 外,其餘圖片都體現了熱鬧的春節氛圍。
爲了降低一點難度,方便我能快速在圖片中找到相應元素,這道題隻設置了 " 燈籠、春聯、福字 " 三個明确的關鍵詞,但最後的結果并不完美。
智譜清言、抖音豆包倒是完全保留了三個元素,但中文字符的呈現仍然是一大難題。智譜清言的圖片可以勉強看出 " 福 " 的輪廓,抖音豆包的春聯、福字則全是一堆亂碼。
其餘幾個工具生成的圖片中大多都隻包含其中的 1-2 個元素,而通義萬相、訊飛星火、訊飛星火繪畫助手、騰訊混元助手的春節氛圍十分濃厚,整個畫面看起來也很和諧。
第二道題的關鍵詞數量直接翻倍,包括 "餃子,美食,熱氣騰騰,色彩柔和,高飽和度,食物攝影,誘人,定焦,超清"。
起初我以爲這道難題的門檻會在後面一長串的限定詞呈現上,但沒想到直接從 " 餃子 " 就開始翻車。抖音豆包、訊飛星火、訊飛星火繪畫助手、通義萬相、智譜清言生成的圖片能看出是正宗餃子,其餘幾個已經直接 " 變異 " 爲包子。
第三道題中設置了一個難關,"一家公司開年會,在圖片的右上角位置,需要有年會主題的橫幅",需要在指定位置畫出年會的橫幅。
在體現氛圍這一塊,這些 AI 工具畫得都還不錯。不過,360 智繪、通義萬相、美圖 MiracleVision 的圖片并沒有理解 " 年會 " 的概念,而是直接省略了 " 年 " 字,生出了一張大家開會的圖片。
這道題裏我并沒有将放橫幅的位置指定十分精确,隻是模糊說了 " 右上角 "。從位置來看,抖音豆包、訊飛星火、訊飛星火繪畫助手有橫幅、主題,但都在畫面的正上方,智譜清言的圖片右上角可以明顯看到有橫幅、标語類元素。
白銀階段的最後一道難題是,"今年是龍年,爲春晚畫一幅宣傳海報,需要有吉祥物"。
春晚的吉祥物傳統由來已久,龍也是中國傳統文化的典型代表形象,AI 繪畫在這兩個元素的結合方面确實給出了一些更新的思路。有龍頭人身、小恐龍形象等等,還有一些甚至完全脫離了傳統意義的龍。
從最後的生圖效果來看,除了智譜清言的圖片有出現宣傳海報的邊框等,其餘大多都隻有一個吉祥物形象和背景。
03 .
黃金難度:想象力發散測試
" 魚躍龍門 " 幾乎難倒所有工具
黃金難度考驗的既是 AI 繪畫工具的想象力與創造力,還有對一些誤導性提示詞的分辨。
第一道題爲 "兩個機器人攜手登月的四格漫畫",四格漫畫想要考研 AI 繪畫工具能不能将四個有互相關聯的畫面呈現出來。
從結果來看,雖然單看圖片無法理解四格漫畫呈現的具體故事,但相似的角色以及角色動作、背景的改變都呈現出了其中的連貫性,其中的代表 AI 繪畫工具就是智譜清言、抖音豆包、美圖 MiracleVision。360 智繪生成的圖片雖然也呈現了四格漫畫,但更像是一個人類登月的故事。
其餘幾款工具則直接忽略了 " 四格漫畫 " 這一關鍵詞,隻體現了 " 兩個機器人攜手 " 登月。
第二道題更加無厘頭," 蒙娜麗莎來到中國應聘爲一名程序員",需要 AI 繪畫工具體現出蒙娜麗莎、中國、程序員三個元素。
文心一格、訊飛星火、訊飛星火繪畫助手直接将蒙娜麗莎的經典形象和電腦相結合,百度文心一言、360 智繪、阿裏雲通義萬相、智譜清言、混元助手則進行了完全再創作,前三個生成的圖片可能是爲了貼合中國這一元素,長相更像中國人。智譜清言的形象更貼近外國人形象,并且唯一将 " 應聘 " 體現出來的圖片,混元助手則自行采用了漫畫畫風。
抖音豆包、美圖 MiracleVision 直接将蒙娜麗莎的原形象搬到了圖片上,但調整了圖片背景,不過并不能讓我一眼看明白想體現的關鍵元素是什麽。
第三道題爲 AI 繪畫工具挖了一個大坑,"一隻叫做‘松鼠鳜魚’的魚成功躍龍門",需要 AI 避開 " 松鼠鳜魚 ",精準 get 到這不是重點。
" 松鼠鳜魚 " 這一難題還是騙過了 1/2 的 AI 工具,好在此前的 " 松鼠跪在一條魚前 " 的烏龍沒有再次出現。訊飛星火的圖片體現的是 " 魚躍門 ",智譜清言包含了 " 龍 " 和 " 門 "。美圖 MiracleVision 更爲簡單粗暴,直接用文字将這條魚的名字打在了正中間。
04 .
鉑金難度:字面直譯畫圖
古詩意境呈現相距較遠
最後鑽石難度,就是集中國古人智慧之大成的古詩理解環節。一般而言,古詩寥寥數語背後蘊含了與社會背景、人物古詩等都相關的意境等,所以既需要 AI 理解這句詩,還應該聯合古詩上下文。
爲了循序漸進,AI 繪畫工具一開始接收到的詩句都是畫面感很強,有突出的對象和環境描寫。
第一道題是 "牆角數枝梅,淩寒獨自開",單看句面意思拆解來看就是牆角、梅花、寒冷、開放這幾個關鍵詞。
除了另辟蹊徑的美圖 MiracleVision,其餘幾款工具都将 " 梅花 "、" 開 " 作爲畫面的主體。文心一言的畫作邊上還有詩句及印章,更符合古詩配圖的風格。文心一格、通義萬相、智譜清言、訊飛星火、訊飛星火繪畫助手、騰訊混元助手的畫面上都有雪花,體現了 " 淩寒 "。
智譜清言的梅花處于牆角,但從外觀看更像現代的牆壁,與古詩暗含的年代不相符。
第二道題的古詩 "黃河之水天上來,奔流到海不複回" 畫面感也很強,但與梅花不同,這句詩中的 " 黃河 " 有指定的對象。
美圖 MiracleVision 仍然直接了當将詩句放到了圖片正中間。抖音豆包、百度文心一言、百度文心一格、阿裏雲通義萬相的圖片對于黃河的呈現更爲真實,且體現出了 " 奔流到海 " 的氣勢。智譜清言、訊飛星火、訊飛星火繪畫助手更專注于呈現 " 黃 " 的元素。
360 智繪雖然能感受到黃河,但河面過于平靜,沒有奔流的氣勢。
最後一道題 "了卻君王天下事,赢得生前身後名" 的難度在于,畫面感不強,AI 無法直接從字面獲取到詩句的主要對象。
從 AI 繪畫工具生成的圖片可以看出,大多工具将 " 君王 " 作爲圖片的主體,通義萬相是一個大型宮殿,也從側面體現的是君王。不過文心一言和文心一格呈現出的是一個女性形象,與古詩的字面意思看起來毫無聯系。
美圖 MiracleVision 無法根據這一提示詞生成圖片。
當将 "醉裏挑燈看劍,夢回吹角連營。八百裏分麾下炙,五十弦翻塞外聲,沙場秋點兵。馬作的盧飛快,弓如霹靂弦驚。了卻君王天下事,赢得生前身後名。可憐白發生!" 整首詩作爲提示詞,AI 繪畫工具生成圖片更符合古詩本身的意境,都有征戰沙場的将軍形象。不過美圖 MiracleVision 仍然無法生成。
其中,智譜清言左下方還有詩句,更符合古詩配圖風格。360 智繪、阿裏雲通義萬相圖片中隻有一位将軍形象,無法體現出更宏大的場面。
05 .
鑽石難度:多輪對話反複修圖
僅文心一言堅持到底
每一個設計師的設計稿都有 N 個版本,所以想要讓 AI 畫出我滿意的圖片就需要反複提需求。
然而在這一環節隻剩三位競争對手:文心一言、智譜清言、騰訊混元助手。其餘幾款工具因爲不支持多輪對話等原因直接退賽。
第一道題還是延續了上文多個 AI 工具敗下陣來的春節氛圍圖的提示詞。
這回我變難纏了,對 AI 工具生成的圖片更加挑剔,在讓它們生成一張春節氛圍濃厚、包含燈籠、春聯、福字的圖片後,又不斷提出新的修改要求,包括" 畫面更寫實 "、" 人多一點 "、" 畫面裏還要有人在放鞭炮 "等。向所有 AI 工具都輸入的文字都完全一緻。
文心一言生成的四張圖中,除了對 " 寫實 " 這個詞理解不到位,其餘改進都很符合我的需求,并且可以看出下一幅圖基本沒有偏離上一幅的整體風格。
與文心一言相比,智譜清言的四張圖能明顯感受到是同一幅畫面的内容逐漸增多,不過也是在 " 寫實 " 這部分,後三張圖仍然爲卡通、動漫風格。
騰訊混元助手的四張圖可以用風格迥異來形容了,每一張都是在前面所有需求的基礎上進行再創造,不過對于 " 寫實 " 的理解,混元助手也更勝一籌,後三張明顯感覺更爲真實。然而,最後一張圖,混元助手卻将 " 放鞭炮 " 畫成了 " 放煙花 ",完全找不出鞭炮在哪兒。
第二道題也是前面衆多 AI 繪畫工具曾經化餃子爲包子的考題要求增加版。
在讓每個 AI 工具畫一張剛出爐的餃子照片後,我又陸續提出" 讓這盤餃子冒着熱氣 "、" 再多來幾盤餃子 "、" 旁邊再多幾盤菜 "、" 旁邊再坐一家人吃這些菜 "等修改要求。
一共五輪對話,一路堅持到最後的隻有文心一言,智譜清言在加幾盤菜環節落敗,告訴我它還沒有構思好,可以換其他需求,混元助手僅僅堅持到了讓餃子冒着熱氣,就回複 " 還未學習到如何回答這個問題的内容 "。
不過,乍看之下文心一言的前四張圖幾乎沒有差别,第四張圖雖然勉強可以看到餃子周圍多了幾個碗,但這些更像是蘸料碗。最後一張的氛圍倒是很對,但并沒有在此前的版本上修改,等于全都推翻重來。
智譜清言雖然僅有三張圖,但都按要求改了,不過還是和之前的問題一樣,最後餃子變包子。智譜清言生成的每一張圖下面還附帶了它對圖片的理解與解釋,比如第三張圖它有提到 " 中心是一盤冒着熱氣的剛出爐的餃子,周圍擺放着幾盤其他各種不同的中國菜肴。這些菜肴包括蔬菜、肉類和米飯,代表了一頓傳統的中國餐 "。這讓我能夠根據它對需求的理解去再次提出修改建議。
騰訊混元助手的兩張圖既把餃子變成了包子,還莫名其妙在中間放了一碟辣椒。
第三道題則更具迷惑性,我試圖讓 AI 搞懂狗和狗不理包子的關系。
我首先讓每個 AI 工具畫一桌天津狗不理包子,接着要求把圖改成" 一隻狗在吃狗不理包子 ",又讓它把狗的顔色換成黑色、把圖片換成漫畫風。
文心一言前兩輪表現很不錯,既有狗不理包子也有狗,但後兩張圖讓我大跌眼鏡,黑漆漆的包子屬實很罕見,并且第四張圖包子 " 露餡 " 了,有一種往燒麥生成的感覺。
智譜清言的四張圖,我每一張要求它修改的細節都涵蓋很到位,美中不足的是爲什麽包子會接連變成饅頭、漢堡包和一大塊面包?
騰訊混元助手直接在中間将狗放到了包子盤中,不過狗的顔色确實改變的很到位,後兩張圖的包子同樣變成了漢堡包。
06 .
結語:AI 繪畫工具對比
圖片氛圍感拉滿,遇到真實物體就歇菜
從我深度體驗國産 10 款 AI 繪畫工具的感受來看,AI 在一些氛圍感較強、沒有指明具體包含要素的圖片生成上表現較好,但一旦指定生成狗、包子、餃子等具體可以物體時,就會出現奇怪的圖片。不過當碰上春節氛圍或者青花瓷風格,這些需要 AI 自主創作更多的畫面時,它往往能帶給我驚喜,有些甚至可以拿來即用。
剛開始,AI 繪畫工具因爲對松鼠 " 跪 " 魚、車 / 水 / 馬 / 龍等的奇葩理解鬧出不少烏龍,但現在随着其圖像生成效果越來越逼真,對細節的刻畫也很細緻,我對這些工具的印象也大大改觀。
不過對于更資深的繪畫工作者而言,AI 在刻畫物體方面容易犯錯的問題十分緻命。當人們想要用 AI 來爲書籍配圖、宣傳海報生成圖片時,非資深人士很難發現 AI 生成的鳥爪、動物形象等是否符合客觀情況,海報上的文字、吉祥物形象如果不能被一下子看懂或者出現一些不符合常理的内容也會讓傳播效果大打折扣,因此這也是我希望 AI 繪畫工具下一步亟需改進的地方。