AI繪畫，爲何聽不懂人話？

圖片來源 @視覺中國

文｜深燃，作者 | 唐亞華，編輯 | 黎明

2023 年的 AI 繪畫領域是由兩家公司的動态引爆的。

3 月 17 日百度發布文心一言，網友們瘋狂發散想象力，令人捧腹的圖片接連被生成。關于文心一言文字生成圖片的讨論熱情空前高漲。

緊接着，3 月 18 日，美國 Midjourney 公司宣布第五版 AI 圖像生成服務，即 MidjourneyV5。本來就處在行業領先水平的 Midjourney，這一次版本更新真正讓 AI 繪畫圈沸騰了。因爲 MidjourneyV5 生成的圖片堪稱驚豔。

兩個系統幾乎同時發布，免不了被對比。深燃體驗後發現，文心一言的圖片生成功能，能夠識别簡單元素、文本沒有歧義的人或事物，但涉及到成語、專有名詞，以及字面意思和實際意義不同的表述，它就會跑偏。Midjourney 在這方面幾乎沒什麽問題。另外，Midjourney 接收到的提示詞（prompt）越詳細精準，生成的圖片越符合要求，但文心一言需求越多，系統越容易出錯。

調侃背後，AI 生成圖片其實不是一件簡單的事情，需要在數據、算法、算力等方面綜合發力，既對技術和硬件有高要求，還對數據采集和标注等苦活累活高度依賴。文心一言的 AI 繪圖功能與 Midjourney 在以上三方面都有不小的差距。

百度方面公開表示，" 大家也會從接下來文生圖能力的快速調優叠代，看到百度的自研實力。文心一言正在大家的使用過程中不斷學習和成長，請大家給自研技術和産品一點信心和時間。" 從業者預估，文心一言全力追趕，用一年左右的時間有希望達到國外 80% 以上的水平。

AI 繪圖這個戰場，槍聲已經打響，追逐賽、排位賽都将一輪輪上演。

搞不定成語和專有名詞，提示詞越多 AI 越廢

文心一言最近接受的最大考驗，莫過于畫一幅中餐菜名圖。在網友們的熱情創作下，驢肉火燒、紅燒獅子頭等菜品出來的畫做一個比一個離譜，車水馬龍的街道、虎頭虎腦的大胖小子，同樣驚掉了大家的下巴。

網民熱心找 bug，百度程序員應該也在背後發力，深燃測試發現，以上内容均已更新爲可以正确顯示對應圖片。不過，像娃娃菜、臉盆、虎皮雞蛋、三杯雞，還有胸有成竹的男人、虎背熊腰的男人，文心一言仍然給出的是字面直譯後的圖片，畫風一言難盡。

即便輸入提示詞時強調 " 畫一個衛浴器材水龍頭 "，文心一言畫出的仍然是水中龍的頭像；當深燃輸入 " 畫一個風姿綽約的人 " 時，系統畫出的是一位男士，顯然 AI 沒能理解風姿綽約形容的是女人。

程序員改 bug 的速度比不上網友找漏洞的速度。很快又有人發現，文心一言畫圖時有把提示詞中譯英之後根據英文意思生成圖片的可能性，據此有人推測百度可能用國外的作圖産品接口，套了一個自己的殼。

深燃也驗證了一下某用戶的測試。比如輸入 " 水瓜 "，畫出的是西瓜，這也對應西瓜的英文單詞 Watermelon；要求畫樹葉、封面、蘋果，畫出的圖是樹葉覆蓋蘋果，顯然系統是把封面翻譯成了 Cover，這個單詞也有覆蓋的意思；畫 " 土耳其張開翅膀 "，出現的畫面是張開翅膀的火雞，我們都知道，Turkey 是土耳其，也是火雞。

對此，百度對外回應稱，文心一言完全是百度自研的大語言模型，文生圖能力來自文心跨模态大模型 ERNIE-ViLG。" 在大模型訓練中，我們使用的是全球互聯網公開數據，符合行業慣例。"

亞洲視覺科技研發總監陳經也在接受媒體采訪時表示，" 百度的畫圖 AI 采用了英文标注的開源圖片素材進行訓練，因此需要中翻英來當 prompt（提示詞）。目前，全球 AI 研發有開源的傳統，特别是訓練數據庫，不然收集圖片效率太低了。"

深燃體驗後還發現，文心一言在單個需求描述時表現尚可，比如畫一幅憤怒的小孩、開心的農民、一隻很餓的流量貓，但一幅圖一旦提出多個作圖需求，AI 就有點懵。

比如請文心一言 " 生成一幅畫，在一個下雨天，小紅在植樹，小王在看書 "，系統生成的圖片裏隻有背靠樹看書的一個人；還有，" 畫一幅畫，裏面有大笑的年輕人、哭泣的小孩、愁容滿面的老人 "，系統把哭泣和愁容滿面等表情集合在了一張臉上，畫出了一個小孩和老人的結合體。如下圖所示，還有一些類似的情況，系統同樣沒能準确完成給

深燃又把上述提示詞輸入到 MidjourneyV4 測試了一下，如下圖所示，即使是 V4 版本，表現也遠高出文心一言。MidjourneyV4 基本能理解句子中的意思，做出的圖幾乎可以包含所有的要素。

深燃還測試了 AI 繪畫領域一直以來難以攻克的畫手指難的問題。在這方面，文心一言也沒能經受住考驗。比如 " 畫一位 30 歲的女士，雙手豎起大拇指 "，文心一言生成的圖片大拇指是豎起來了，但是其中一隻手有 7 根手指；輸入 " 畫一個人，兩隻手做點贊姿勢 " 時，系統也無法實現這一手部姿勢。

Midjourney 此前的版本同樣存在手指誤差的問題，最新發布的 V5 版本，已經能夠正确畫出五根手指，雖然有人依舊指出其繪出的大拇指有點長，但相比以往已經有不小的進步。有從業者評價："Midjourney 的此前版本就像是近視患者沒有戴上眼鏡，而 MidjourneyV5 就是戴上眼鏡後的清晰效果，4K 細節拉滿 "。

比如 MidjourneyV5 畫出的《三體》角色圖，效果被網友評價爲幾乎要 " 成精了 "。而文心一言畫《三體》角色時，系統全然不顧描述裏提到的留着黑色短發、戴着眼鏡的要求，畫出了一個紮着發髻，不戴眼鏡，古風穿着的男士。

最近 MidjourneyV5 畫的一對情侶的圖片掀起了業内一陣驚呼。作圖的提示詞是：" 一對年輕的情侶穿着牛仔褲和夾克坐在樓頂上 "，背景分别是 2000 年和 2023 年的北京。最後出圖的效果大大超出很多人的想象。深燃把類似表述輸入文心一言時，系統直接給出了毫不相關的圖片。

對比來看，Midjourney 作圖已經在細節上幾近完美了，文心一言還處在難以準确分辨字面意思和實際意思的初級階段。Midjourney 提示詞描述越詳細，生成的圖片越精準，文心一言能理解的文字長度有限，過多描述會讓它直接報錯或者胡亂生成圖片。

AI 文生圖到底有多難？

按出現時間來算，AI 繪畫算是 AI 領域的新事物。

公開報道顯示，2021 年 1 月，OpenAI 發布了兩個連接文本與圖像的神經網絡：DALL・E 和 CLIP。DALL・E 可以基于文本直接生成圖像，CLIP 能夠完成圖像與文本類别的匹配。DALL・E 是基于 GPT-3 的 120 億參數版本實現的。

随後在 2022 年，DALL · E 2、Stable Diffusion 等文生圖底層大模型發布，帶動了應用層的發展，出現了一大批爆款産品，包括 Midjourney。2022 年也被認爲是 "AI 繪畫元年"。

StabilityAI 的 Stable Diffusion 是一個開源模型，很多開發者基于這個模型開發訓練出了更多不同的生成模型。國内很多科技公司的 AI 繪畫項目也是由 Stable Diffusion 提供技術支撐。Midjourney 是付費訂閱的，公開信息顯示，Midjourney 每年的收入可能達到 1 億美元左右。另外，有 AI 繪圖業務的還有 Google、Meta 等公司。百度的文心一言和此前就發布的文心一格算是國内最早的具備 AI 繪畫功能的大模型。

文心一言的發布和升級了的 MidjourneyV5 更是将 AI 繪畫行業推向高潮。這一次叠代是 Midjourney 自去年推出以來最大的更新，Midjourney 也成了目前市面上最先進的 AI 圖像生成器之一。

熱度還在繼續。最近，行業内又有一系列企業跟進推出 AI 繪畫功能。3 月 21 日，微軟宣布，必應搜索引擎接入了 OpenAI 的 DALL · E 模型，将 AI 圖像生成功能引入新版必應和 Edge 浏覽器，免費開放。就在同一天，Adobe 發布 AI 模型 Firefly，支持用文字生成圖像、藝術字體。

可以說，2023 年，AI 繪畫行業迎來了真正的大爆發。

調侃文心一言之餘，客觀來說，AI 生成圖片本身就不是一件容易實現的事情。系統的語義理解能力、充分的數據标注、細節處理、用戶的提示詞選擇，都在 AI 作圖中起着重要作用。

AI 領域資深從業者郭威告訴深燃，之前 AI 生成圖片隻需要确認風格、物品等，用 GAN（生成式對抗網絡）生成圖片。文心一言和 Midjourney 這一代模型的做法是先理解自然語義，再生成圖片。把自然語言輸入到系統裏，AI 對語義的理解和人類的理解不可避免會有偏差。

"更大的難點，還是标注數據。語義比詞組的空間更大，需要大量數據，而且标注難度和成本更高。" 郭威說。

很多人以爲，系統生成圖片有誤時，後台改一個标注就能矯正系統了。比如生成 " 驢肉火燒 " 出了錯，隻是告訴系統這是一道菜，而不是一頭驢就行了，但這種方式隻是一對一修改而沒有一層層訓練，修正了單個錯誤，并不會增強系統的理解能力，治标不治本。

也就是說，即便是有大量開源的全球數據庫圖片可以用，國内的系統在中文提示詞與英文素材對應方面還需要做大量工作。

另外，AI 生成的圖片極難完善眼睛、手、腳等部位細節。一直以來，行業内就有 "AI 不會畫手 " 的說法，很多人判斷是不是 AI 作圖，就看圖片中的手畫得怎麽樣。" 因爲深度學習神經網絡沒有足夠的數據學習手指與手指之間的架構邏輯，加上手指關節間特征屬于細小顆粒度，生成的手容易出錯。" 資深 AloT 算法從業者連路詩說。目前除了 MidjourneyV5，其他 AI 作圖産品細節方面的問題還沒有完全解決。

到了最終生成圖片環節，用戶選擇用什麽提示詞（prompt）和風格（style）來生成想要的圖片也很重要，新用戶往往不得方法，很難找到精準的提示詞或足夠契合的風格。

此外，目前的 AI 繪圖産品還存在一些共同的挑戰。

連路詩提到，一方面是時效性不夠，目前 AI 繪畫知識庫的更新、數據的引入不完全是實時的，如果加入實時性數據，需要巨大的成本；另一方面，目前各系統對數據過濾的嚴謹程度不一樣，有的設置了相對嚴格的禁用詞，有的沒有，法律或道德邊界不清。

還有一個是 AI 繪圖帶來的版權問題。目前行業内大部分企業不對外宣布自己用來訓練 AI 的圖片來源，這樣的 AI 生成圖片商用時，可能存在未知的法律風險。且目前 AI 作的圖也不受版權保護。

多久才能追上？

行業共性問題之外，根據多位從業者的說法，在數據、算法、算力三方面，文心一言都跟 Midjourney 差距不小。

數據方面，文心一言數據的數量和質量都需要提升。

連路詩解釋，NLP（即 natural language process，自然語言處理）分成幾個過程，第一步是自然語言理解，比如，實體識别，系統會根據專屬名詞生成自己的理解；接下來是自然語言生成，包括生成文字和圖片。大多數問題出在對自然語言的理解不準确，這時候就需要人工對句子進行數據處理、參數調整等。

" 中文本身難在字與字之間沒有間距，人工分詞一方面要隔開字詞的間距，同時要界定動詞、名詞等詞性，還要标注主語、謂語、賓語，以及是否爲常用詞等 "，連路詩補充，" 分詞需要龐大的人力投入，一般一個小組至少需要 5000 人。AI 公司通常把這一需求外包給人力成本較低的省份的公司，另外，AI 生成圖片的結果也需要人類的反饋增強學習。"

基礎标注工作做好之後，系統會将這些詞轉成向量進行計算，向量越不準确，生成的結果越模糊。" 目前百度可能做了一部分工作，但還沒達到能準确理解大部分語義的程度，可以判定爲不及格。" 連路詩說。

陳經也提到，大模型需要的數據庫裏的 " 圖片是要标注的，這更加大了收集整理圖片的難度。當前也有中文标準的訓練數據，但是少很多。由于發布時間倉促，百度對于畫圖 AI 的中文輸入詞還沒完全搞定，後續應該會根據用戶反饋，把中文的提示詞與英文的訓練素材更好的對應上。"

第二大差距是算法。

算法方面，各公司在底層大模型的使用層數上有差别。連路詩認爲，以文心一言目前在算法方面的表現來看，有可能與 Midjourney 等模型的深度神經網絡的層數有十倍左右的差距。

"AI 生成圖片不準确還有一種可能性，該系統的底層架構不是深度神經網絡，也沒有根據底層 Vector（向量）一點點像素級生成圖片，而是系統先用搜索引擎匹配知識圖譜，再生成圖像，也可以理解爲拼湊貼圖。神經網絡在對圖片進行計算的時候，本來就有圖片的旋轉、切割、拼湊，這樣的系統生成的圖片有可能是顆粒度很粗的片狀圖片拼湊出來的。" 連路詩做了這樣的推測。不過，文心一言屬于哪種技術還不清楚。

第三，算力上的差距。OpenAI 号稱自己的模型是千億規模參數，也就是每次計算的時候擁有 1000 張以上顯卡分布式計算的算力。百度與國外幾家主要科技企業的算力差距同樣不小。

當然，百度和 Midjourney 目前的發展程度不一，與其發展階段也有關系。

Midjourney 于 2022 年 3 月首次面世，目前已經叠代到了第五代。百度文心一言所具備的 AI 作圖功能，即文心一格，雖然在 2022 年 8 月就推出了，但目前沒有看到相關的升級叠代信息。而在 AI 領域，變化幾乎是以天爲單位的。

國内 AI 繪圖多久能趕上國際水平？郭威對此比較樂觀。在他看來，" 數據方面雖然有差異，但最多也隻有半年左右的差距，中文類的數據國内比國外更多，拼命補一下能趕上。"

至于算法差異，他表示，OpenAI 等幾家機構比 Google、Facebook、百度等高出半年到一年的水平，之前因爲不确定性大，各企業沒有重點布局，現在驗證這條路是有前途的，針對性追趕，很快也能趕上。雖然 OpenAI 沒開源，但從 OpenAI 出來的一些人很快也會把技術思路共享到小圈子裏，頭部公司很容易跟進。

" 算力的差距就很難彌補了，短期内難追上去，但是用一年多時間把國内系統做到國外 80 分或 90 分以上的程度是可能的。" 郭威說。

無論如何，接下來，AI 繪畫将會走到舞台中央大放異彩是确定的事實，對各公司來說，拼的是速度。行業規則是公開的，所有選手都在往前跑，這時候，競争是最大的動力，拿結果說話才是硬道理。

* 應受訪者要求，文中郭威爲化名。

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App