Google發布Imagen 2，解決經典六指人問題，AI文生圖卷起來了

文｜王怡甯

編輯｜鄧詠儀

幾周前，Pika 1.0 帶着炫酷的官方宣傳視頻強勢出道，将所有人的目光吸引到了文生視頻賽道。

隻需輸入一段文字就能得到好萊塢電影質感的視頻，Pika 又一次豐富了人們對 AI 生成式内容的想象力，也把壓力給到了文生圖領域的 " 前輩 " 們。不過，就在上周，Google Deepmind 在時隔一年半後，帶着 Imagen 2 強勢回歸。除了更逼真的圖像呈現效果，功能上也有多重升級，讓文生圖賽道的戰局又變得有趣了一些。

珠玉在前，Imagen 2 一經發布就面臨網友們的靈魂拷問：" 你們的模型好在哪裏呢？"

△圖源：Twitter

理解力更強，告别 AI 六指人

先上結論，升級版的 Imagen 2 确實有點東西！以下是幾個關鍵看點：

1、使用自然語言生成高分辨率且更加逼真的圖像。

不妨先看看下面這張圖，是不是一張再普通不過的照片？

△圖源：Imagen 2

但如果告訴你，這其實是由 Imagen 2 生成的呢？

Prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile.

僅僅依靠以上這串提示詞，你就能用 Imagen 2 得到一張以假亂真的圖片，這已經非常直觀地展示了 Imagen 2 強調的高質量、高分辨率和逼真的特點。

和其他主流文生圖工具對比，Imagen 2 的表現也算相當出色。

尤其值得一提的是，Imagen 2 還解決了過去 AI 生成圖片處理不好人的手部和臉部細節的問題，這也意味着，用戶終于可以不用擔心看到離譜的 " 三手六指 " 人了。

這次，Imagen 2 甚至還更進一步，開始考慮用戶的審美偏好！

DeepMind 爲 Imagen 2 訓練了一個特殊的" 圖像美學模型 "，以人對光線、取景、曝光、清晰度等特質的偏好爲基準，爲每張圖片打分。也就是說，Imagen 2 現在更懂人類的審美了。

比如，用 " 花 " 作爲提示詞，基于人類的審美從左到右分數逐步提高。

以同樣一段出自《白鲸》的文字爲例，Midjourney 和 Meta AI 生成的内容不僅不太貼合人類的審美，還有些怪異。

Prompt: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure）

Imagen 2 和 DALL · E 3 表現更勝一籌，本質還是它們背靠的 Google 和 OpenAI 技術優勢顯著。拿 Imagen 2 來說，Google 爲這個新版本工具提供了内部最先進的文本到圖像擴散技術（text-to-image diffusion technology），這種技術讓 Imagen 2 不僅可以更準确地理解用戶提示詞的含義，也讓圖片質量又提升了一個層次。

此外，Imagen 2 給了用戶更多的自由空間去編輯他們的圖像，比如讓人眼前一亮修補（inpainting）功能，允許用戶在原始圖片中直接生成新的内容。

2、生成各類商标，還允許添加數字水印

Imagen 2 可以生成各類用于商業領域的 Logo，讓企業和品牌輕松實現商标自由。

當然，更重要的是安全問題，比如，加個水印。添加水印的功能并不特别，難點在于如何有水平地加水印。在這一點上，Imagen 2 爲用戶提供了一個完美的解決方案。

Imagen2 在設計中集成了 SynthID，這是一種用于加水印和識别 AI 生成内容的尖端工具包，這使得通過 Imagen 2 添加的數字水印肉眼無法察覺，且不會影響圖像質量。

△圖源：Google DeepMind

這種數字水印還非常 " 牢固 "。不論是加濾鏡、壓縮體積、更改亮度，還是删除部分内容，水印都仍然能被檢測到。

可以說，這項功能直擊企業客戶的痛點，對他們來說相當有價值。Google 在他們的官網展示了客戶之一，一家中國的知名設計和素材平台，對産品的評價，稱 Imagen 已經幫助他們生成了數以百萬計的圖像，還盡可能減少了版權方面的摩擦。

3、支持多語言文本渲染和視覺問答

Imagen 2 還提供文本渲染支持，又解決了以往文生圖的一個技術難點。例如，如果提示模型生成具有特定單詞或短語的對象圖片，那麽确保正确的短語是輸出圖像的一部分就很困難。

Image 2 就解決了這個問題，對于企業想要在圖片中露出正确的品牌信息尤其有幫助。

除了英語，Imagen2 預覽版還支持中文、印地語、日語、韓語、葡萄牙語、英語和西班牙語 6 種語言，多語言版本預計将在 2024 年年初發布。

One More Thing

從 Imagen 2 的實測表現來看，Google 在 Imagen 1 發布後的一年半裏确實在取得了不小的研究成果，大有在文生圖領域彎道超車的勢頭在。

當然，不同于被大衆稱作 " 競品 " 的 DALL · E 3 和 Midjourney，Imagen 2 隻是家大業大的 Google 業務中的一小部分。在過去的兩周内，Google 還發布了他們更重要的大模型産品 Gemini（顯然也是最核心的業務之一），和針對醫療行業進行微調的模型 MedLM。

就在上周末，Google 又推出了新的視覺語言模型 PixelLLM，逐詞定位功能讓人眼前一亮，不僅能夠對圖片内容作出準确描述，還能精确指出圖中每個詞彙所對應的位置，可以說是在 2023 年的末尾又狠狠地 " 卷 " 了一把同行們。

從上面的一系列動作來看，Google 更想做一個在 AI 領域 " 全面發展 " 的優等生。Imagen 2 的發布對于 Google 接下來 AI 業務的長遠發展有着不小的意義，它擁有的強大的文本理解能力、制作高分辨率圖片等能力有望在未來爲 Google 更多的業務提供底層的技術支持。

美中不足的是，Imagen 2 目前主要通過 Vertex AI 開放給 Google Cloud 的企業用戶，而非直接開放給個人用戶，此舉也被一部分網友批評開放範圍太小。

就在 Imagen 2 發布的同一天，文生圖賽道的另一家明星公司 Midjourney 也正式上線了 alpha 版本，通過設置右側滑塊一鍵調整圖片比例等功能提升了用戶友好度，不過這些小規模更新似乎沒有滿足用戶的期待。

不知道是否受了 Imagen 2 發布消息的影響，Midjourney 在 12 月 17 日宣布将在下周更新 V6 版本，距離上一個版本已經時隔半年。從目前流出的一些圖片來看，V6 處理複雜信息的能力有明顯提高，下周正式上線的版本值得期待，恐怕也免不了被拿來和 Imagen 2 一較高下。

比起文生視頻工具驚豔但還不太穩定的發揮，Imagen 2 的更新更像是 Google 在基礎的視覺語言處理方面邁出的紮實一步，讓 AI 學習人類審美來制圖，是一種頗有意義的探索和進步。

掃碼加入「智湧 AI 交流群」

歡迎交流