文|王怡甯
編輯|鄧詠儀
幾周前,Pika 1.0 帶着炫酷的官方宣傳視頻強勢出道,将所有人的目光吸引到了文生視頻賽道。
隻需輸入一段文字就能得到好萊塢電影質感的視頻,Pika 又一次豐富了人們對 AI 生成式内容的想象力,也把壓力給到了文生圖領域的 " 前輩 " 們。不過,就在上周,Google Deepmind 在時隔一年半後,帶着 Imagen 2 強勢回歸。除了更逼真的圖像呈現效果,功能上也有多重升級,讓文生圖賽道的戰局又變得有趣了一些。
珠玉在前,Imagen 2 一經發布就面臨網友們的靈魂拷問:" 你們的模型好在哪裏呢?"
△圖源:Twitter
理解力更強,告别 AI 六指人
先上結論,升級版的 Imagen 2 确實有點東西!以下是幾個關鍵看點:
1、使用自然語言生成高分辨率且更加逼真的圖像。
不妨先看看下面這張圖,是不是一張再普通不過的照片?
△圖源:Imagen 2
但如果告訴你,這其實是由 Imagen 2 生成的呢?
Prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile.
僅僅依靠以上這串提示詞,你就能用 Imagen 2 得到一張以假亂真的圖片,這已經非常直觀地展示了 Imagen 2 強調的高質量、高分辨率和逼真的特點。
和其他主流文生圖工具對比,Imagen 2 的表現也算相當出色。
尤其值得一提的是,Imagen 2 還解決了過去 AI 生成圖片處理不好人的手部和臉部細節的問題,這也意味着,用戶終于可以不用擔心看到離譜的 " 三手六指 " 人了。
這次,Imagen 2 甚至還更進一步,開始考慮用戶的審美偏好!
DeepMind 爲 Imagen 2 訓練了一個特殊的" 圖像美學模型 ",以人對光線、取景、曝光、清晰度等特質的偏好爲基準,爲每張圖片打分。也就是說,Imagen 2 現在更懂人類的審美了。
比如,用 " 花 " 作爲提示詞,基于人類的審美從左到右分數逐步提高。
以同樣一段出自《白鲸》的文字爲例,Midjourney 和 Meta AI 生成的内容不僅不太貼合人類的審美,還有些怪異。
Prompt: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure)
Imagen 2 和 DALL · E 3 表現更勝一籌,本質還是它們背靠的 Google 和 OpenAI 技術優勢顯著。拿 Imagen 2 來說,Google 爲這個新版本工具提供了内部最先進的文本到圖像擴散技術(text-to-image diffusion technology),這種技術讓 Imagen 2 不僅可以更準确地理解用戶提示詞的含義,也讓圖片質量又提升了一個層次。
此外,Imagen 2 給了用戶更多的自由空間去編輯他們的圖像,比如讓人眼前一亮修補(inpainting)功能,允許用戶在原始圖片中直接生成新的内容。
2、生成各類商标,還允許添加數字水印
Imagen 2 可以生成各類用于商業領域的 Logo,讓企業和品牌輕松實現商标自由。
當然,更重要的是安全問題,比如,加個水印。添加水印的功能并不特别,難點在于如何有水平地加水印。在這一點上,Imagen 2 爲用戶提供了一個完美的解決方案。
Imagen2 在設計中集成了 SynthID,這是一種用于加水印和識别 AI 生成内容的尖端工具包,這使得通過 Imagen 2 添加的數字水印肉眼無法察覺,且不會影響圖像質量。
△圖源:Google DeepMind
這種數字水印還非常 " 牢固 "。不論是加濾鏡、壓縮體積、更改亮度,還是删除部分内容,水印都仍然能被檢測到。
可以說,這項功能直擊企業客戶的痛點,對他們來說相當有價值。Google 在他們的官網展示了客戶之一,一家中國的知名設計和素材平台,對産品的評價,稱 Imagen 已經幫助他們生成了數以百萬計的圖像,還盡可能減少了版權方面的摩擦。
3、支持多語言文本渲染和視覺問答
Imagen 2 還提供文本渲染支持,又解決了以往文生圖的一個技術難點。例如,如果提示模型生成具有特定單詞或短語的對象圖片,那麽确保正确的短語是輸出圖像的一部分就很困難。
Image 2 就解決了這個問題,對于企業想要在圖片中露出正确的品牌信息尤其有幫助。
除了英語,Imagen2 預覽版還支持中文、印地語、日語、韓語、葡萄牙語、英語和西班牙語 6 種語言,多語言版本預計将在 2024 年年初發布。
One More Thing
從 Imagen 2 的實測表現來看,Google 在 Imagen 1 發布後的一年半裏确實在取得了不小的研究成果,大有在文生圖領域彎道超車的勢頭在。
當然,不同于被大衆稱作 " 競品 " 的 DALL · E 3 和 Midjourney,Imagen 2 隻是家大業大的 Google 業務中的一小部分。在過去的兩周内,Google 還發布了他們更重要的大模型産品 Gemini(顯然也是最核心的業務之一),和針對醫療行業進行微調的模型 MedLM。
就在上周末,Google 又推出了新的視覺語言模型 PixelLLM,逐詞定位功能讓人眼前一亮,不僅能夠對圖片内容作出準确描述,還能精确指出圖中每個詞彙所對應的位置,可以說是在 2023 年的末尾又狠狠地 " 卷 " 了一把同行們。
從上面的一系列動作來看,Google 更想做一個在 AI 領域 " 全面發展 " 的優等生。Imagen 2 的發布對于 Google 接下來 AI 業務的長遠發展有着不小的意義,它擁有的強大的文本理解能力、制作高分辨率圖片等能力有望在未來爲 Google 更多的業務提供底層的技術支持。
美中不足的是,Imagen 2 目前主要通過 Vertex AI 開放給 Google Cloud 的企業用戶,而非直接開放給個人用戶,此舉也被一部分網友批評開放範圍太小。
就在 Imagen 2 發布的同一天,文生圖賽道的另一家明星公司 Midjourney 也正式上線了 alpha 版本,通過設置右側滑塊一鍵調整圖片比例等功能提升了用戶友好度,不過這些小規模更新似乎沒有滿足用戶的期待。
不知道是否受了 Imagen 2 發布消息的影響,Midjourney 在 12 月 17 日宣布将在下周更新 V6 版本,距離上一個版本已經時隔半年。從目前流出的一些圖片來看,V6 處理複雜信息的能力有明顯提高,下周正式上線的版本值得期待,恐怕也免不了被拿來和 Imagen 2 一較高下。
比起文生視頻工具驚豔但還不太穩定的發揮,Imagen 2 的更新更像是 Google 在基礎的視覺語言處理方面邁出的紮實一步,讓 AI 學習人類審美來制圖,是一種頗有意義的探索和進步。
掃碼加入「智湧 AI 交流群」
歡迎交流