很快啊,Stable Diffusion又被發掘新用途了——
設計 LOGO 最關鍵的 " 形意結合 ",被它拿捏得明明白白。看見 Cat 秒畫貓貓頭:
瑜伽店 YOGA 幾個字母用人體形态一轉換,風格完全不出錯:
隻設計其中一個字也沒問題,例如将 Dog 的 D 畫成一個狗子:
屬實簡潔又傳神了有木有!
哪怕是面對中文字體,AI 也能很好地理解其中的意思,快速畫出甲方想要傳達的 LOGO 形象:
要是開店用上這個,哪裏還需要花幾十上百塊專門設計一個 LOGO 出來?(doge)
雖然之前也有不少設計 LOGO 的 AI 了,不過從這次生成的效果來看,還真有點不太一樣。
保留一部分原有字體的味道
事實上,在這次研究之前,已經有不少研究在考慮如何用 AI 設計 LOGO。
從效果來看,主要可以分成三類:
一是以字體爲形狀限制,将圖片風格遷移上去(如圖 AB);二是以圖片風格爲基底,将字體遷移到圖片中去(圖 D);三是将不同圖片的形狀和字體關聯起來,生成或彩色或黑白的 " 圖像拼接 " 風格 LOGO 設計(圖 CE)。
然而,與下面人類手工設計的 LOGO 比起來,上面 AI 設計的效果不能說不好看,但似乎還差那麽點意思:
作者們經過一通探查,發現人類手工設計的 LOGO 并不 " 喧賓奪主 "。
人類設計師會在保留原本字體特色、讓人們能一眼認出單詞的基礎上,再加入一點創新之處,例如将 Jazz 中的 J 改成樂器,但其他人一眼仍然能認出 "JAZZ" 字體的形狀。
整體來說,就是在保留一部分字體 " 味道 " 的同時,加入一定的設計感。
例如這是 Stable Diffusion 生成的 "FROG" 設計,FRO 仍然是原本字體的形狀,隻有 G 變成一隻跳出去的小青蛙:
如果用 Stable Diffusion 2 進一步進行後期處理的話,還能進一步實現上色功能,顯得更加生動:
生成 LOGO 的風格也能随着原本設計字體的變化,而産生不一樣的變化。
例如這是 8 種字體下生成的不同瑜伽 LOGO,每種風格都不一樣:
相比之下,其他 AI 模型在生成字體的時候,倒是更喜歡保留自己的風格(手動狗頭):
那麽,這種神奇的字體設計 AI 是怎麽做出來的?
用貝塞爾曲線調整字母形狀
爲了一定程度上保留原本字體的風格、以及隻改變單詞中的某幾個字母,作者們想出一種 " 微調 " 字母形狀的方法——
那就是讓 AI 學會用貝塞爾曲線,對不同字體的字母進行小幅度變形。
(用過 PS 中 " 鋼筆 " 的小夥伴們應該對貝塞爾曲線不陌生,用它能控制鼠标畫出一些神奇的曲線)
具體控制點數量,則根據字母複雜度和字體風格進行叠代變換,直到設計出來的字母符合要求,其中橙色是初始點,藍色是後續增加的控制點:
控制點數量對生成效果影響有多大?
例如這是不同數量的控制點生成字母的效果,如果數量太少,會看不清設計的圖像形狀;但數量過多又容易扭曲字體原本的形狀:
基于這種核心設計思路,作者們結合 Stable Diffusion 和 CLIP,設計出了一整個字體設計 AI 模型:
其中,ACAP(as conformal as possible)損失函數基于德勞内三角形剖分算法,對字母形狀進一步進行了約束。
例如這是 PANTS(褲子)在變形前和變形之後的形态,可以看見 ACAP 在保留褲子形态的同時,也保留了字體的效果:
與此同時,爲了進一步保留字體形态,作者們采用了一個低通濾波器,保證調整後的字母不與原始字母偏離太多。例如這是 Bear(熊)中的 B 調整後的形态:
應用這套模型,生成每個字母的速度也還不錯。
在一塊RTX 2080 GPU 上,生成單個字母的 LOGO 設計大約需要 5 分鍾。
作者介紹
雖然作者們放到項目主頁上的論文是匿名的:
不過在 arXiv 上,作者們的名字倒是已經公開了,他們分别來自以色列特拉維夫大學、Reichman University(萊希曼大學),以及倫敦大學金史密斯學院:
共同一作 Shir Iluz,特拉維夫大學電子與電氣工程理學碩士,目前的研究方向是生成 AI,感興趣的方向是深度學習與計算機視覺。
共同一作 Yael Vinker,特拉維夫大學計算機視覺博士生,曾經在以色列希伯來大學獲得計算機科學本科與碩士學位,目前研究方向同樣是深度學習與計算機視覺。
這麽看來,雷軍當年設計小米 LOGO 的 200 萬元花早了啊
論文地址:
https://arxiv.org/abs/2303.01818
項目地址:
https://wordasimage.github.io/Word-As-Image-Page/