(圖片來源:unsplash)
近期,生成式人工智能(AIGC)領域又湧現出多款創意十足的新應用。
今天,钛媒體 AGI 梳理了免費 AI " 神器 " 系列第十三彈,共五款,其中不少産品再一次拓寬了我們對 AI 的想象力。
會 20 種語言的克隆數字人—— Digen
能模仿人類表情的人形機器人—— EMO
Domo AI 新功能上線:能讓靜态人像動起來
吊打 Midjourney 的 AI 文生圖工具—— Ideogram
文生圖框架—— LaVi-Bridge
1、會 20 種語言的克隆數字人—— Digen AI
産品信息:Digen 是由 Digen AI 研發的全新克隆數字人工具産品,稱是利用生成式 AI 技術創建面向未來的視頻,支持多達 20 種語言、40+ 種聲音,手勢、口型和語調全部同步一緻,視頻效果比較逼真。
産品功能:用戶可通過官網申請内測,使用時免費進行個性化頭像生成,大約需要 5-7 天時間,随後可以進行視頻編輯和生成等操作,最終可以實現數字人視頻狀态,聲稱爲 Digen in Real Motion 1.0。
目前,Digen 包括免費版、創作者版、專業版三個版本,後兩者每月計費分别爲 9.9 美元、19.9 美元,如果按年訂閱價格會更低一些。公司稱,免費計劃的訂閱者不受任何時間限制,但每月隻能制作總長度爲 2 分鍾的視頻,視頻數量沒有限制。
有分析稱,Digen 是 Sora、Heygen、PIKA、Runway 等産品的強有力競品之一。
用戶可通過 https://digen.ai 填寫信息申請内測資格。
2、能模仿人類表情的機器人—— EMO
産品信息:哥倫比亞大學創新機器實驗室近日推出一款可以預測人的表情,并能與人類同步做出表情的人臉機器人。這款機器人采用自我監督學習框架,運作原理類似于人類通過照鏡子來練習面部表情。
産品功能:EMO 可以在人類微笑前 839 毫秒預測即将到來的微笑,并通過模型與人類同時表達微笑。此外,Emo 還可以預測悲傷、憤怒和驚訝等表情,還能與人類進行眼神互動,但目前還不能做出人類的所有表情。
據了解,Emo 的眼睛裏裝有攝像頭,矽膠皮膚下有 26 個電機,類似于人類面部的肌肉,可以爲機器人的面部表情提供動力。另外,該機器人使用兩個神經網絡,一個用來觀察人臉并預測表情,另一個研究如何在機器人臉上産生表情。第一個神經網絡通過視頻網站上的視頻進行訓練,第二個神經網絡讓機器人通過實時攝像機觀看自己做的表情來訓練。
團隊研究人員表示,未來,他們還将拓寬機器人的表情範圍,希望 EMO 能對人所說的話做出反應,而不是簡單模仿人類。此外,研究人員正利用大模型将語言交流整合到 Emo 中,讓 Emo 能夠回答問題和對話。
3、Domo AI 新功能上線:能讓靜态人像動起來
産品信息:Domo AI 是映刻科技推出的一款将照片和視頻動漫化的 AI 工具,該工具可以将用戶上傳的圖片和視頻轉繪爲動漫風格,經過不斷叠代更新,Domo AI 近日推出了圖像生成視頻新功能。
産品功能:Domo AI 的新功能結合了深度學習和計算機視覺算法的前沿技術,通過智能識别和分析靜态照片中的人物特征,再與動态視頻中的運動數據進行精準匹配。在強大的算法驅動下,Domo AI 能夠巧妙地将照片中的人物 " 移植 " 到視頻中,實現靜态到動态的完美轉變。
例如,用戶可以上傳一張靜态照片和一個參考的動态視頻,Domo AI 便能夠巧妙地将靜态照片中的人物替換成動态視頻中的人物,實現驚人的視覺轉換。
Domo AI 功能強大,适用于多種場景和應用。不僅可用于社交媒體上分享生動有趣的動态照片,還可以爲電影、遊戲或廣告制作添加特效,爲用戶提供無限的創意空間。
目前,Domo AI 新功能已經在 Discord 頻道上正式上線,用戶隻需在頻道内使用 /move 命令,即可輕松體驗将靜态照片變爲動态視頻的神奇過程。
官方網址:https://domoai.app/
體驗地址:https://discord.gg/domoai
4、吊打 Midjourney、DALL · E 3 的 AI 文生圖工具—— Ideogram
産品信息:Ideogram 是一款超強文字生成圖像工具,旨在生成包含可以清晰閱讀文本的圖像。該模型由谷歌前員工組成的創業團隊打造,團隊成員曾參與開發谷歌的 Imagen 圖像生成軟件和視頻生成模型。
産品功能:Ideogram 的主要功能爲文生圖功能,但與其他圖像生成模型不同的是,Ideogram 擅長生成包含文本的圖片,用戶隻需輸入提示詞,Ideogram 就可以按照要求将文字融入生成的圖片中,實現平面、懸浮甚至立體文字效果。比如生成電影、産品海報、T 恤印花等圖像,解決了生圖 AI 在圖像文字生成上的痛點。
近期上線的 Ideogram 1.0 版本在正确顯示文本方面有了顯著提升,生成的圖像也更加逼真,可以對複雜提示詞進行精确響應。Ideogram 表示,參與測試的評估者對于 Ideogram 1.0 在提示對齊、圖像連貫性、整體偏好和文本渲染質量方面的偏好超越了 DALL · E 3 和 Midjourney V6。
同時 Ideogram 1.0 還引入了 一個名爲 " 魔法提示 " 的新功能,該功能可以根據用戶的原始描述,編寫更詳細的提示詞,進而創造出更美觀且具創意的圖像。
此外,Ideogram 1.0 版本還能理解冗長、複雜的提示詞,生成清晰、逼真的圖像,包括動物、奇怪組合的呈現,以及照片級逼真的人物表情和手部動作。
付費方面,用戶每天能免費使用 25 個提示詞,生成 100 張圖。8 美元月付費用戶每天可以生成 100 個提示詞,400 張圖。20 美元月付費用戶可以無限使用。
體驗地址:https://ideogram.ai/t/explore
5、文生圖框架—— LaVi-Bridge
産品信息:LaVi-Bridge 是一個無需訓練将不同的語言模型和生成視覺模型結合起來,以實現文本到圖像的生成的技術框架,該框架由香港大學、香港中文大學和香港科技大學的研究團隊共同開發。
産品功能:通過使用 LoRA(Low-rank Adaptation)和适配器,LaVi-Bridge 提供了一種靈活且即插即用的方法,無需修改原始模型的權重。這個框架兼容多種語言模型和生成視覺模型,能夠适應不同的結構。
在這一框架内,團隊證明了通過整合更高級的模塊(如更先進的語言模型或生成視覺模型)可以明顯提高文本對齊或圖像質量等能力,經過大量評估驗證了 LaVi-Bridge 模型的有效性。
項目地址:https://shihaozhaozsh.github.io/LaVi-Bridge/
(本文首發于钛媒體 APP,作者 | 章橙,編輯 | 林志佳)