圖片來源:unsplash
近期,通用人工智能(AGI)領域又湧現出多款創意十足的新應用。
今天,钛媒體 AGI 梳理了免費 AI " 神器 " 系列第八彈,共五款,其中不少産品再一次拓寬了我們對 AI 的想象力。
全球首個最強 AI 軟件工程師—— Cognition Labs Devin
" 阿裏版 Sora" —— AtomoVideo
條漫生成神器—— Dashtoon Studio
AI 版 " 大家來找茬 " —— Anything in Any Scene
AI 頭像生成器—— PhotoMaker
3D 生成模型—— TripoSR
1、全球首個最強 AI 軟件工程師—— Cognition Labs Devin
産品信息:今天,華人團隊創立的 Cognition Labs 推出全球第一個 AI 軟件工程師 Devin,也是目前最強的 AI 軟件工程師,引發網絡關注。
産品功能:不同于 GitHub Copilot 等 AI 編程助手,Devin 并非單純輔助的角色,而是能夠完全獨立、端到端地完成整個開發項目,包括從編寫代碼、修複 Bug 到最終執行的完整編程生命周期。
Cognition 表示,它可以計劃和執行需要數千個決策的複雜工程任務,可以在每一步中回憶相關的上下文,随着時間的推移學習并糾正錯誤,以及主動與用戶協作的能力;而且 Cognition 還爲 Devin 配備了通用的開發人員工具,包括 shell、代碼編輯器和沙盒計算環境中的浏覽器——人類完成工作所需的一切。
數據顯示,根據他們對 Devin 在 SWE-bench 上做的測評,Devin 不僅可以自動完成任務,還可以在幾分鍾内自行編寫整個應用程序,并且自動正确解決了 13.86% 的問題,遠遠超過 Claude 2(4.80%)、Llama、GPT-4(1.74%,3.5 測試結果是 0%)。
随着 Devin 的推出,3 月 13 日,Cognition Labs 宣布完成 2100 萬美元的 A 輪融資,由 Funders Fund 領投,Stripe 創始人 Patrick Collison 和 John Collison,Twitter 前高管埃拉德 · 吉爾 ( Elad Gil ) 等跟投。目前,Cognition 創始團隊共有 10 個人,華人面孔居多。
項目地址:https://www.cognition-labs.com/blog
2、" 阿裏版 Sora" —— AtomoVideo
産品信息:AtomoVideo 是一款由阿裏巴巴推出的高保真圖生視頻(I2V,Image to Video)框架,能通過輸入圖片生成對應的動态視頻。
産品功能:用戶向 AtomoVideo 輸入一張高清圖片後,即可生成 1~2 秒的動态視頻。視頻内容不僅與初始圖片的細節與風格保持高度一緻,而且動作也相對流暢,不會出現突兀的跳轉。
AtomoVideo 演示視頻
此外,AtomoVideo 不僅能與現有的多種文生圖(T2I)模型兼容,還能夠通過叠代預測後續幀的方式,支持長視頻序列的生成。
據開發團隊介紹,AtomoVideo 生成的視頻的動作流暢度和時間連貫性,都要明顯優于明星視頻生産産品 Pika 與 Runway。他們使用了多粒度圖像注入技術,能使 AtomoVideo 生成的視頻與給定圖像保持高度的一緻。
AtomoVideo 一經推出便受到不少關注,被譽爲 " 阿裏版 Sora"。不過,目前阿裏團隊隻發布了 AtomoVideo 的論文和演示視頻,并未開放在線體驗地址。
項目地址:https://huggingface.co/papers/2403.01800
3、條漫生成 " 神器 " —— Dashtoon Studio
産品信息:Dashtoon Studio 是一款由初創公司 Dashtoon 推出的 AI 漫畫生成應用,能根據文本快速生成相應的漫畫。
産品功能:用戶隻需在 Dashtoon Studio 平台的文本框,輸入一段包含人物與情節的文本,等待 2 分鍾左右就能生成一話漫畫。Dashtoon Studio 允許用戶自由設定漫畫人物的形象與漫畫風格,創作有個人特色的漫畫作品。
Dashtoon Studio 允許用戶自由設定漫畫人物的形象與漫畫風格
Dashtoon 表示,這一工具可以大幅縮短漫畫的制作時間。此前創作一話漫畫可能需要 40~50 小時,現在隻需 5~6 小時。
公開資料顯示,Dashtoon 由 Sanidhya Narain、Lalith Gudipati 和 Soumyadeep Mukherjee 于 2022 年 12 月創立,前兩者曾是音頻娛樂公司 Pocket FM 的創始團隊成員。
2023 年 11 月,Dashtoon 宣布,已完成 500 萬美元種子輪融資,印度風投公司 Matrix Partners India 和 Stellaris Venture Partners 領投。此輪資金計劃将用于 Dashtoon 在未來幾個月内深化其人工智能研究、推進産品開發和内容制作。
4、AI 版 " 大家來找茬 " —— Anything in Any Scene
産品信息:Anything in Any Scene 是一款由小鵬汽車推出、能将任何對象無縫插入到動态視頻中的視頻模拟框架。
産品功能:Anything in Any Scene 能将真實的物體集成到給定的場景視頻中,并放置在适當的位置以确保幾何真實感,還能根據視頻裏的天氣狀況和光照條件模拟真實陰影,并采用風格轉換網絡來細化最終的視頻輸出,以最大限度地提高被插入物體與視頻的融合度。
視頻中被紅框框出的物體就是被 Anything in Any Scene 巧妙安插進去的。
Anything in Any Scene 的開發團隊表示,該框架可以用于電影制作,例如替換掉一些拍攝成本較高的電影場景,或模拟現實世界很少發生但又比較重要的場景。
項目地址:https://anythinginanyscene.github.io/
5、AI 頭像生成器—— PhotoMaker
産品信息:PhotoMaker 是一款由騰訊開發,可以根據文本描述生成多種風格照片的 AI 生成技術。
産品功能:用戶可以在 PhotoMaker 上輸入想定制的人的多張照片,然後結合文本描述,生成不同風格的個人照片。還可以把多張人物照片特征混合後,生成個性化的人物圖像,比如将蘋果公司 CEO 蒂姆 · 庫克和 OpenAI 首席執行官薩姆 · 奧爾特曼照片混合,再比如生成圖靈獎得主楊立昆(Yann LeCun)配上各種電影畫面的 AI 合成圖片,形成擁有全新面部特征的人物。
PhotoMaker 的生成效果示意圖
PhotoMaker 甚至可以将人物的黑白老照片變成彩色高清照片,還能通過替換關鍵詞,改變原照片人物的年齡和性别。截至發稿,PhotoMaker 在 Github 上已累積超過 7700 顆星。
體驗地址:https://huggingface.co/spaces/TencentARC/PhotoMaker
6、3D 生成模型—— TripoSR
産品信息:TripoSR 是一款由 Stability AI 和華人團隊 VAST 聯合推出的 3D 生成模型。
産品功能:用戶隻需将圖像上傳到 TripoSR 上,等待數秒後就能生成對應的 3D 模型圖。不需要任何 prompt 和專業知識,甚至不需要依賴 GPU。
TripoSR 生成的 3D 模型圖
開發團隊聲稱,這款 3D 生成模型能爲遊戲、工業設計和建築專業人士提供用于可視化 3D 對象的響應式輸出。
體驗地址:https://huggingface.co/spaces/stabilityai/TripoSR
(本文首發钛媒體 App,作者|任穎文、林志佳,編輯|林志佳)