免費 AI “神器”系列第八彈：全球首個 AI 軟件工程師Devin來襲；阿裏版Sora模型爆火

圖片來源：unsplash

近期，通用人工智能（AGI）領域又湧現出多款創意十足的新應用。

今天，钛媒體 AGI 梳理了免費 AI " 神器 " 系列第八彈，共五款，其中不少産品再一次拓寬了我們對 AI 的想象力。

全球首個最強 AI 軟件工程師—— Cognition Labs Devin

" 阿裏版 Sora" —— AtomoVideo

條漫生成神器—— Dashtoon Studio

AI 版 " 大家來找茬 " —— Anything in Any Scene

AI 頭像生成器—— PhotoMaker

3D 生成模型—— TripoSR

1、全球首個最強 AI 軟件工程師—— Cognition Labs Devin

産品信息：今天，華人團隊創立的 Cognition Labs 推出全球第一個 AI 軟件工程師 Devin，也是目前最強的 AI 軟件工程師，引發網絡關注。

産品功能：不同于 GitHub Copilot 等 AI 編程助手，Devin 并非單純輔助的角色，而是能夠完全獨立、端到端地完成整個開發項目，包括從編寫代碼、修複 Bug 到最終執行的完整編程生命周期。

Cognition 表示，它可以計劃和執行需要數千個決策的複雜工程任務，可以在每一步中回憶相關的上下文，随着時間的推移學習并糾正錯誤，以及主動與用戶協作的能力；而且 Cognition 還爲 Devin 配備了通用的開發人員工具，包括 shell、代碼編輯器和沙盒計算環境中的浏覽器——人類完成工作所需的一切。

數據顯示，根據他們對 Devin 在 SWE-bench 上做的測評，Devin 不僅可以自動完成任務，還可以在幾分鍾内自行編寫整個應用程序，并且自動正确解決了 13.86% 的問題，遠遠超過 Claude 2（4.80%）、Llama、GPT-4（1.74%，3.5 測試結果是 0%）。

随着 Devin 的推出，3 月 13 日，Cognition Labs 宣布完成 2100 萬美元的 A 輪融資，由 Funders Fund 領投，Stripe 創始人 Patrick Collison 和 John Collison，Twitter 前高管埃拉德 · 吉爾 ( Elad Gil ) 等跟投。目前，Cognition 創始團隊共有 10 個人，華人面孔居多。

項目地址：https://www.cognition-labs.com/blog

2、" 阿裏版 Sora" —— AtomoVideo

産品信息：AtomoVideo 是一款由阿裏巴巴推出的高保真圖生視頻（I2V，Image to Video）框架，能通過輸入圖片生成對應的動态視頻。

産品功能：用戶向 AtomoVideo 輸入一張高清圖片後，即可生成 1~2 秒的動态視頻。視頻内容不僅與初始圖片的細節與風格保持高度一緻，而且動作也相對流暢，不會出現突兀的跳轉。

AtomoVideo 演示視頻

此外，AtomoVideo 不僅能與現有的多種文生圖（T2I）模型兼容，還能夠通過叠代預測後續幀的方式，支持長視頻序列的生成。

據開發團隊介紹，AtomoVideo 生成的視頻的動作流暢度和時間連貫性，都要明顯優于明星視頻生産産品 Pika 與 Runway。他們使用了多粒度圖像注入技術，能使 AtomoVideo 生成的視頻與給定圖像保持高度的一緻。

AtomoVideo 一經推出便受到不少關注，被譽爲 " 阿裏版 Sora"。不過，目前阿裏團隊隻發布了 AtomoVideo 的論文和演示視頻，并未開放在線體驗地址。

項目地址：https://huggingface.co/papers/2403.01800

3、條漫生成 " 神器 " —— Dashtoon Studio

産品信息：Dashtoon Studio 是一款由初創公司 Dashtoon 推出的 AI 漫畫生成應用，能根據文本快速生成相應的漫畫。

産品功能：用戶隻需在 Dashtoon Studio 平台的文本框，輸入一段包含人物與情節的文本，等待 2 分鍾左右就能生成一話漫畫。Dashtoon Studio 允許用戶自由設定漫畫人物的形象與漫畫風格，創作有個人特色的漫畫作品。

Dashtoon Studio 允許用戶自由設定漫畫人物的形象與漫畫風格

Dashtoon 表示，這一工具可以大幅縮短漫畫的制作時間。此前創作一話漫畫可能需要 40~50 小時，現在隻需 5~6 小時。

公開資料顯示，Dashtoon 由 Sanidhya Narain、Lalith Gudipati 和 Soumyadeep Mukherjee 于 2022 年 12 月創立，前兩者曾是音頻娛樂公司 Pocket FM 的創始團隊成員。

2023 年 11 月，Dashtoon 宣布，已完成 500 萬美元種子輪融資，印度風投公司 Matrix Partners India 和 Stellaris Venture Partners 領投。此輪資金計劃将用于 Dashtoon 在未來幾個月内深化其人工智能研究、推進産品開發和内容制作。

體驗地址：https://dashtoon.com/

4、AI 版 " 大家來找茬 " —— Anything in Any Scene

産品信息：Anything in Any Scene 是一款由小鵬汽車推出、能将任何對象無縫插入到動态視頻中的視頻模拟框架。

産品功能：Anything in Any Scene 能将真實的物體集成到給定的場景視頻中，并放置在适當的位置以确保幾何真實感，還能根據視頻裏的天氣狀況和光照條件模拟真實陰影，并采用風格轉換網絡來細化最終的視頻輸出，以最大限度地提高被插入物體與視頻的融合度。

視頻中被紅框框出的物體就是被 Anything in Any Scene 巧妙安插進去的。

Anything in Any Scene 的開發團隊表示，該框架可以用于電影制作，例如替換掉一些拍攝成本較高的電影場景，或模拟現實世界很少發生但又比較重要的場景。

項目地址：https://anythinginanyscene.github.io/

5、AI 頭像生成器—— PhotoMaker

産品信息：PhotoMaker 是一款由騰訊開發，可以根據文本描述生成多種風格照片的 AI 生成技術。

産品功能：用戶可以在 PhotoMaker 上輸入想定制的人的多張照片，然後結合文本描述，生成不同風格的個人照片。還可以把多張人物照片特征混合後，生成個性化的人物圖像，比如将蘋果公司 CEO 蒂姆 · 庫克和 OpenAI 首席執行官薩姆 · 奧爾特曼照片混合，再比如生成圖靈獎得主楊立昆（Yann LeCun）配上各種電影畫面的 AI 合成圖片，形成擁有全新面部特征的人物。

PhotoMaker 的生成效果示意圖

PhotoMaker 甚至可以将人物的黑白老照片變成彩色高清照片，還能通過替換關鍵詞，改變原照片人物的年齡和性别。截至發稿，PhotoMaker 在 Github 上已累積超過 7700 顆星。

體驗地址：https://huggingface.co/spaces/TencentARC/PhotoMaker

6、3D 生成模型—— TripoSR

産品信息：TripoSR 是一款由 Stability AI 和華人團隊 VAST 聯合推出的 3D 生成模型。

産品功能：用戶隻需将圖像上傳到 TripoSR 上，等待數秒後就能生成對應的 3D 模型圖。不需要任何 prompt 和專業知識，甚至不需要依賴 GPU。

TripoSR 生成的 3D 模型圖

開發團隊聲稱，這款 3D 生成模型能爲遊戲、工業設計和建築專業人士提供用于可視化 3D 對象的響應式輸出。

體驗地址：https://huggingface.co/spaces/stabilityai/TripoSR

（本文首發钛媒體 App，作者｜任穎文、林志佳，編輯｜林志佳）