近期,生成式人工智能(AIGC)領域又湧現出多款創意十足的新應用。
今天,钛媒體 AGI 梳理了免費 AI " 神器 " 系列第七彈,共五款,其中不少産品再一次拓寬了我們對 AI 的想象力。
華爲首個 AI 圖像生成模型—— PixArt- Σ
音樂生成模型—— Chat Musician
克隆自己的數字分身—— D-IDAgent
可以讀唇語的大模型框架—— VSP-LLM
醫學檢索增強生成(RAG)框架—— MIRAGE
1、華爲首個 AI 圖像生成模型 PixArt- Σ 亮相
産品信息:日前,華爲諾亞方舟實驗室團隊在 arxiv 平台上發布多篇論文,展示華爲首個 AI 圖像生成模型 PixArt- Σ 技術,參數規模爲 6 億左右,其采用與 Sora 的 Diffusion Transformer ( DiT ) 架構,可直接生成 4K 分辨率的 AI 圖像。
産品功能:華爲團隊在論文中表示,相比其前身 PixArt- α,新的 PixArt- Σ 在訓練效率、數據質量、圖像标題配對、圖像生成質量等方面都有巨大提升,提供明顯更高保真度的圖像,并改進了與文本提示的一緻性。同時,PixArt- Σ 以顯著較小的模型規模實現了優于現有文本到圖像擴散模型,如 SDXL ( 26 億參數 ) 和 SD Cascade ( 51 億參數)的圖像質量和用戶提示遵從能力。 華爲團隊在論文中強調,新的 PixArt- Σ 可生成 4K 圖像能力,從而将有效增強電影和遊戲等行業中高質量視覺内容的制作。
體驗地址:https://pixart-alpha.github.io/PixArt-sigma-project/
2、可以理解和生成音樂的大語言模型—— Chat Musician
産品信息:Chat Musician 是一個能理解和生成音樂的開源大語言模型,通過持續預訓練和微調 LLaMA2,采用文本兼容的音樂表示方式—— ABC 符号,使模型能夠像處理語言文本一樣理解和生成音樂。
産品功能:首先是音樂生成功能,ChatMusician 可以根據給定的文本提示、和弦序列、旋律線索、音樂主題等,自動生成結構完整、風格多樣的音樂作品,性能超越 GPT-4 的基線。
其次是音樂理解功能,ChatMusician 可以理解和分析音樂理論的各個方面,如和聲分析、旋律結構、音樂形式等。在專爲大學級音樂理解基準測試 MusicTheoryBench 上,ChatMusician 在零樣本設置中超過了 LLaMA2 和 GPT-3.5,展示了其在音樂理論理解方面的優異性能。
此外,ChatMusicia 還提供了大規模的音樂語言語料庫(MusicPile)、音樂理論基準測試(MusicTheoryBench)、模型代碼和在線演示,以供研究和教育使用。
項目演示:https://shanghaicannon.github.io/ChatMusician/
論文地址:https://arxiv.org/pdf/2402.16153.pdf
3、克隆自己的數字分身—— D-IDAgent
産品介紹:D-IDAgent 是生成數字人平台 D-ID 推出的一項可定制 AI 化身功能,用戶隻需通過一張照片就能生成屬于自己的 AI 數字人。
産品功能:用戶可以通過上傳一張照片或一段語音就能生成屬于自己的 AI 數字人,并且生成的數字人可實現人性化交互。在接受用戶指令後,數字人可以通過面部表情和手勢以及多種語言進行回應,提供類似真人的面對面溝通體驗。此外,D-IDAgent 可以通過鏈接或嵌入到網站上與他人共享 AI 代理。
據悉,D-ID Agent 利用檢索增強生成 ( RAG ) 技術,能夠更加了解用戶的環境并能在兩秒内提供超過 90% 的準确率響應查詢,支持多種主要語言,可滿足不同用戶生成需求。
D-ID Agent 的使用場景豐富,電商行業可利用數字人進行廣告代言、直播、産品推廣和營銷;教培行業可利用數字人生成數字教師進行線上授課;視頻創作者可以用數字人代替真人拍攝,從而降低視頻制作成本,提升視頻制作效率。
付費方面,D-ID Agent 有 14 天免費試用期,超過試用期有三種按月付費标準,不同的付費标準對應不同的使用功能,比如在生成視頻時長,支持插件和視頻水印方面都有區别。
4、可以讀唇語的大模型框架—— VSP-LLM
産品信息:VSP-LLM 是一款基于 AV-HuBERT 模型開發的語言模型框架,該框架将視覺語音處理和大語言模型(LLMs)進行結合,旨在利用 LLMs 的上下文理解能力來提高視覺語音識别和翻譯的準确性和效率。
産品功能:VSP-LLM 可以通過觀察視頻中人物的唇部動作,識别和理解說話内容,并将這些内容直接翻譯成目标語言文本。同時,利用先進的視覺語音識别技術,結合大語言模型的上下文理解能力,VSP-LLM 通過自監督學習,可以智能識别和去除視頻中的冗餘信息,避免内容重複,提升内容生成速度和準确性。
GitHub:
https://github.com/sally-sh/vsp-llm?tab=readme-ov-file&continueFlag=a18ff0efaae82b7b920d78ac725952b5
論文:https://arxiv.org/abs/2402.15151v1
5、醫學檢索增強生成(RAG)框架—— MIRAGE
産品信息:MIRAGE 是一個基于搜索增強生成(RAG)的框架,旨在提高醫學問答(QA)任務中的性能。
MIRAGE 框架包含來自生物醫學領域五個常用 QA 數據集的 7663 個問題,通過在工作中引入的 MedRag 工具包對不同語料庫、檢索器和骨幹 LLM 的 41 種組合進行了超過 1.8 萬億個提示标記的大規模實驗。
産品功能:首先是增強醫學問答準确性,通過檢索增強生成(RAG)技術,MEDRAG 利用最新可靠的醫學文檔信息來輔助大型語言模型(LLM),提高醫學問答任務中的準确性和可靠性。
其次是系統性評估醫學 RAG 系統,MIRAGE 基準爲醫學問答領域的檢索增強生成(RAG)系統提供了一個系統性評估平台。這種評估有助于識别哪些方法在處理醫學信息時最有效,特别是在準确性和可靠性方面。
再次,提供醫學專用工具包,MEDRAG 工具包集成了多個領域特定的語言資料庫、搜索器和大型語言模型(LLM),支持研究人員在醫學問答任務上進行全面的實驗和評估。這些組件包括專門爲醫學領域設計的文檔庫、針對醫學信息優化的搜索算法以及适用于醫學問答的 LLM。
最後,零樣本學習能力,MEDRAG 特别關注 RAG 系統的零樣本學習能力,即在沒有給出具體例子的情況下,系統能夠解答新的、未見過的醫學問題。通過提高系統的零樣本學習能力,可以确保醫學問答系統即使在缺乏特定數據的情況下也能提供準确的答案,顯著提高系統在實際應用中的靈活性和有效性。
論文地址:https://arxiv.org/abs/2402.13178
GitHub 地址:https://github.com/abi/screenshot-to-code
(本文首發钛媒體 App,作者|章橙,編輯|林志佳)