繼 Suno、Udio 帶火 AI 音樂生成大模型之後,第一個國産 " 音樂版 Sora",終于來了!
話不多說,直接 " 開箱 " 聽效果,看看到底怎麽事。
我們開始就上一下難度,讓它根據《高速運轉的機械》這個網絡段子來做首個歌。
這個任務的難度在于,所有的文字并非是歌詞那般押韻、工整,并且邏輯也比較混亂。
AI 先是采用男聲 Rap 的方式把氣場打開,中間還夾帶了一小段方言,最後女聲演唱部分的音樂也是頗有 " 黃龍江一派 " 的氣勢。
嗯,熟悉的畫面這不就來了。
若是讓它爆改一下文字較爲工整的古詩詞,AI 又該如何接招?
有請李清照的《聲聲慢》:
這段音樂整體是現代風格,先是有一段男聲 Rap,咬字和節奏感上依舊是比較過關。
但最令人意想不到的是,在第 23 秒的時候,AI 直接來了個峰回路轉,直接 " 殺 " 進了女聲,音樂的情緒也放慢了下來,頗有 " 怎一個愁字了得 " 的意味。
當然,用粵語、英語演唱抒情歌曲,這個 AI 也是不在話下,甚至連顫音、和聲、和弦都能生成得惟妙惟肖:
而已經體驗過 Suno 等産品的小夥伴可以聽出來,這個 AI 在處理中文的時候是拿捏得比較自然的。
那麽這個國産 " 音樂版 Sora",到底是什麽來頭?
不賣關子,它就是由昆侖萬維在 4 月 17 日正式發布的天工 SkyMusic,劃重點:
完全免費,無次數限制!
效果聽起來還算不錯,那麽操作上是否會很麻煩呢?不,巨簡單。
簡單 2 步就能做首歌
目前,SkyMusic 已經集成到了手機上的天工 APP,入口就在主頁頂部的" 音樂 "一欄中。
要想生成剛才那樣的音樂,隻需點擊" 開始寫歌 "就可以了。
在接下來的界面中,正如上文所言,你隻要執行 2 個操作即可:
填寫歌詞(300 字内)
選擇參考曲目
如果在寫歌詞的過程中沒有靈感,你還可以通過"AI 寫詞 "的功能讓大模型給你幫忙哦 ~
最後,點擊底部的" 生成歌曲 "按鈕,大約 1 到 2 分鍾左右(親測),就會出結果了。
而且還不是隻有 1 首,是直接給到3 個完全不同的版本!
除此之外,在天工 APP" 音樂 " 欄目的下方,也有展示用戶篩出來的 AI 作品。
如果你在聽完某首歌曲之後覺得效果不錯,也想嘗試生成類似風格的音樂,可以點擊旁邊的" 做同款 "按鈕,隻需填寫歌詞就能再生成一首不一樣的歌曲了。
從目前的結果來看,天工 SkyMusic 可以支持生成80 秒左右時長的歌曲;不過一個好消息是,昆侖萬維表示馬上就會開放 3 分鍾版本了 ~
而也正如剛才所言,天工 SkyMusic 是國内首個 " 音樂版 Sora",并且也取得了不錯的效果。
如此又快又穩,昆侖萬維又是如何做到的呢?
全球首個公開的技術路線
在 AI 生成音樂這件事上,即使是像 Suno、Udio 這樣掀起熱潮的玩家,也同 Sora 一樣,并沒有公開其背後的技術細節内容。
但值得一提的是,昆侖萬維此次不僅是把 AI 生成音樂的産品給發布出來這麽簡單,更是做到了在技術上的" 全球首家公開 "。
在聊 SkyMusic 關鍵技術之前,我們需要了解的是,AI 音樂生成從技術角度來看,可以分爲兩大流派:
符号音樂生成路線
大模型音樂音頻生成路線
符号音樂生成比較典型的技術就是 MIDI(Musical Instrument Digital Interface,樂器數字接口),通常需要先對大量的樂譜做标注的工作,再對模型進行訓練。
其結果最後得到是樂譜,而并非是真正意義上的音樂,還需要其它的工具來對樂譜做 " 善後 " 的工作。
雖然此前學術界也嘗試了在 MIDI 這樣的技術基礎上,後期加入人聲、樂器、旋律、音色等元素,但所得到的結果并不是非常理想。
而天工 SkyMusic 選擇的大模型音樂音頻生成,則是與之截然相反的技術路線——
是通過直接地學習來生成音頻波形,并做到把樂器、人聲、旋律、音量、音符等等元素都 " 一鍋出 "。但這條路線需要大量的研發投入和資金支持,讓大多數人望而卻步。即使強如 Google、Meta 等科技巨頭,目前也沒有發布在這條路線上的突破性成果。
同時,這條路線又分爲 Song、BGM、Speach 三個細分領域;由于行業内普遍都在研究無人聲的 BGM 領域,導緻行業内對有人聲的 Song 領域近乎沒有很好的解決方案,更沒有開源的方案可借鑒。
也正因如此,音樂屆的 "Sora 時刻 " 才會來得比圖像和視頻更晚一些。
爲了解決這兩個老大難的問題,昆侖萬維自研出一套架構來解決,它主要由 Encoder、DiT 和 Decoder 三個模塊組成
具體而言,其采用的架構可視爲音樂音頻領域的類 Sora 模型:
Large-scale Transformer:負責譜曲,來學習 Music Patches 的上下文依賴關系,同時完成音樂可控性;
Diffusion Transformer:負責演唱,通過 LDM 讓 Music Patches 被還原成高質量音頻。
這也是天工 SkyMusic 能夠支持生成 80 秒 44100Hz 采樣率雙聲道立體聲歌曲的關鍵所在。
在我們與昆侖萬維的交流中,研究人員進一步表示:
我們目前還不能公開所有細節的技術參數,但這個技術架構是我們做了無數次研發實驗算力算法投入,最終探索出來效果最好的方案。
公開就意味着我們把 " 坑 " 提前替産業踩了,給到産業一個可複現的方案。
從效果中來看,天工 SkyMusic 在音樂中的咬字(尤其是中文)、情緒、技巧等元素的效果也是達标的。
昆侖萬維董事長兼 CEO 方漢和量子位 CEO 孟鴻在昨天的對話直播中,便現場展示了比較有意思的幾個曲子。
例如把《道德經》和寶媽一天的 " 吐槽 " 喂給天工 SkyMusic,它生成的音樂是這樣的:
再如一位老人給孫女以征婚啓事爲主題生成的歌,和吐槽購物 " 買買買 " 的歌:
嗯,确實有點意思。
而天工 SkyMusic 的優異表現,源自他背後優異的底座大模型——天工 3.0。
天工 3.0 已經發布,直接拿下兩個業界之最:
最大規模:4000 億參數的開源 MoE 大模型
國内第一:中國首個音樂 AIGC SOTA(State of the arts,領域内最高水準)
先來看下天工 3.0 大模型在全球權威多模态性能測試基準 MMBench 上的評分:
在全球權威多模态性能測試 MMBench 和 MMBench-CN 的評估中,天工 3.0 不僅在 A 屬性推理、關系推理、細粒度感知 - 交叉實例、粗略感知四項性能拿下第一,綜合評分更超越 GPT-4V、Gemini Pro 等知名文本大模型。
同時昆侖萬維還将将天工 3.0" 上架 " 自家的天工 APP。
效果怎麽樣?一言蔽之:
更聰明:技術知識能力提升 20%,數學 / 推理 / 代碼 / 文創能力提升 30%
更獨立:獨立規劃、調用、組合外部工具及整合信息來完成複雜需求
更全能:提升了專項 Agent 應對複雜需求的能力
多才多藝:内容創作能力全面升級,包括搜、寫、讀、聊、說、畫、聽、唱
例如 " 弱智吧 Benchmark" 難不倒天工大模型:
在 AI 搜索方面,天工 3.0APP 在調用能力上做了增強,甚至在 " 研究 " 模式下還能自動生成大綱、圖譜、思維導圖等内容。
以搜索 "AIGC 産業發展 " 爲例,現在的打開方式可以是這樣的:
在大火的 Agent 技術方面,天工 3.0 也專門開設了 " 智能體 " 廣場,用戶可以自行構建專屬的超強 AI 智能體,也可以在廣場中 pick 自己想要的那一個。
以工作、生活都比較常用到的" 擴圖 "爲例,隻需要丢給它一張圖并提出要求,智能體就能生成 4 種不同的擴圖效果。
總而言之,現在的天工 3.0 整體體驗的最直觀感受就是面面俱到,最前沿、最 fashion 的技術和應用統統都可以擁有。
最後,對于國内首發 " 音樂版 Sora" 這事,還有個話題值得聊一聊:
爲什麽是昆侖萬維?
自從 Sora 問世引爆全球 AIGC 大熱潮以來,昆侖萬維絕對稱得上是衆多入局百模大戰選手中的黑馬。
此前,或許很多人對于昆侖萬維的印象還停留在 " 遊戲 "、" 出海 ",但現在,"AIGC" 已然成爲它最鮮明的标簽。
深入探究昆侖萬維在 AIGC 領域的發展曆程,我們可以清晰地看到其迅猛的發展步伐。
就在 Sora 發布僅一個月後,2022 年 12 月,昆侖萬維便發布了自主研發的全系列 AIGC 算法及模型,這套模型不僅具備先進的文本對話功能,還覆蓋了圖像生成、音樂創作、文本理解等多個模态領域。
從起步開始,昆侖萬維就把 " 格局打開 ",劍指多模态,而這正是今年 AI 産業最火熱的賽道之一。
2023 年 4 月 17 日,昆侖萬維正式發布其自研的千億級大語言模型 " 天工 ",并于同年 7 月在天工 APP 上線。緊随其後,8 月又推出了國内首款 AI 搜索産品——天工 AI 搜索,成爲首批将 AI 大模型直接推向市場并服務于 C 端用戶的企業。
在這場 "AI 一日,人間一年 " 的産業競賽中,昆侖萬維并沒有安于現狀,而是持續死磕技術:從公開測試多模态大模型 Skywork-MM,到開源百億參數級别的大語言模型天工 Skywork-13B 系列,繼而又推出天工 SkyAgents 平台,并在今年 2 月,将國内首個采用 MoE 架構的大語言模型天工 2.0 免費向全社會開放。
而現在,正值天工大模型發布一周年之際,昆侖萬維在 2 個月内将其叠代到 3.0 版本,再次拿下兩個業界之最。
至此,也就不難回答 " 爲什麽是昆侖萬維 " 這個疑問。因爲昆侖萬維始終堅守并踐行 "All in AGI 與 AIGC" 戰略,憑借敏銳的前瞻性和高效的行動力,始終站在 AIGC 技術發展的最前沿。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~