盛夏将至,各條 AI 賽道也熱烈了起來。如果評選一下,近段時間哪個領域的 AI 應用最爲火爆,那麽 AI 音樂創作絕對名列前茅。
一個月之前,海外初創企業 Suno 發布新版 AI 音樂生成大模型 Suno V3,它可以根據用戶自然語言快速生成相關風格音樂,在全球範圍内引發熱議。而就在不久前,來自前 DeepMind 團隊成員的 Udio 音樂大模型發布。這款模型可以帶來非常逼真的音樂制作效果,并且可以完成多段式、長音樂作品的生成。
AI 音樂生成大模型賽道,競争突然激烈了起來。加上 OpenAI 的 MuseNet、谷歌的 MusicLM、Meta 的 MusicGen 等項目,我們似乎在今年迎來了一場全球 AI 音樂會。一時間異彩紛呈,好不熱鬧。
但在這場 AI 音樂會中,有一個現象非常值得重視:這一次,中國科技與全球前沿 AI 趨勢之間沒有時差,無縫銜接。我們不再是跟随者與追趕者,而是第一時間加入了這場音樂與 AI 的盛宴,奏響了屬于自己的旋律。
4 月 2 日,由昆侖萬維打造的 AI 音樂生成大模型 " 天工 SkyMusic" 開啓免費邀測,4 月 17 日更是正式發布。
天工 SkyMusic 是國内唯一公開可用的 AI 音樂生成大模型,也是中國首個音樂 SOTA 模型。
它與震撼全球科技與音樂産業的 Suno、Udio 保持了時間線上的高度同步,同時多個領域的技術能力更加出色。在與 Suno V3 的橫向測評中,天工 SkyMusic 在人聲 &BGM 音質、人聲自然度、發音可懂度等領域顯著領先對手,并以 6.65 分的綜合得分超越 Suno V3,成爲全球 AI 音樂最新 SOTA 模型。
" 中國 AI 不缺席 ",是一段我們期待了很久的旋律。究竟是什麽讓昆侖萬維能夠完成這次演奏?天工 SkyMusic,以及背後的天工 3.0 有着怎樣的産業與社會價值?
讓我們打開這場全球 AI 音樂會,聽懂一首關于 " 中國 AI 不缺席 " 的盛夏奏鳴曲。
天工 SkyMusic
東方的 AI 音樂會
不缺席的中國 AI 音樂大模型,不僅需要第一時間跻身行業一線,更需要在能力上拿出足夠有說服力的答案。
天工 SkyMusic 在發布之後,獲得了各方非常積極的反饋。來自媒體、音樂人與行業專家以及廣大用戶的聲音,證明了其具備加入全球 AI 音樂大模型競逐的底氣。AI 音樂會不僅發生在歐美,同時也奏響在東方。
首先,我們可以具體來看一下天工 SkyMusic 在技術能力上的特色。
通過采用音樂音頻領域類 Sora 的 DiT 模型架構,天工 SkyMusic 在 AI 音樂大模型的幾個核心能力指标上都有不俗的表現。
其中包括高質量的音樂生成能力、高逼真的人聲模拟能力、高豐富度的歌詞段落控制能力、高規模的音樂風格掌握,以及高靈活的音樂表達。
舉例而言,歐美 AI 音樂風格多以 " 器 " 見長,更偏重樂器豐富度參數,但在人聲拟合方面往往表現一般。
相較而言,昆侖萬維天工 SkyMusic 則專門在人聲自然度、發音可懂度上進行了模型專門訓練,使得 AI 發音清晰、無異響,讓大模型生成的音樂足以 " 以假亂真 "。
此外,天工 SkyMusic 所能夠創作的音樂,展現出了對多種不同音樂風格,不同生成訴求的把握。比如神曲改造對流行音樂的把握,古詩詞改編對中國傳統文化與格律的把握等。
透過廣泛的生成案例,我們可以發現天工 SkyMusic 具有豐富的使用場景與廣泛的需求人群,例如:
1. 音樂從業者可以借助天工 SkyMusic 尋找靈感,輔助音樂創作。比如說,創作者可以輸入一些 " 母題 ",包括親情、愛情等。通過天工 SkyMusic 生成的歌詞與旋律來尋找靈感,探索創作邊界。
2. 短視頻創作者和 UP 主可以通過音樂生成來拓展創作邊界,降低音樂方案的創作門檻。比如說,UP 主可以用天工 SkyMusic 改編 " 網絡神曲 ",獲得新的視頻 BGM。下面這首神曲,天工 SkyMusic 就可以爲你帶來完全不一樣的感受。
3. 音樂愛好者與粉絲可以獲得更多樣的音樂樂趣,與自己喜歡的音樂類型、音樂風格進行更加多樣性、深層次的互動。比如我們可以換一個聲音,把我們喜歡的音樂進行重新演繹。
4. 在教育教學場景中,天工 SkyMusic 可以用來輔助音樂教育,讓學習者感受到音樂創作的内在邏輯與豐富技巧。同時還能夠助力傳統文化、樂器演奏等方面的教育教學。比如說,天工 SkyMusic 可以基于古詩詞生成音樂,讓學生更生動準确掌握古典文化的精髓。
在這樣的應用價值基礎上,我們還必須看到天工 SkyMusic 作爲國内最早,也是目前唯一的 AI 音樂大模型,在填補産業空白方面的價值是巨大的。它的出現,意味着中國用戶有了更加符合華語音樂創作習慣的 AI 模型,對中文有了更好的支持。同時它完全免費,不限使用次數,無需額外的使用門檻,這都是國外同類 AI 音樂模型所無法實現的。
而從技術角度上看,天工 SkyMusic 對比 MuseNet、MusicLM、MusicGen 等項目也具備獨特的技術優勢。
除了上文提到的人聲合成演唱能力外,在音樂風格上天工 SkyMusic 更加精巧且多元。它能夠通過歌詞控制情緒變化,實現如顫音、歌劇、吟唱等多種歌唱技巧,并且可以使生成的音樂作品情感更加豐富且貼合情境。在此基礎上,天工 SkyMusic 支持創作說唱、民謠、放克、古風、電子等多種音樂風格,用戶可以根據個人喜好定制音樂風格。
總體來看,天工 SkyMusic 開創了中國 AI 音樂大模型的先河,成爲中國首個音樂 AIGC SOTA,并且大幅提高了 AI 大模型音樂生成在人聲領域的技術表現。
天工 3.0
全球最大規模的開源 MOE 大模型
天工 SkyMusic 能夠與全球 AI 音樂會同頻奏響,背後必然離不開兩點:一是戰略方向的敏銳把握,二是技術底座的基石打造。
而天工 SkyMusic 背後的技術基石,則是剛剛發布的 " 天工 3.0"。
天工 3.0 采用了 4000 億級參數 MoE 混合專家模型,是目前全球模型參數最大、性能最強的 MoE 模型之一。相較于上一代天工 2.0MoE 大模型,其在模型語義理解、邏輯推理,以及通用性、泛化性、不确定性知識、學習能力等領域都有着大幅的性能提升,其模型技術知識能力提升超過 20%,數學 / 推理 / 代碼 / 文創能力提升超過 30%。
具體來看,天工 3.0 在四個方向帶來了全面升級:
首次是邏輯推理能力的增強。天工 3.0 強大的邏輯推理能力使其能夠在實際應用中更加準确和高效地處理信息。例如,在天工 3.0AI 搜索的研究模式中,能夠圍繞用戶的某個簡單指令進行相關問題的延伸,并實時判斷該段落信息是否需要聯網搜索。在分析某個具體行業的信息時,能夠實現總結相關事件、拆解産業鏈地圖等複雜功能,并以結構化或思維導圖的形式進行最終展示,讓 AIGC 能力與行業應用更緊密融合。
其次,是語義理解能力的增強。天工 3.0 能夠更好地理解和處理用戶自然語言 Query 中的複雜語義信息,包括隐喻、多義詞等。比如說,天工 3.0 可以對用戶 Query 進行拆解、細化,甚至對用戶進行追問,從而在面對不确定知識時表現更好,能夠滿足用戶多樣化的需求。
此外,天工 3.0 新增了專項 Agent 訓練能力。天工 3.0 可以針對模型獨立規劃、調用、組合外部工具及信息的能力進行了專項訓練,使其能夠獨立生成并調用代碼,完成包括産業研究、産品橫評、信息分析、圖片生成、圖表繪制等多種複雜用戶需求。
針對 B 端産業用戶的需求,天工 3.0 也在知識庫能力、任意工具調用能力、複雜角色指令追尋能力等領域進行了升級,企業用戶可以通過上傳知識文檔構建專屬知識庫及 Agent,并實現自動調用制定工具、完成複雜指令遵循 Agent 構建等實用能力。
最後,天工 3.0 的内容生成能力也得到了全面升級。對比天工 2.0,天工 3.0 群星了全面的内容創作能力增強,能夠完成 AI 音樂生成、AI 語音、AI 對話、AI 二次元漫畫生成等内容創作。還可以通過專項 Agent 訓練實現在對話中結合文本需求實時生成圖片、結合文本需求實時内容分析及圖表構建等能力。
總結天工 3.0 的技術特點,最爲關鍵的一點就是:獨立思考。
天工 3.0 可以将複雜任務進行拆解優化,并在每一步都獨立思考,判斷每一步是否需要調用不同的工具。也是基于獨立思考能力,天工 3.0 新增了聯網能力、文生圖、代碼能力等優勢應用能力,同時增強了 AI 搜索等能力的表現。
更爲值得注意的是,性能強大,技術獨創性極強的天工 3.0,選擇了開源開放的策略。在全球開源大模型極速發展,基于開源生态的 AI 應用百花齊放的大背景下,天工 3.0 的開源無疑是給中國 AI 開源事業注入了強心劑。全面提升了中國開源大模型的整體技術水平與産業底座厚度。
在選擇開源開放的同時,天工 3.0 還搭建了智能體廣場,幫助開發者定制化打造智能體。更好的中文适配度,也讓天工 3.0 與中文開發需求更加契合。
全面增強的能力,更加豐富的功能,以及與開發者更緊密地契合,讓天工 3.0 成爲一塊基石—— " 中國 AI 不缺席 " 的基石。
這一次,中國 AI 不缺席
過去 AI 行業内部總是認爲,我們與歐美頂級 AI 企業之間存在着時間差。在新模型、新技術火熱之後,中國 AI 行業才開始跟随和學習。
但在 AI 音樂大模型的熱潮裏,情況顯然并非如此。爲什麽我們這次可以不跟随,不焦慮,而是第一時間抵達這個舞台,開始自己的演奏?
事實上,在 AI 音樂生成這個方向上,昆侖萬維一直保持着高度關注。早在 2022 年 12 月昆侖萬維發布的 " 昆侖天工 "AIGC 全系列開源算法與模型中,就包括多模态音樂内容生成大模型。此後,昆侖萬維還打造了多個基于 AI 音樂大模型的合作項目,掌握了豐富的實踐經驗。昆侖萬維關注并且重視 AI 音樂生成,是天工 SkyMusic 的戰略牽引。
天工 3.0 與天工 SkyMusic 的發布展現出來了這樣一個價值邏輯:在 AI 大模型快速發展的産業紀元裏,想要提升創新效率,把握戰略機遇,需要首先孕育一個底座。這個底座可以融合各種先進的 AI 技術能力。
昆侖萬維集團董事長兼 CEO 方漢認爲,SOTA 指的是當前技術在本領域技術指标全球第一。OpenAI 是文本大模型和視頻生成大模型的 SOTA,而昆侖萬維目前實現了音樂 AIGC 的 SOTA。
之所以能夠實現這一點,有賴于天工 3.0 提供了底座級别的 AI 能力,進而實現發展效率與發展質量的統一。
昆侖萬維創始人周亞輝認爲:" 未來三十年,人類社會很大的一個變化,是人類要從感知線,變成表達線,整個人類社會在自我表達側要翻 1000 倍;創作和自我表達是未來 30 年在整個社交和文化領域增長最快的曲線,會有越來越多人表達自我,表達對世界的理解、對社會事物的态度,表達越來越藝術化和趣味化;這種表達在過去很困難,因爲工具門檻高,而未來 30 年是自我表達的 30 年,我們要用 AI 把人類創作的門檻降得足夠低,讓人們更充分地實現自我表達。"
基于昆侖萬維 "All in AGI 和 AIGC" 的戰略布局,天工 3.0 成爲集自然語言處理、計算機視覺、多模态、AI 搜索、AI 智能體等多項前沿技術爲一身的 AI 大模型。基于天工 3.0 提供的底座能力,昆侖萬維可以敏銳步驟發展機會,抓住諸如 AI 音樂創作這樣的産業風口。而廣大開發者則可以獲得多元且豐富的 AI 能力,将 AI 帶到千行百業的每個角落。
以超級模型蘊育種種 AI 技術,包容千行百業,這才是全球 AI 音樂會中,那道獨特且悅耳的東方旋律。
在起步階段的天工 SkyMusic,已經爲用戶帶來了豐厚的音樂創作樂趣。随着未來的持續優化升級,我們會得到一個專業且易用的音樂創作平台。圍繞天工 SkyMusic,将可能出現 AI 音樂創作者生态,新的音樂明星。進而影響音樂行業的發展。
在全球 AI 音樂的熱潮背後,我們可以看到從 " 中國 AI 不缺席 " 到 " 中國 AI 如何引領 " 的深刻變革。