在與 Suno 對壘這條道路上,國内在 AI 音樂領域積累已久的公司,已經紛紛在自己的優勢之上推出了相應的模型及應用,正與全球頂級産品展開了一場你追我趕的精彩對決。
有趣的音樂創作玩法,不斷驚豔用戶的模型效果,以及現象級的産品傳播方式,音樂大模型是今年垂直大模型賽道上一個十分稀缺的亮點。
3 月,當 Suno V3 面世之後,許多人驚呼音樂行業要 " 一夜變天 "。最近,Suno 發布了 V4 版本,允許用戶生成音質更高、更好聽、時長更長(4 分鍾)的音樂,也就意味着,一首完整的歌曲可以被 AI 創造出來,AI 音樂創作進入了一個全新的階段。這在海内外引起了廣泛的關注與讨論。
事實上,即便是已經到了 V4 版本,Suno 更擅長的還是英文曲目,中文曲目和中國區用戶并不是其叠代産品需求的重心。而在與 Suno 對壘這條道路上,國内在 AI 音樂領域積累已久的公司,已經紛紛在自己的優勢之上推出了相應的模型及應用,正與全球頂級産品展開了一場你追我趕的精彩對決。
國産 AI 音樂應用三路出擊
在 Suno V3 發布之後,國内大模型玩家紛紛上線了類似的産品,以防錯過音樂行業的 "ChatGPT 時刻 "。
不過,随着時間的流逝,以近一年的時間線觀察來看,到目前,還堅持在 AI 音樂大模型賽道投入的玩家主要有三類:
以字節跳動豆包旗下海綿音樂爲代表的大廠派
以昆侖萬維旗下的天工 SkyMusic 爲代表的新興大模型廠商
以趣丸科技旗下天譜樂爲代表的垂直賽道獨角獸科技公司
作爲字節跳動推出的一款免費 AI 音樂創作和分享平台,海綿音樂主打利用人工智能技術幫助用戶生成個性化的音樂作品。
在海綿音樂,用戶隻需輸入一句靈感或上傳一張圖片,即可生成專屬的音樂作品。平台提供多種音樂風格和創作工具,幫助用戶輕松創作出高質量的音樂。
相比 Suno,海綿音樂在 AI 生成的中文歌曲,提高了吐字的清晰度和演唱的流暢性,音樂曲風也更符合中國人的喜好。
音樂大模型天工 "SkyMusic"是昆侖萬維推出的國内首個音樂 SOTA 模型,基于昆侖萬維的 " 天工 3.0" 超級大模型打造,能夠快速生成多種風格的音樂作品。
" 天工 SkyMusic" 采用的是音樂音頻領域類 Sora 模型架構,Large-scale Transformer 負責譜曲,來學習 Music Patches 的上下文依賴關系,同時完成音樂可控性,Diffusion Transformer 負責演唱,通過 LDM 讓 Music Patches 被還原成高質量音頻,使得 " 天工 SkyMusic" 能夠支持生成 80 秒 44100Hz 采樣率雙聲道立體聲歌曲。
天譜樂是趣丸科技今年 7 月發布的全球首個多模态配樂大模型,上線時間比天工晚,但也比海綿音樂略早一個月,産品從一上線就全面接入了其旗下應用唱鴨 APP,向所有用戶開放。
趣丸科技一直深耕音樂、音頻領域,旗下的拳頭産品還有 TT 語音,如今累計注冊用戶已超 2 億,是國内最大的興趣社交平台之一。
天譜樂大模型集成了圖片理解算法、旋律生成算法、視頻理解算法、配器識别算法等領先技術,多模态理解與生成能力比肩國際先進水平。
值得關注的是,天譜樂大模型不僅支持文生音樂、音頻生音樂,還首創了圖片、視頻生成音樂功能,比 Suno 早推出 3 個月,某種程度上,意味着它的多模态輸入能力超越 Suno。這也是目前幾款國産 AI 音樂中,有明顯特色功能的一款産品。
基于自研的畫面情緒理解模型等領先技術,天譜樂大模型不僅可以根據視頻畫面的明暗、色彩、情緒的細微變化逐幀識别和理解,也可以理解音樂的和弦、旋律、歌詞、演唱風格等複雜特征,最終生成高契合度的視頻配樂。
簡單來說,用戶僅需上傳相冊中的一張圖片或一段不超過 60 秒的視頻,即可生成與高度适配畫面的帶人聲唱詞的完整歌曲,生成效果達到唱片發行級水準。
天譜樂生成人聲歌曲:
音樂大模型持續進化的關鍵
事實上,國内音樂雙巨頭騰訊音樂和網易雲音樂,也分别推出了X · Studio和啓明星這樣的産品,以追趕當前生成式人工智能的浪潮。
但或許是巨頭本身憑借強大的版權庫,已經能夠收獲足夠的市場份額和商業回報,所以外界感受到的是,這兩家公司在 AI 音樂上的投入和活躍度始終不及上述代表性的玩家。
而在與全球科技巨頭角逐 AI 大模型這一場比賽,行業内的一個共識是,AI 應用是國内公司少有的優勢之一,也是少有能夠趕超國外大模型公司的機會。這也就意味着,探索和創造出更多用戶真正會使用的産品,以及可落地商業化場景,才是國産大模型能夠持續進化的基石和未來。
這也符合趣丸科技副總裁賈朔對音樂大模型的理解。他表示," 降低門檻讓普通用戶體驗音樂創作的樂趣 " 是自研天譜樂産品的價值主張。
音樂原創的專業度很高,但是,在 AI 的輔助之下,用戶可以隻需要輸入一句話、一張照片或一段視頻,在 1-2 分鍾内生成一首詞曲結構相對完整的歌曲。
△系統根據視頻生成匹配歌曲
事實證明,這樣的策略的确收獲了不少市場的正反饋。目前已有 4600 萬人注冊使用唱鴨 APP 或天譜樂官網,累計創作近 1000 萬首 AI 歌曲。
技術平權的意義在于,讓更多人能夠享受到科技進步帶來的便利和好處,縮小不同群體之間的技術差距。
除了服務音樂愛好者等 C 端用戶,應用在影視制作等專業從業者的工作流,則爲 AI 音樂大模型落地提供更多可商業化的場景。
當前市面上的音樂大模型,一方面,可以服務于專業音樂人,通過縮減詞曲創作、編曲等工作提升了音樂創作效率,讓快速創作和試驗新的音樂構思成爲可能。另一方面,在短視頻浪潮之下,音樂大模型正在輔助短視頻創作者,讓他們更容易創造出符合視頻内容的背景音樂,提升内容質量和觀衆體驗。
據了解,天譜樂還将在近期發布新功能——MidiRender,功能類比于一個精準、可控音樂版的 Control Net,專業的創作用戶可以輸入自己的音樂構想,讓天譜樂 AI 根據這個原創音樂片段填充歌詞、完成編曲。
創作者輸入原創音樂片段:
天譜樂填充歌詞完成編曲:
這些提供定制化的音樂解決方案,帶來更多的應用場景和商業機會,能夠持續促進音樂産業的創新和發展。
AI 音樂創作還有哪些待解的難題?
盡管音樂大模型在 2024 年以前所未有的速度在狂飙,但它身後依舊給這個行業的操盤手留下了一些難解的尴尬。
首當其沖是音樂版權的問題。高質量的音樂生成模型依賴高質量的音樂音頻數據。
今年 6 月,環球音樂集團、索尼音樂集團和華納音樂集團等多家唱片公司就對 Suno 和 Udio 發起訴訟,稱它們非法使用版權音樂來訓練自己的 AI 模型并對外提供服務。随後,Suno 進行了回擊,指責它們利用版權訴訟來保護自己在人工智能音樂領域的市場主導地位。
目前雙方的争奪尚未有一個定論,但唯一可以肯定的是,AI 音樂公司在技術上取得了顯著進展,如何在法律框架内運營和商業化,将是這些公司未來必須思考的問題。
此外,音樂大模型生成的音樂作品是否享有版權保護,其版權歸屬如何界定,尚無明确的法律規定,這給音樂大模型的應用帶來了不确定性和風險。
針對版權的問題,賈朔發現,其實可以從技術手段上規避一些紛争。比如,在産品側,當用戶在使用 AI 創作時,可判斷其是否有主觀意圖模仿現有藝術家,并且做出彈窗提示。
事實上,人類在進行藝術創作的時候,靈感都未必是憑空産生,多數也是吸取和借鑒過往曆史上、産業裏優秀的案例,不斷打磨叠代,在巨人肩膀上創新和創造。訓練 AI 大模型是如此,人類學習成長與進步也類似。
另一方面,則是音樂的創意與情感。
音樂創作具有很強的專業性,但也屬于人類的情感和情緒的一種表達。雖然音樂大模型可以生成具有特定風格和情感的音樂作品,但其創意和獨特性仍然有限。
如何提升音樂大模型的創意能力,使其能夠創作出更具個性和創新性的音樂作品,是當前音樂大模型需要突破的方向之一。
在這一方向上,行業裏有一個思路是,讓 AI 生産的音樂聲音更像 " 人 ",以此更契合人類的情感表達訴求,使生成的歌曲引發更多人的共情與共鳴。
比如說,消除 AI 歌曲的電音問題。這是 AI 音樂過往被用戶吐槽最多的事情,也是很多音樂大模型在人聲技術上攻克的重點之一。趣丸科技表示,最近這一問題已經率先解決,得益于最新的天譜樂大模型 2.2 版本,在長序列音樂語意建模和高質量音頻空間建模上,實現進一步突破,高度還原音樂音頻在高維空間的連續信号表征,實現音樂性和音質的飛躍。播客 "Vibration 歪波音室 " 主理人拾壹也在公開場合提到,幾乎無法區分天譜樂的人聲唱詞和真人歌曲。
但也需要看到,盡管 AI 能夠模拟人類的創作模式,它始終很難真正理解和表達人類複雜的情感。音樂中的情感往往是創作者内心深處的真實感受,AI 生成的音樂可能在情感表達上顯得較爲膚淺。而一些缺乏人類靈氣和感情的作品,在這個流量大爆炸和注意力被狂轟濫炸的時代,我們沒有理由再去承受更多。
作爲人類,我們還需要面對的是,AI 音樂創作的發展會對部分人類音樂創作者的就業和創作空間造成一定的擠壓。但無論如何,在當前的階段,我們需要尋找一種平衡,實現 AI 與人類創作者的真正的共存。
* 本文系量子位獲授權刊載,觀點僅爲作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>