一段話整出一首歌,甚至是男女唱(跳)rap 的那種。
谷歌最新模型MusicLM一經推出就驚豔四座,不少網友驚呼:這是迄今聽到最好的譜曲。
它可以根據文本生成任何類型的音樂,不管是根據時間、地點、年代等各種因素來調節,還是給故事情節、世界名畫配樂、生成人聲 rap 口哨,通通不在話下。
比如這幅《呐喊》(Scream)
在一段摘自百科的說明提示下,它生成了這樣一段音樂。
(蒙克在一次幻覺經曆中感受到并聽到了整個自然界的尖叫聲,它的靈感來源于此,描繪了一個驚慌失措的生物,既像屍體又讓人聯想到精子或胎兒,其輪廓與血紅色天空的旋渦線條相呼應。)
ViT(Vision Transformer)作者在聽過一段關鍵詞含 " 平靜舒緩 "" 長笛和吉他 " 的生成音樂後,表示自己真的平靜下來。
也不免有同行表示,這對我來說比 ChatGPT 更值得關注,谷歌幾乎解決了音樂生成的問題。
畢竟 MusicLM 背靠 280000 小時音樂的訓練數據庫,事實上從現釋出的 Demo 來看,MusicLM 的能力還不止如此。
還可以 5 分鐘即興創作
可以看到,MusicLM 最大的亮點莫過于就是根據豐富的文字描述來生成音樂,包括樂器、音樂風格、适用場景、節奏音調、是否包括人聲(哼唱、口哨、合唱)等元素,以此來生成一段 30 秒的音樂。
即便說的隻是那種說不清道不明的氛圍," 迷失在太空 "、" 輕松而悠閑 ";又或者是直接用在一些實用場景上,比如 " 街機遊戲配樂 "、給繪畫配樂等。
除此之外,MusicLM 具備長段音樂創作、故事模式、調節旋律等方面的能力。
在長段音樂方面, 它能完成5 分鐘即興創作,即便提示隻有一個詞。
比如僅在 Swing(搖擺)的提示下,聽着真就有種想馬上下班去跳舞的沖動。(bushi)
而在故事模式中,不同的情标記甚至可以精确到秒的生成,哪怕情境之間完全沒有任何聯系……
遊戲中播放的歌曲(0 到 15 秒)——河邊播放的冥想曲(15 到 20 秒)——火 ( 0:30-0:45 ) ——煙花 ( 0:45-0:60 )
更讓人驚豔到的是,它還有很強的實用性功能。
一方面,它可以将旋律的提示結合進文本提示當中去,這樣一來可以更精細地來調整音樂。有點改甲方爸爸需求那味了。
另一方面,它還能根據具體的樂器、地點、流派、年代、甚至是音樂家演奏水平等文本來生成。
背後生成模型 MusicLM
但有一說一,AI 生成音樂模型不在少數,谷歌自己此前也推出有類似的模型 AudioLM。
此番 MusicLM 究竟有何不同?
據研究團隊介紹,貢獻主要有三個方面:
生成模型 MusicLM。
把方法擴展到其他條件信号,如根據文本提示合成的旋律,并生成 5 分鐘的 demo。
發布了首個專門為文本 - 音樂生成任務評估數據集 MusicCaps。
首先,MusicLM 正是基于谷歌三個月前提出AudioLM模型的拓展。
AudioLM 不需要轉錄或标記,隻需收聽音頻,AudioLM 就能生成和提示風格相符的連貫音樂,包括鋼琴音或人聲對話等複雜聲音。
而最新的 MusicLM,就是利用了 AudioLM 的多階段自回歸建模作為生成條件,且以此為基礎進行拓展,使其可以通過文本提示來生成和修改音樂。
它是一個分層的序列到序列(Sequence-to-Sequence)模型,可以通過文本描述,以 24kHz 的頻率生成音樂,并在幾分鐘内保持這個頻率。
具體而言,研究團隊使用了三個模型來用來預訓練,包括自監督音頻表征模型SoundStream,它可以以低比特率壓縮一般音頻,同時保持高重建質量。
還有語義标記模型 w2vBERT,促進連貫生成;音頻文本嵌入模型 Mulan,它可以将音樂及其對應的文本描述投射到嵌入空間(以消除在訓練時對文本的不同需求),并允許純音頻語料庫上進行訓練,以此來應對訓練數據有限的難題。
訓練過程中,他們從純音頻訓練集中提取 MuLan 音頻标記、語義标記和聲學标記。
在語義建模階段,他們用 MuLan 音頻标記作為條件來預測語義标記。随後在聲學建模階段,又基于 MuLan 音頻标記和語義标記來預測聲學标記。
每個階段都被建模為一個序列 - 序列任務,均使用單獨解碼器 Transformer。
在推理過程中,他們使用從文本提示中計算出的 MuLan 文本标記作為調節信号,并使用 SoundStream 解碼器将生成的音頻标記轉換成波形。
在 280000 個小時的訓練後,MusicLM 最終學會了保持 24kHz 的頻率生成音樂,哪怕用來生成音樂的文本非常繞口。
類似 " 迷人的爵士歌曲與令人難忘的薩克斯獨奏和獨奏歌手 " 或 " 柏林 90 年代低音和強烈的電子樂 " 之類的。
研究團隊還引入了一個高質量音樂數據集 MusicCaps 來解決任務缺乏評估數據的問題。
MusicCaps 由專業人士共建,涵蓋 5500 個音樂 - 文本對。研究團隊公布了這個數據集,方便大夥進一步的研究。
這麼一套操作下來,通過定量指标和人工評估,MusicLM 在音頻質量和文本契合度等方面都優于此前的音樂生成 AI。
不過,谷歌研究團隊說了:目前沒有對外發布 MusicLM 的計劃。
原因很簡單,除了訓練過程中難免出現的樣本質量失真,最最關鍵的還有 2 點。
一來,盡管 MusicLM 在技術上可以生成合唱和聲等人聲,但是仔細聽來,生成音樂的歌詞,有的還勉勉強強聽得出是音樂,有的根本就是無人能聽懂的外星方言。
再者,研究團隊發現系統生成的音樂中,約有 1% 直接從訓練集的歌曲中複制——這已經足以阻止對外發布 MusicLM 了。
此外,還有批評者質疑,在受版權保護的音樂素材上訓練 AI 模型到底合不合理。
不過團隊在論文中介紹了下一步動向,主要關注歌詞生成、改善提示文本準确性以及提高生成質量。
複雜音樂結構的建模也将成為團隊的重點關注方向之一。
音頻生成 AI
這個研究的背後團隊,是谷歌研究院。
共同一作 Timo I. Denk,是谷歌瑞士的軟件工程師,每天的工作就是利用 ML 進行音樂理解。
在這裡多說兩句,MusicLM 的論文中,研究團隊提到,MusicLM 在質量和提示依從性方面都優于以前的系統。
" 以前的系統 " 包括哪些?
一個是Mubert,已在 Github 開源 API,是一個 text-to-music 的 AI,系列産品有根據既有标簽生成音樂的 Mubert Render、聽歌軟件 Mubert Play 等。
還有Riffusion,它建立在 AI 繪圖的基礎上,但将其應用于聲音。
換句話說,Riffusion 的工作原理是首先構建一個索引的頻譜圖集合,上面标記代表頻譜圖中捕獲的音樂風格的關鍵字。
在頻譜圖主體上訓練時,Riffusion 就用 Stable Diffusion 的同一個方法——幹預噪音,來獲得與文本提示匹配的聲波圖像。
還有針對音樂制作人和音樂家的 AI 音頻生成工具Dance Diffusion,OpenAI 推出的可自動生成音樂的 ML 框架Jukebox……
要咱說,别成天盯着 ChatGPT 了,AIGC 下一個風口萬一是音樂生成呢?
參考鍊接:
[ 1 ] https://google-research.github.io/seanet/musiclm/examples/
[ 2 ] https://arxiv.org/pdf/2301.11325.pdf
[ 3 ] https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/