毫無疑問, AI 的出現,讓不少行業面臨着技術革新,音樂圈子也不例外。
不僅人聲模拟,在音樂創作這塊兒, AI 也是卯足了勁,各種文本生成音樂模型是一個接着一個:
像是 OpenAI 的 MuseNet 、谷歌的 MusicLM 、 Meta 的 MusicGen ,還有前不久 Stability AI 家剛出來的 Stable Audio 等等等等。
這還隻是一些比較出圈的 AI 音樂模型,其他的不知名的更是海了去了。
這麽多生成音樂的 AI 模型,它們主打的,都是一個讓音樂門外漢也能作曲,隻要動動手會打字、會描述就 OK 了。
這麽一說,讓沒什麽樂理知識的世超着實很心動,作曲咱不會,但文字描述可是咱擅長的領域。
于是,我們決定親自試試目前市面上比較出圈的幾款 AI 作曲模型,看看它們到底能不能實現從零作曲,以及寫出來的曲子到底好不好聽、符不符合要求。
首先出場的是 Stability AI 的新作曲 AI :Stable Audio 。
官方說是用了超過 80 萬個音頻文件去訓練模型,裏面像音樂、音效、單一樂器演奏等都有包含,整個數據集的時長加起來有 19500 多個小時。
并且光靠語言描述, AI 就能生成最長 90 秒的音樂。
風格跨度也是賊大,世超去它們官網聽了下示例,有鋼琴、架子鼓這種單純器樂的。
還有不同流派不同風格的,比如民族打擊樂、嘻哈、重金屬之類的。
甚至還能生成白噪音,像是一個餐館裏嘈雜的吵鬧聲, u1s1 聽起來還蠻逼真的。
當然,官方公布的肯定都是挑比較好的演示展示出來,到底用起來怎麽樣還是得親自上手試試。
于是我們也注冊了号,看看我這個音樂門外漢通過這個模型能創作出什麽樣的音樂來。
由于是剛發布,世超還花了好一會兒時間才進到 Stable Audio 的使用網頁。
進去之後,我們先讓它生成一段 30 秒的貝斯 solo , 112 個節拍,要 funk ,有律動一點。
生成過程大概用了一兩分鍾,世超聽了下結果,倒是有點出乎意料,是在彈貝斯沒錯,音樂風格也挺準确,但唯一的瑕疵就是這貝斯的音色不太清晰,像是指彈和 slap 的中間态。
接下來上點難度,樂器複雜點,讓它生成一段朗朗上口的流行舞曲,中間帶着熱帶打擊樂,要有歡快的節奏,适合在沙灘上聽。
這次 Stable Audio 有點小失誤,雖然節奏挺歡快的,也挺适合在沙灘蹦跶的,但提示詞裏的熱帶打擊樂,我愣是沒在這 30s 聽出來。
再讓它生成一段搖滾曲風的音樂,也是不出幾分鍾就搞定了,雖然聽起來依舊不怎麽清晰,但搖滾曲風以及電吉他、架子鼓的聲音還是能聽出來的。
整體體驗下來,在音樂生成這塊, Stable Audio 的表現确實沒有什麽大錯,偶爾還會有一些出乎意料的表現。
起碼對于一些想給短視頻插背景音樂的創作者來說,這個完全夠用了。
并且這次, Stable Audio 還專門在時長上下了一點功夫,普通版可以生成 45 秒以内的音頻,想要更長的話,就升級個 PRO 版,可以連續生成 90 秒。
接下來上第二位選手:Meta AI 的MusicGen ,它基于 Transformer 架構,靠上一段音頻預測生成之後的音頻片段。
現在 MusicGen 隻公布了 Demo ,能在 huggingface 上淺淺體驗一波。
比如說生成一段嘻哈曲風的音樂,聽起來很抓耳,節奏倒是蠻幹淨利落的。
和 Stable Audio 不太一樣的是, MusiacGen 在生成音樂時,提示詞會更自由一點,不僅有文字的選項,還可以補充一些聲音文件。
操作起來很簡單,輸入提示詞,再把想參考的音樂片段直接拖到文件框内,或者現場錄音,當然音頻提示也可以不填。
雖然 MusiacGen 一次最長隻能生成 30s 的音頻,但有音頻提示的加成,生成一段長音頻也不是不可能,就是會有點麻煩。
隻要每次生成 30s 的音頻後,前後截取 10s 作爲之後的提示,最後拼接起來就是一段長音頻了。
不過在整個體驗過程中,有一點着實會勸退一大波人,那就是它生成的速度實在是太慢了,三四分鍾還算好的,離譜的是有時等了好幾分鍾,結果突然彈出個崩潰了的彈窗。。。
今年年初,谷歌也發布了音樂大模型 MusicLM ,在現有的作曲 AI 中,谷歌的這個功能最多。
除了最基礎的文字生成音樂之外, MusicLM 還搞了一些其他花樣。
比如說故事模式,可以讓它生成一段 1 分鍾長的音樂: 0~15s 冥想、 16~30s 醒來、 31~45s 跑步、 46~60s 結束。
生成的音頻聽起來确實還挺符合要求的,但就還是老毛病,樂器的聲音不夠清晰,各個段落之間的轉換也有點生硬。
還有看圖配樂的功能,給出一個經典的拿破侖騎馬穿越阿爾卑斯山的圖,再對圖片進行一些描述, MusicLM 就能給生成 30s 的配樂。
這次聽起還真有點戲劇的感覺。
MusicLM 同樣沒有對外公布,想要體驗隻能在 AI Test Kitchen 上排隊獲取内測資格。
OpenAI 的 MuseNet ,在三年前就已經在官網公布了。
不過最近這幾年倒是沒怎麽更新,還是基于和 GPT-2 一樣的技術。并且 3 年過去了,這個 AI 還沒有對外開放使用。
但看看它官網對 MuseNet 的介紹以及給出的示例,估摸着出來就是吊打上面模型的存在。
先不說生成音樂的質量,就光是時長就已經很頂了,最多可以生成 4 分鍾的音樂。
不說是 AI 創作的,我還真會以爲是那個音樂大師編的新曲子,有引入、有高潮,樂器的聲音也很清晰,再簡單調整下就是個完整的音樂作品了。
當然,有這樣的效果除了有神經網絡的功勞外,訓練用的數據集也是起到關鍵作用的。
OpenAI 統共用了數十萬個 MIDI 文件訓練 MuseNet ,下面這張圖就是用到的部分數據集,從肖邦、巴赫、莫紮特到邁克 · 傑克遜、披頭士、麥當娜,從古典到搖滾到流行,幾乎各種風格的音樂都能在裏面找到。
不止國外,國内這幾年 AI 音樂也是發展得火熱,去年華爲開發者大會上,就公布了一款音樂 AI :Singer 模型,網易雲面向音樂人推出了網易天音,作詞、作曲、編曲直接都能靠 AI 解決。
在前不久的 2023 世界人工智能大會上,騰訊多媒體實驗室也展示了自研的 AI 通用作曲框架 XMusic 。
總的來說,這幾個 AI 作曲模型也算是各有千秋,想要的音樂風格基本都能生成,甚至有時生成的音樂不仔細琢磨還真聽不出來是 AI 生成的,用在一些短視頻中也是能妥妥地 " 蒙混 " 過去。
但若要以一個專業人士來看的話,上面這些 AI 恐怕都或多或少有些缺點,最明顯的就是上面提到的那幾個 AI ,它們生成的音樂在樂器演奏上幾乎都不太清晰。
比如今年 1 月份,美國唱片業協會向政府提交了一份侵權報告,提醒他們要重視 AI 音樂侵權的問題。
就連 MusicLM 的研究人員也親口承認了侵權問題,在論文中寫到會有盜用創意内容的潛在風險。
原因是在試驗這個模型的過程中,發現它在生成的音樂裏,大概有 1% 是直接從訓練的數據集中照搬過來的。
也難怪現在大多音樂 AI 模型要麽幹脆不對外試用,要麽隻有 demo 或者排隊内測,就連對外開放的 Stable Audio 也是反複強調自己的數據集是經過 AudioSparx 授權的。
抛開版權問題不說,目前 AI 在音樂這塊的發展确實是令人咋舌,擁抱 AI 音樂也已經是行業内的大勢所趨。
像專門提供輕音樂的 AI 音樂公司 Endel ,已經先後得到了華納、索尼等音樂巨頭的投資, AI 音樂創作平台 Soundful 也拿到了環球音樂、迪士尼、微軟的投資。
當然,入局 AI 音樂是出于商業以及科技趨勢的考量,在音樂性與藝術性上,目前的 AI 還是遠不及人類創作者的,而這也是未來 AI 最應該優先考慮的。