AI 孫燕姿這麽快翻唱了這麽多首歌,到底是咋實現的?
關鍵在于一個開源項目。
最近,這波 AI 翻唱趨勢大火,不僅是 AI 孫燕姿唱的歌越來越多,AI 歌手的範圍也在擴大,就連制作教程都層出不窮了。
而如果在各大教程中溜達一圈後就會發現,其中的關鍵秘訣,還是要靠一個名爲so-vits-svc的開源項目。
它提供了一種音色替換的辦法,項目在今年 3 月發布。
貢獻成員應該大部分都來自國内,其中貢獻量最高的還是一位玩明日方舟的廣西老表。
如今,項目已經停止更新了,但是星标數量還在蹭蹭上漲,目前已經到了 8.4k。
所以它到底實現了哪些技術能引爆這波趨勢?
一起來看。
多虧了一個開源項目
這個項目名叫SoftVC VITS Singing Voice Conversion(歌聲轉換)。
它提供了一種音色轉換算法,采用 SoftVC 内容編碼器提取源音頻語音特征,然後将矢量直接輸入 VITS,中間不轉換成文本,從而保留了音高和語調。
此外,還将聲碼器改爲 NSF HiFiGAN,可以解決聲音中斷的問題。
具體分爲以下幾步:
預訓練模型
準備數據集
預處理
訓練
推理
其中,預訓練模型這步是關鍵之一,因爲項目本身不提供任何音色的音頻訓練模型,所以如果你想要做一個新的 AI 歌手出來,需要自己訓練模型。
而預訓練模型的第一步,是準備幹聲,也就是無音樂的純人聲。
很多博主使用的工具都是UVR_v5.5.0。
推特博主 @歸藏介紹說,在處理前最好把聲音格式轉成 WAV 格式,因爲 So-VITS-SVC 4.0 隻認這個格式,方便後面處理。
想要效果好一些,需要處理兩次背景音,每次的設置不同,能最大限度提高幹聲質量。
得到處理好的音頻後,需要進行一些預處理操作。
比如音頻太長容易爆顯存,需要對音頻切片,推薦 5-15 秒或者再長一點也 OK。
然後要重新采樣到 44100Hz 和單聲道,并自動将數據集劃分爲訓練集和驗證集,生成配置文件。再生成 Hubert 和 f0。
接下來就能開始訓練和推理了。
具體的步驟可以移步 GitHub 項目頁查看(指路文末)。
值得一提的是,這個項目在今年 3 月上線,目前貢獻者有 25 位。從貢獻用戶的簡介來看,很多應該都來自國内。
據說項目剛上線時也有不少漏洞并且需要編程,但是後面幾乎每一天都有人在更新和修補,現在的使用門檻已經降低了不少。
目前項目已經停止更新了,但還是有一些開發者創建了新的分支,比如有人做出了支持實時轉換的客戶端。
項目貢獻量最多的一位開發者是Miuzarte,從簡介地址判斷應該來自廣西。
随着想要上手使用的人越來越多,也有不少博主推出了上手難度更低、更詳細的食用指南。
歸藏推薦的方法是使用整合包來推理(使用模型)和訓練,還有 B 站的 Jack-Cui 展示了 Windows 下的步驟指南(https://www.bilibili.com/read/cv22375562)。
需要注意的是,模型訓練對顯卡要求還是比較高的,顯存小于 6G 容易出現各類問題。
Jack-Cui 建議使用 N 卡,他用 RTX 2060 S,訓練自己的模型大概用了14 個小時。
訓練數據也同樣關鍵,越多高質量音頻,就意味着最後效果可以越好。
還是會擔心版權問題
警告:請自行解決數據集的授權問題。因使用未經授權的數據集進行培訓而産生的任何問題及其一切後果,由您自行承擔責任。存儲庫及其維護者、svc 開發團隊,與生成結果無關 !
這和 AI 畫畫爆火時有點相似。
因爲 AI 生成内容的最初數據取材于人類作品,在版權方面的争論不絕于耳。
而且随着 AI 作品盛行,已經有版權方出手下架平台上的視頻了。
據了解,一首 AI 合成的《Heart on My Sleeve》在油管和 Tik Tok 上爆火,它合成了 Drake 和 Weekend 演唱的版本。
但随後,Drake 和 Weekend 的唱片公司環球音樂将這個視頻從平台上下架了,并在聲明裏向潛在的仿冒者發問," 是要站在藝術家、粉絲和人類創造性表達的一邊,還是站在 Deepfake、欺詐和拒付藝術家賠償的一邊?"
此外,歌手 Drake 也在 ins 上對 AI 合成翻唱歌曲表達了不滿。
而另一邊,也有人選擇擁抱這項技術。
加拿大歌手 Grimes 表示,她願意讓别人使用自己的聲音合成歌曲,但是要給她一半版權費。
GitHub 地址:
https://github.com/svc-develop-team/so-vits-svc
參考鏈接:
[ 1 ] https://mp.weixin.qq.com/s/bXD1u6ysYkTEamt-PYI1RA
[ 2 ] https://www.vulture.com/article/ai-singers-drake-the-weeknd-voice-clones.html