撰文 | 龍 曦
題圖 | 騰訊音樂
在這個群 " 模 " 亂舞的時代,有人提出,所有的互聯網業務,都可以用大模型再做一遍。
話雖如此,但大模型真正落地的要素,卻相當難以具備。如果說傳統意義上的 " 算法、算力和數據 " 是 AI 的基本要素,那麽 " 高質量數據 + 高層次人才 + 高頻場景 " 的 " 三高要素 ",才是催生大模型、特别是行業大模型的關鍵。
從這個角度去看,騰訊音樂娛樂集團(下稱 " 騰訊音樂 ")正在構建和完善自己的 " 三高要素 ",以組建屬于音樂産業的大模型。事實上,這家領先的中國在線音樂與音頻娛樂平台已經廣泛的在業務中使用 AI 技術,這次财報披露的信息也顯示,在較短時間内,這家企業已基于數據和場景方面的優勢,在大模型賽道的産業化應用方面探索出了一條有差異化競争力的新路。
01.
音樂擁抱大模型:騰訊音樂的産業 AIGC 落地探索
生成式大模型 ChatGPT 引發的全球群 " 模 " 亂舞,使得 AIGC(人工智能原創内容)備受關注。
事實上,除了強大的文本能力之外,圖像、音樂乃至一切可以用數字形式承載的 " 内容 ",都可以用大模型的方式進行生成,所以在當下,多模态大模型也成爲一個備受關注的方向。
由于世界上已經有很多開源大模型、開源數據集作爲基礎,所以,僅僅就做出一個大模型本身而言,隻要具有足夠的資金和人才資源,想要達到一定的參數量,并不是多麽困難的事。這也是很多新創團隊在很短的時間内就宣布自己推出生成式大模型的深層原因。
但用錢解決不了的問題是,如果不能具備實際的落地場景和商業價值,大模型本身并不能産生價值,隻能成爲成本。
所以,要判斷大模型能否落地,先要看看這一領域内是否已經有足夠的 AI 實踐。
從這個角度看過去,騰訊音樂在 AIGC 方面,已經有了諸多方面的領先嘗試。例如其最新一季财報中,就提到了其正在持續探索大語言模型(LLMs)在 AIGC 領域落地的多元應用,推出的 "TME Studio 音樂創作助手 " 與 " 音色制作人 " 不僅協助音樂人在作詞、作曲、音樂内容分析與剪輯等制作環節的效率提升,還可将用戶原聲與不同歌曲無縫融合,促進高質量内容的創作。甚至其财報視頻中的音樂,也由騰訊音樂領先的音頻大模型協助創作完成。
有實踐就更容易用好大模型,本質上,是因爲大模型也是 AI 的一種,也遵循 AI 落地的基本規律。所以,如果一個企業以前一點使用 AI 的積累都沒有,憑空宣布自己要深度切入大模型領域,大概率是爲了講故事和畫餅充饑。
而騰訊音樂,在有諸多 AI 實踐經驗和場景、數據積累方面,都有充分的準備,這意味它的大模型之路,已然會平坦許多。
02.
騰訊音樂産業大模型:基于行業需求的生産力布局
目前大模型的通用玩法有兩種,第一是自建千億級乃至萬億級的通用大模型,另一個是利用已有通用大模型的能力,做産業級大模型。
但是,無論如何,都有三個痛點不能忽視。
首先,需要有清晰的應用落點,而且要和大模型的能力匹配。
騰訊音樂的業務焦點就是音樂等内容和音效、直播等音視頻技術,再加上其在用戶側的應用、互動、參與,這是突出且明确的剛需。所以從這個角度說,需求足夠明确,就有清晰的應用落點。
其次,是有足夠規模的預訓練數據集。
即使有了深度學習技術的加持,但經過人工精标的大規模訓練數據集,仍然是生成式模型的關鍵。
目前比較通行的行業說法是,一個産業級(賽道級,而非通用級)大模型,至少需要 500GB 以上精标的數據,或者至少 2500 億字的高質量内容。
而騰訊音樂的其中一個核心優勢在于,其本身就具有大量的數字化内容。
例如,随着多元化音效成爲用戶音樂消費的 " 剛需 "。第一季度,騰訊音樂将高品質音質進一步覆蓋至車載場景,其旗下 QQ 音樂的銀河音效可實現車載音響的最佳效果。酷狗音樂的蝰蛇音效也在滿足方便使用、好聽好玩的基礎功能之上,持續深耕,讓音效服務在聽感提升的同時,不斷更新各類玩法,以開放平台打造 UGC 音效社區,成爲國内首屈一指的音效品牌。
這裏的重點是 "UGC"。我們可以理解爲,12 萬條以上的音效中有相當部分,是用戶參與構建或打磨的,而這種 " 打磨 " 某種程度上就可以視爲一種 " 數據标注 ",這都是騰訊音樂可以複用的優質數據資源。
而随着智能化輔助創作工具――騰訊音樂旗下 TME Studio 等全新創作工具的推出,使得大批音樂人加入、使用,驅使這部分數據的質量也在不斷提升,使得騰訊音樂的大模型有了充足的數據燃料。
最後,大模型落地還需要企業有足夠的垂直領域的數字化能力,這對于數字原生的騰訊音樂來說是一個天然利好,而很多傳統産業要邁過這一關,則并不容易。
因此,行業都在大膽猜測,騰訊音樂未來的大模型,将是在騰訊集團的通用大模型的基礎上,結合特定需求和專有數據集訓練生産的行業多模态大模型。
其中,第一個問題很好解決,真正的超大規模的通用大模型(AGC)需要 1 萬張算力卡以上和近乎黑洞般的數據,能具備這個條件的企業不多,騰訊肯定是其中一個;
其次,騰訊音樂不需要從底座就開始做,而應該是基于前者做私有化部署,并且結合垂直領域的數據和知識 " 微調 " 自己的個性化模型。
這其中的道理,就像用電一樣,雖然家家都需要,但不需要家家都有發電廠。對于騰訊,通用大模型一個就夠了,用各個業務群組自己的數據做私有化部署和做個性化微調是最佳的解決方案。
最後一個推測是,這個過程将很快推進到實用階段。因爲,騰訊音樂的 AI 落地場景很多,對大模型有切實的需求,所以很快就能用起來并産生商業和社會價值。大模型對于騰訊音樂不是噱頭、不是妝點,而是實實在在的生産力。
03.
産業未來應用落地:技術即内容生産力
據了解,在 ChatGPT 出來之前,騰訊音樂就已經在使用百億參數的大語言模型。
從結果上看,确實落地也很快,這些嘗試也讓騰訊音樂頗具行業前瞻性地在産業級大模型的訓練和部署上積累了豐富的經驗。
那麽,産業級多模态大模型在騰訊音樂體系内的應用,結合其現有業務來看會如何落地和輸出價值呢?
在内容創作方向,騰訊音樂此前已經了推出的面向音樂人的智能化輔助創作工具―― TME Studio,除了集合了 QQ 音樂銀河音效、MUSE 引擎、TME 天琴實驗室等各方面的技術外,騰訊 AI Lab 作爲騰訊内部最重要的 AI 團隊,也對其提供了強有力的 AI 技術支持。
而旗下酷狗的 " 音色制作人 ", 其技術本質,是通過深度學習原理,可以通過學習人的聲音 , 經過 AI 智能化處理後生成專屬的音色音效 , 并以此來制作歌曲。
這些工具都極大的降低了音樂創作的門檻,其中,TME Studio 中的可分離提取歌曲中的人聲和樂器的 " 音樂分離 "、基于音樂内容理解識别各式歌曲要素的 "MIR 計算 " 等功能;以及音色制作人中的全新上線 AI 封面、AI 寫真、AI 幫唱、AI 詞曲評估以及 AI 覓詞等五大功能,都實現了以科技來改變過去音樂制作存在的 " 不可能三角 " ——質量、速度、成本 , 令其能夠同時實現。
它們的價值體現在,對C 端來說,從單純的音樂欣賞(單向傳播)變成了 UGC、PUGC 參與的可共創、可交互的系統,使得各種體驗和玩法得到極大的提升;從 B 端來說,由于用戶的廣泛參與,和未來生成能力的增強,将從根本上改變音樂行業的成本機構,而成本結構的改變是一切深層次産業變革的基礎。
" 目前,中國已躍升成爲全球第五大音樂市場。這意味着産業從業者們通過長期更耕耘,正在持續推動着中華文化影響力的持續提升。而技術的進步,則能爲音樂産業在數字化時代的發展提供更加夯實的基礎和更高的生産效率。" 對于 AIGC 等前沿技術在音樂産業内的應用和發展趨勢,騰訊音樂娛樂集團 QQ 音樂技術副總裁、天琴實驗室負責人周文江表示,基于對行業發展痛點和用戶體驗需求的深度洞察,TME 在前幾年已率先組建天琴實驗室等業内頂尖的技術研究團隊,各團隊技術人才結構和部分研究成果已達到行業領先水平,目前也正在持續推動文本、圖像、音視頻等多個維度的 AIGC 創新成果落地," 在爲行業提供更全面的數據支撐的同時,也希望能爲音樂産業的數字化升級和高質量發展注入新的活力。"
當音樂遇上 AIGC,用技術爲文化創造更多價值的未來已經近在眼前。毫無疑問的是,大模型的賦能,将使得騰訊音樂把技術轉化爲實實在在的生産力,能夠爲行業提供更多服務、爲用戶提供革命性體驗,最終雙向奔赴,進而爲行業創造更多增量,推動自身和行業的高質量增長,也爲我們的精神生活增添更多的樂趣。