天工 3.0 更新頁面
還記得一年前發布的 " 天工 1.0" 嗎?當時雙千億級參數就已經讓業界震驚了。沒想到,僅僅一年過去," 天工 3.0" 的參數量就直接翻了一倍,高達 4000 億!
我的天,4000 個億啊!這是人類的腦子嗎?
别慌别慌!咱先來看看 4000 億參數到底有多厲害?用一個形象的比喻,如果把 " 天工 1.0" 比作一個尖子生,那 " 天工 3.0" 就是名校博士生導師級别的。它不僅有更廣博的知識,更具備更深入的理解和更強大的處理能力。
當然,數量隻是第一步,質量的提升同樣驚人。這次的" 天工 3.0" 采用了更時髦的 MoE(Mixture of Expert)架構,是全球最大規模的開源 MOE 大模型。通過混合多個專家模型,實現了性能的大幅躍升。
其中最令人驚喜的,是全新的 AI 音樂功能" 天工 SkyMusic",它基于昆侖萬維 " 天工 3.0" 超級大模型打造,是國内首款、同時也是目前國内唯一公開可用的 AI 音樂生成大模型。集歌詞、曲調、編曲、演唱,直接一條龍服務,是中國首個音樂 AIGC SOTA,下載 APP 首頁就能體驗到。
不過對咱們普通用戶來說,關心的無非就是 AI 助手夠不夠智能,夠不夠好用,體驗感如何。咱們測過那麽多産品了,今兒就來驗驗它成效如何?
(PS:目前 " 天工 3.0" 和 " 天工 SkyMusic" 開放公測了!大家可以在 APP 下載體驗。)
第一部分:天工 SkyMusic 廣告音樂也能生成!
說到 天工 SkyMusic,有必要說說它的原理:
「天工 SkyMusic」采用音樂音頻領域類 Sora 模型架構,Large-scale Transformer 負責譜曲,來學習 Music Patches 的上下文依賴關系,同時完成音樂可控性;Diffusion Transformer 負責演唱,通過 LDM 讓 Music Patches 被還原成高質量音頻,使得「天工 SkyMusic」能夠支持生成 80 秒 44100Hz 采樣率雙聲道立體聲歌曲。這套模型架構在處理視頻、音頻和音樂領域效果極佳。
天工 SkyMusic 技術原理圖
舉例解釋原理
别急别急,咱用一個例子讓你秒懂天工 SkyMusic 是怎麽實現的:
你可以把天工 SkyMusic 想象成一個超級厲害的 " 作曲機器人 "。這個機器人有三個部分:編碼器(Encoder)、神經網絡(DiT)和解碼器(Decoder)。
編碼器就像機器人的 " 耳朵 ",它會仔細 " 聆聽 " 海量的歌曲,從中學習各種音樂元素,比如音符、節奏、音色等等。學習的結果就存在它的 " 大腦 " 裏,也就是中間的神經網絡。
當你想創作一首新歌時,就給機器人輸入歌詞。這時候,它的神經網絡 " 大腦 " 就開始飛速運轉,根據你的歌詞,從 " 記憶 " 中找出最合适的音樂元素,再将它們巧妙地組合在一起。這個過程就像我們人類作曲時的靈感迸發。
最後,解碼器像機器人的 " 嘴巴 ",将神經網絡輸出的音樂信息還原成我們耳朵可以聽到的音頻。這樣,一首嶄新的歌曲就誕生了!
簡單來說,編碼器負責 " 學習 ",神經網絡負責 " 創作 ",解碼器負責 " 合成 "。這三個部分緊密配合,不斷從海量音樂中學習,再創造出無限可能的全新音樂。這就是天工 SkyMusic 的 " 魔力 " 所在。
所以,天工 SkyMusic 并不是簡單的拼湊,而是真正意義上的用 AI 進行音樂創作。目前,它還在起步階段,未來随着算法升級、訓練數據的豐富,創作能力必将越來越強大。我們有理由期待,AI 會爲音樂創作帶來一次革命性的突破!
别急,讓我用一個活潑的比喻來解釋天工 SkyMusic:
想象有個作曲神器,它由三部分組成:編碼器、神經網絡和解碼器。
編碼器就像是這個神器的 " 耳朵 ",專門聽遍全球的歌曲,學習裏面的音符、節奏和音色。
然後,你隻需一句歌詞,它的神經網絡就像靈感全開,迅速從記憶庫裏找到最匹配的音樂元素,再巧妙地創作成曲。
最後,解碼器将這些信息轉換成音頻,一首新歌就這樣誕生了!
天工 SkyMusic 能根據輸入的歌詞,自動生成包括旋律、和聲編曲在内的完整歌曲,整個過程僅需幾分鍾。
我們嘗試用天工 SkyMusic 改編了一些經典神曲和古詩詞,不僅歌詞韻味十足 , 連整體旋律都洋溢着濃濃的中國風。
中國風音樂:以古詩詞爲詞,用傳統樂器爲曲,看看效果如何:
行路難開頭國風樂器直接把我帶入到行路難這首詩當中,男聲一進入則讓人感覺一種安定,不過後面的唱和旋律部分差了點兒意思。
音樂魔改:兒時回憶快樂星球片尾曲《月亮船》,上周暴雪國服回歸,很想創作一首暴雪版《月亮船》,開頭有點兒那味兒了,不過歌詞和旋律需要再打磨打磨。真真兒是降低音樂創作門檻,有手就會啊!
這首歌真是給所有暴雪遊戲粉絲帶來了一波懷舊風。
歌詞裏點到了《魔獸世界》、《爐石傳說》等經典,一聽就勾起了無數回憶。不過,旋律和編曲方面還能再火一些,讓人更有熱血沸騰的感覺。AI 演唱的部分也确實需要再逼真點,特别是在情感的表達上。
兒童音樂:在教育領域,兒歌可謂是是擔當了讓娃們 " 樂呵呵 " 的利器,這不,系統剛給我圖鑒一首兒歌,我就趕緊跑來天工 SkyMusic 試試看。特别适合滿身藝術細胞的爸媽們,趕緊給娃做一曲!
這《小雨點》這首兒童歌曲真的太朗朗上口了!!旋律簡單易學,孩子們一聽就能跟着哼唱。而且歌詞裏用了很多生動的自然畫面和拟聲詞,非常有趣,能吸引孩子們的注意力。(PS:封面也特别的應景。)
除了以上幾種類型,天工 SkyMusic 還能用于廣告歌制作等商業領域,我們創作了幾首由它創作的品牌主題曲,不得不說 AI 在這方面的發揮已經十分出色。
天工 3.0 專屬音樂
歌詞用粵語唱出來更有感覺,這首歌參考的是張靓穎的《我的夢》,也是作爲一首宣傳曲,在音色旋律上是有借鑒到。需要加強的是在保持人聲自然流暢的同時,還要能夠傳達出歌詞中的深度和力量。
天工 SkyMusic 專屬音樂
以上種種案例,都充分展現了天工 SkyMusic 強大的音樂生成能力。它不僅可以根據不同的需求和場景,快速生成相應風格的音樂,而且生成的音樂在編曲、和聲、人聲等方面都有相當不錯的表現,堪稱是一個極具創造力的 AI 音樂助手。
天工 SkyMusic 的出現,無疑極大地拓寬了音樂創作的邊界。有了它的加持,無論你是音樂愛好者、音樂從業者,還是廣告、教育等領域的從業者,都能輕松創作出令人耳目一新的音樂作品。可以說,天工 SkyMusic 爲全民音樂創作時代鋪平了道路。
不過,我們也要看到,盡管天工 SkyMusic 展現了驚人的音樂創作潛力,但它終究隻是一個工具。在音樂創作這件事情上,人的主觀能動性和創造力仍然是不可或缺的。天工 SkyMusic 提供的更多是靈感和素材,真正将其塑造成打動人心的作品,還需要人的二次創作。
因此,與其擔心 AI 會取代人類音樂人,倒不如思考如何讓人機協作、相得益彰。AI 負責提供想象力,而人負責賦予情感和溫度,這樣的 "AI+ 人 " 組合,也許會碰撞出前所未有的音樂火花。
第二部分:天工 3.0 全方位測評
接着我們用天工 3.0 來進行一次 " 童年回憶殺 "。
首先利用它強大的中文理解和創作能力,讓天工 3.0 給數學公式編寫順口溜,做文言文閱讀理解,然後再做幾幅水墨畫,看看是否全能!
我用天工學數學!
從中文理解和生成效果來看,天工 3.0 對中文語言節奏、韻律的掌握還不錯,生成的順口溜兒我都想背了!
我用天工做文言文閱讀理解!
爲了更全面、系統地測試 " 天工 3.0" 的中文理解和創作能力,咱也提升點兒難度,我們選取初中課本中常見的 2 篇文言文,考察天工學對文言文字詞句理解、文章主旨把握、修辭手法分析、作者情感體悟等方面的能力。
結果令人驚喜,天工 3.0 不僅準确領會了詩詞背後的深意,還能用生動的現代語言進行闡釋,展現出對人類語言細微差别的把控能力。
我用天工讓古詩學畫畫!
再來看看它的文生圖能力如何,首先是讓它根據古詩作畫,對于給到的詞中理解到位,第一句的效果畫的很不錯。
然後點開圖拍之後發現還有擴圖和二次重繪的功能,功能上有點兒 MJ 那味兒了。
咱們再升級一下,作爲一款與時俱進的 AI,天工 3.0 當然也要經受中文高質量語料 " 弱智吧 " 的洗禮。
面對各種歪理邪說和腦筋急轉彎,它都能迎刃而解,甚至還能就梗圖進行幽默點評,再次驗證了其過硬的語義理解和靈活的内容生成水平。
對于弱智吧的提問,天工 3.0 中規中矩,邏輯清晰,沒出什麽大錯。
弱智吧提問
再來看看 AI 識圖功能,這部分就隻能識别出裏面文字了,似乎它的功能并不在于此。
看看天工怎麽說的:
再來一張試試:
看這回答,AI 識圖對梗圖不太友好,隻能理解到字面意思。
相反對于攝影賞析、古詩創作等功能屬性較強的圖片更加友好,看來是術業有專攻!
AI 識圖:攝影賞析、古詩創作
第二,多模态能力的展現
接下來我們我們讓天工 3.0 爲一個假想的地震救援行動出謀劃策,通過三問三答讓它快速生成了一套覆蓋資源調配、路徑規劃等全流程的救援方案。
這三問三答展示了模型在處理複雜問題(如地震救援行動)時的強大邏輯推理和全面規劃能力,能詳盡分解任務并考慮多維度因素。優點在于能詳細覆蓋救援的關鍵環節和多方面的技術應用,缺點則是在某些情況下可能過于詳細,導緻信息過載,不夠簡潔。
再來一些高難度的,讓它做一個股市分析和預測:
這段代碼實現了一個基本的股票價格監控應用,能夠讓用戶通過一個簡單的界面輸入股票代碼,查看實時價格。它的好處在于界面直觀易用,而且加入了錯誤處理機制,确保在遇到問題時能給出提示,避免程序崩潰。
第三,再來測測他的搜索能力如何?
天工 AI 搜索,不僅在在原本的基礎上做了加強,搜索的更佳精準,而且平時還能推送熱點,最快接觸到當下的時事新聞,這一點對于 2G 網絡的夥伴非常友好。
以搜索:貪吃蛇的遊戲代碼爲例
先來看第一種:傳統模式。
它的回答提供了一個基本的貪吃蛇遊戲代碼實現,使用 Python 的 curses 庫。雖然代碼涵蓋了遊戲的基礎功能,包括初始化、輸入處理和遊戲邏輯,但存在一些語法和邏輯錯誤,這影響了代碼的準确性和可執行性。信息來源相對單一,主要是一個直接的代碼示例,缺乏深入探讨或優化的部分。
再看第二種:增強模式,效果确實比傳統模式好上不少。
這個模式在内容豐富度和準确性方面表現較好,詳細介紹了使用 Python 和 C++ 實現貪吃蛇遊戲的方法。它涵蓋了環境初始化、遊戲邏輯、渲染顯示以及用戶輸入處理,提供了全面的信息,适合初學者和有經驗的開發者。同時,使用 pygame 庫增強了圖形處理和事件管理的能力,使得實現更加高效和可靠。
最後來看第三種:研究模式。這個模式在前兩種的基礎上在信息源、信息豐富度上有着不小提升。
詳細來看,研究模式搜索最爲全面和深入,不僅提供了多種編程語言的基礎代碼示例,還深入探讨了性能優化、算法改進和跨平台實現等高級技術。這種模式的信息來源非常豐富,适合那些希望深入了解和擴展遊戲功能的開發者。性能優化的讨論尤其有助于提高遊戲的響應速度和流暢度,使其更适合現代遊戲開發需求。
同時還有大綱和思維導圖的生成,對于信息來源也是一目了然,缺點是因爲生成内容長,所以生成速度也會相應拉長。
不得不說搜索這塊兒,天工 3.0 還是有幾把刷子的!
第四,創建智能體部分
這部分是老生常談了,不過天工 3.0APP 裏面有個标簽兒吸引了我的注意,就是元宇宙,打開一看原來是 " 角色扮演 " 遊戲,那基本上也跟智能體是一家人了。
智能體頁面
在天工 3.0 中,有兩種方式來創建智能體,對話式和表單式:
對話式創建有 " 智能體創建小助手 " 在手,更适合目前對智能體不太了解的朋友們;
而表單式創建則更加自定義,我做了一個國風音樂生成助手,效果如下:
結尾
整個測試下來," 天工 3.0" 确實比 " 天工 2.0" 強了不少!看來是下了硬功夫的。而且它還特别打造了 " 天工 SkyMusic" 功能,讓我們在音樂領域實現創作自由!不過,天工 SkyMusic 目前雖然仍處于起步階段,但已經讓很多用戶感受到了音樂創作的樂趣。未來會随着持續優化不斷完善,打造一個專業且易用的全民音樂創作平台。