用 1000 萬美元能做一個革新 Transformer 架構的大模型嗎?
文|遊勇 徐鑫
編|周路平
北京學清路的一個園區,裏面有四隻有名有姓的小貓,它們被養得乖巧溫順。這些貓的 " 日常工作 " 就是負責安慰彩雲科技幾十個焦慮的算法工程師。
焦慮的源頭來自國内大模型賽道的内卷和不易,經曆了一輪資本的催熟和熱捧之後,大模型 " 六小虎 " 如今也是境況各異,有些在開拓海外市場,而有些在逐步放棄預訓練模型,有些在想方設法進行商業化。
然而,這家隻有貓、但還沒有成虎的創業公司,卻想着在沒有超級算力的情況下,去挑戰當下大模型公司用到的最核心的 Transformer 架構。這種壓力和焦慮,或許隻有他家的貓知道。
幾天前,彩雲科技正式發布了首個基于 DCFormer 架構的通用大模型雲錦天章,除了具備其他模型的問答、數學、編程等基礎能力,其特色是在虛構世界觀的基礎上,賦予小說人物編程、數學等基礎能力,可以高速針對大量文字進行擴寫、縮寫,針對文章風格進行大容量更換。
距離 ChatGPT 發布快兩年後,彩雲科技突然發布通用大模型,讓很多人感覺新鮮又費解:當大家都把目光放在如何落地和如何做 AI 應用,甚至有不少大模型創業公司放棄基礎模型的研發時,爲何還有創業公司從頭開始來自研通用大模型?
01
一條區别于 Transformer 的大模型之路
2024 年 7 月,彩雲科技 CEO 袁行遠和合夥人肖達被邀請去維也納參加機器學習頂會 ICML 會議,台下烏央烏央坐滿了 AI 從業者,他們對模型結構的研究得到了組委會的認可。
其實,第一次審稿,組委會給他們的論文評分是 7.66,沒有進入 Top1%,無法上台演講,後來袁行遠和肖達重新做了一些實驗,回複了很多問題,最後評分改爲了 7.77,他們收到了參會郵件,并且成爲可能的受邀演講者。之所以說是可能,因爲組委會還邀請了其他人,如果别人接受了邀請,就意味着他不會有上台的機會。
但最終他們獲得了登台的機會,也成爲國内唯二受邀參加維也納 ICML 2024 登台演講的企業,另一家是華爲。
爲了台上的 20 分鍾,彩雲科技已經在 Transformer 架構上研究了 6 年,完成了從最早的 NLP 理論研究,到現在的模型實踐。
而他們被邀請去演講,是因爲彩雲科技提交的一篇名爲《Improving Transformers with Dynamically Composable Multi-Head Attention》的論文,它從底層架構層面革新了谷歌在 2017 年發布的 Transformer 架構,并提出了一個新的架構 DCFormer。
衆所周知,當下的大模型浪潮起源于谷歌 2017 年發布的《Attention Is All You Need》論文,其中提出的 Transformer 架構成爲後來席卷全球的一系列通用大模型如 ChatGPT、Gemini 的底層技術支撐。
當其他廠商都在基于 Transformer 架構訓練大模型時,袁行遠卻決定走另外一條路,提出了一個新的模型架構 DCFormer。它通過改進 Transformer 的注意力機制,相比 Transformer 性能提升 1.7-2 倍。彩雲科技提到,在相同訓練數據和算力下,用 DCFormer 改進後的 69 億參數模型效果超過 120 億參數模型。
雲錦天章正是彩雲科技基于 DCFormer 訓練而成的一個 7B 量級的通用大模型。從理論推導到真正推出一個可被大衆使用的通用模型,袁行遠認爲,這是逐漸去證明 DCFormer 是更有效率模型架構的一種方式。
目前,大衆可以在彩雲科技的官網 web 端免費體驗雲錦天章的産品。發布會現場,袁行遠也演示了雲錦天章的幾大能力。比如,給它一個開頭,在内容續寫上,雲錦天章大模型能給出一段有起承轉合和明顯情節的回複,相比 GPT-4o,它的回答更有内容和情節。除了文本創作,這個通用模型還具有編程和數學等通用模型具備的能力。
不過,相比邏輯推理等能力,彩雲科技和袁行遠本人更願意給這款大模型貼上 " 最懂小說創作 " 的标簽,這與市面上各類大模型産品的主打方向形成差異。
賽道選擇背後,袁行遠有諸多考量。一方面他認爲,從各類爆款作品頻出能看到,大衆對故事消費始終有強烈的需求。他本人也是《三體》迷,對故事創作能承載巨大想象空間興緻滿滿,"(創作讓)人可以生活在不同的平行宇宙。我們可以生活在光速 30 萬米每秒的宇宙,也可以生活在光速隻有十米每秒的宇宙裏,所以創作這件事可以一直做下去。"
同時,故事創作的能力,也被袁行遠認爲是當下主流 AI 應用主打的角色扮演和陪伴類場景裏的核心能力,在這兩個場景裏遵循着相同的基礎邏輯。
另外,這個賽道上,困擾大模型落地的幻覺問題并不會成爲一個負面因素,腦洞大開甚至對創作而言是正向利好。加上彩雲小夢此前作爲在 AI 創作領域已有長期的積累,圍繞着創意寫作有大量語料數據上的獨特優勢。因此雲錦天章也成爲了當下非常獨特的一款大模型産品。
在雲錦天章發布後,彩雲科技旗下 AI RPG 平台彩雲小夢也升級到了基于 DCFormer 架構的 V3.5 版本。據彩雲科技透露,在新模型架構之下,彩雲小夢 V3.5 比上一個版本的整體流暢性和連貫性提升了 20%,支持前文長度由 2000 字提升至 10000 字,故事背景設定最長長度高達 10000 字。
02
從 Paper 到 App
雲錦天章大模型的核心創新在于模型架構層面的優化。
2019 年開始,彩雲科技核心技術團隊,在研究 Transformer 這顆人工智能行業裏冉冉上升的新星時,做了一系列的實驗,逐漸能理解這一架構裏自注意力機制(Self-Attention)核心組件—— QKV 矩陣的運行鏈路。
QKV 矩陣使模型能夠捕捉序列中不同詞元間的依賴關系,并且能夠動态調整每個詞元對其他詞元的關注度,這也是 Transformer 架構能夠有效處理序列數據的關鍵。
而此後海外大廠的一系列動作,比如 Anthropic 公司的博客文章以及谷歌研究團隊公布的《Talking-Heads Attention》論文,驗證了他們的一些設想。" 對模型架構的研究是有意義的,弄清模型如何運轉和工作,提升了大模型的可解釋性,爲模型底層架構的優化帶來了空間。" 袁行遠說。
随着研究的持續推進,他們發現 Transformer 架構裏的 QKV 矩陣裏還存在一種優化的可能。具體來說,用可動态組合的多頭注意力(DCMHA),替換 Transformer 核心組件多頭注意力模塊(MHA)。
比如,北京這個詞,跟中國首都有關聯,也跟城市有關聯,這就是兩組注意力關系。此前生成一個結果時,查找關系和變換是綁定的,存在計算上的浪費。替換之後,解除了 MHA 注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動态組合,就能提升模型的表達能力,提升模型效率。
這個思路是 DCFormer 在 Transformer 架構層進行創新的核心。它能疊加其他層面的模型提效工作,爲大模型訓練效率的提升提供了更多可能。比如,行業裏今年流行 MOE 混合架構,就可以與 DCFormer 在注意力層的工作結合,在參數量不變的基礎上進一步提升模型智能程度。
袁行遠透露,DCFormer 在架構層的革新,在更大模型上表現出的提速效果更爲明顯,目前他們也在訓練一個 14B 的模型,預計能達到同等規模的大模型四倍左右的效能。未來他們預估基于底層架構優化,疊加上其他層面的效率提升努力,有機會以十分之一的參數規模與其他模型 PK 智能程度。
這種嘗試,一方面打破‘國外做技術層,國内做應用層’的刻闆印象,另外也給彩雲科技這樣的創業公司提供了新的可能性——用更小的成本,留在大模型牌桌上。
" 現在如果我自稱大模型公司,不給大家一個通用的玩意兒,大家始終會認爲我們是一個套殼公司或者是做 Transformer 的。" 袁行遠很清楚,現在發布通用大模型,他必須先自己跑通整條鏈路,才有可能開辟 Transformer 之外的另一條路。" 我們不卷 GPU 數量,我們卷模型結構優化。"
這條路注定非常孤獨,好在這家公司的産品有個特點,除了基礎功能,其他都是收費的,這也使得相比于之前的 AI" 四小龍 " 和大模型 " 六小虎 " 依賴資本的輸血,彩雲科技本身就有很強的造血能力。現在,彩雲科技近億元的收入裏,有 1/3 來自于用戶訂閱,1/3 來自于廣告,1/3 來自于 API 調用。
袁行遠喜歡這樣的創業路徑,他提供一個服務,你願意爲這個服務付費,然後他通過技術努力提高這個服務,然後你就一直爲這個服務付費。
這樣的創業慣性也在彩雲小夢這款産品上得以延續。相比于 ChatGPT 或者文心一言直接賣 token,他更喜歡抽成模式。他提供由 AI 來輔助生成内容的平台,創作者在上面生産批量的網文,讓用戶來訂閱,而他從中抽成,不用擔心用戶罵你,因爲你并不生産内容。
目前,彩雲科技旗下有三款産品:一是做分鍾級天氣預報的彩雲天氣,二是做中英翻譯的彩雲小譯,最後一款是做網文生成的彩雲小夢。随着通用大模型的發布,這些 App 的智能化能力将會得到提升。
" 這個公司表面看起來是 App 公司,但實際上它是一個追尋智能是什麽的公司。所以就盡最大可能的錢投入在追求智能是什麽這上面,然後剩下的錢維持公司的運轉。" 袁行遠說,做 App 隻要能養活自己,養活團隊就夠了。
03
頭鐵的中二青年
在彩雲科技決定推出通用大模型時,這隻是一家不到百人的創業公司。
十來位記者擠在一個不到 30 平的下沉空間裏,聽他講一個新模型架構的發布。現場沒有任何特殊的布置,兩三隻貓在随意走動,而且整個過程還伴随着各種意外,比如電腦投屏連不上,PPT 頻繁出錯。
但主講人袁行遠,一個小時前剛從上海出差回來,穿着運動鞋和内搭有褶皺的淺綠色襯衫,劉海貼着額頭,站在逼仄的角落裏,滿懷熱忱地講述着他的星辰大海,講述着他的技術路徑會如何改變世界。
沒有技巧,全是感情。
這一切都會讓你看起來有些不真實,尤其是他要做的事情,需要昂貴的支出,而牌桌上都是估值數十億的創業明星或者千億美元的巨頭,每一次的模型訓練都要投入數以百萬甚至千萬美元的資金。
但這家公司又比絕大多數創業公司更加幸運,創業 10 年,有穩定的收入來源,每年近億元的收入,融資到了 B 輪,投資人的名單裏包括了快手創始人宿華,寬帶資本的田溯甯和五源資本等。
袁行遠一直覺得自己非常頭鐵。他和清華博士肖達用神經網絡來做天氣預報時,兩個人就想着做一些看起來虛無缥缈的東西。在當時還不富裕的時候,他們就決定拿出相當一部分比例的錢去做人工智能的研究,包括後來的模型結構研究。
其實,這些底層的研究并不能直接帶來商業上的收益。" 如果是純粹的商業關系,根本就不需要自研大模型,我們就不要做 NLP 的業務,全力以赴做天氣,然後進行全球廣告投放,這才是正事兒。而現在做那麽多奇奇怪怪的事情。" 袁行遠說。
事實上,袁行遠的做法并不是所有投資人都理解,尤其是新股東," 大部分人不相信作爲一個中國初創公司能做出什麽技術創新,所以你就去抄美國就完了。而且美國初創公司現在做得也不咋地,比如 CharterAI 谷歌也沒要,很多團隊也解散了。"
巨頭們也在說,沒有百億美元,就不要來做大模型。他并沒有被巨頭們設置的門檻所吓退。" 你不自己去做一下,始終是盲人摸象的感覺。" 袁行遠一直覺得自己非常頭鐵," 如果事情是這樣的話,是不是個人創業者或者一個中等水平的創業者也能來玩這個遊戲,那這世界會更加豐富多彩。"
他嘗試的結果是,從數據到模型到模型架構到 SFT 到最後應用全鏈路,1000 萬美元搞定了,不需要 100 億。彩雲科技從 2019 年開始從底層模型架構進行突破,前後投入了數千萬美元,在 Transformer 的千軍萬馬之外,探索出另外一條模型架構優化的路。
其實,袁行遠和肖達反複讨論過,要不要也學其他家拿 Transformer 訓練一個大模型出來。當時 ChatGPT 火爆全球,緊接着被稱爲 " 大模型六小虎 " 的企業先後成立,拿到了大額融資。
這對袁行遠産生了不小的刺激," 你在做這個時候,你發現又一個公司融資那麽多。你真的會懷疑自己到底在幹什麽,爲什麽就這麽頭鐵,一定要去做新一代的模型,這個就非常堂吉诃德。"
2019 年,彩雲科技就在做 Transformer 的模型結構研究。兩年後,他推出了能夠用 AI 進行文本創作的彩雲小夢,文本創作在當時還是一個非常寂寞的賽道,很多人都以爲他們的内容都是網上抄的。
直到 2022 年,彩雲科技開始訓練第一個模型,隻有 0.3B 的參數量,智能度一般。
他後來也在反思,一是在 2022 年時,沒有硬着頭皮去訓練更大參數量的模型,因爲錢不夠,隻訓練了一個 1.3B 的模型,很難看到模型的效果。二是模型還需要數據集進行 SFT,而這個數據集要請人标注,這是一個門檻,彩雲也沒有下定決心做這個事。
" 如果一開始不去追求角色扮演這些酷炫的功能,而是去追求模型的智能度,可能就能赢。" 袁行遠說,這兩個門檻決定了他們沒能做成 ChatGPT。
但袁行遠認爲,雲錦天章已經把訓練通路打通了,再叠代兩三個版本,能夠達到 GPT4o 的水準。DCFormer 證明了模型結構調優有前途,用更少的卡得到了相同的效果。" 現在我還是很驕傲的,至少有結果,沒有浪費。至于将來能不能掙錢,先不管,對人類文明肯定是有幫助的。"
他曾做過一個诙諧的比喻:"ChatGPT 推出後,業界有三條路,我們稱之爲普文二路線。普通青年選擇堆砌算力和數據,相信 scaling law;文藝青年選擇搭建 Agent,檢索增強、提示詞工程等。這兩條路都是把 Transformer 當作黑盒,不用了解具體原理。還有一條二 B 青年之路,就是打開黑盒,研究 Transformer 這個積木塊内部結構。"
但中二青年的路,會讓他莫名得到一些尊重,也會有投資人爲他們的精神而感動,爲這種可能性買單。他當年曾拿着 PPT 進行了 100 多次路演,一次都沒有成功,成功的融資都是投資人主動找上門來的。
他很慶幸,通過對 Transformer 進行優化來自研模型這條路還是堅持下來了,雖然比 ChatGPT 晚了兩年,也沒有得到太多的鮮花和掌聲,但他堅持認爲這樣做的意義," 我們不是說把原來的東西做了一個複制,然後去融了一筆錢。我們是真正做了一些對智能科學有認知、有提升的事情。"
他希望彩雲小夢的小說創作能力,能在 DCFormer 架構的大模型推動下,做到一個中等網文作家的水準。而他也希望小說創作,能成爲雲錦天章大模型的一個記憶點,就像人們提起 Kimi 就會想起長文本這個标簽一樣。
" 我有一個私心,有一天我用彩雲小夢寫一篇文章,能夠拿到雨果獎。" 袁行遠說。
© 本文爲數智前線(szqx1991)原創内容
進群、轉載或商務合作聯系後台
文章精選
>