大模型的效率騰飛，彩雲科技做對了什麽？

對于絕大多數 AI 創業者來說，AGI 的技術信仰是月亮，商業化能賺到錢的應用則是六便士，而一家中國公司，卻将月亮和六便士都握在了手中。

彩雲科技的 CEO 袁行遠，一直将 AGI 作爲自己的終生目标。大模型被認爲是通往 AGI 之路，所以彩雲科技決心爲這條 AGI 之路掃清阻礙，通過優化 Transformer 架構，助力大模型效率提升，爲此開發出 DCFormer 全新通用模型架構。

敢于啃最難啃的骨頭，讓彩雲科技與許多隻敢停留在應用層的 AI 公司，形成了鮮明對比。

這并不意味着彩雲科技全是一群離群索居、不食人間煙火的極客。他們也打造了 AI 時代的爆款應用，如彩雲小夢、彩雲小譯和彩雲天氣。其中 2021 年上線的彩雲小夢 1.0，是全球領先的 AIRPG 平台，同時發布了海外版 Dreamily，目前已經吸引了 60% 中國大陸用戶、30% 歐美用戶、10% 東南亞用戶，在平台上進行 AI 寫作。

可以看到，彩雲科技的 AI 商業化表現也很出色，是國内爲數不多能夠實現盈利的 AI 公司。

隻追求月亮會餓死，隻追求商業化會活得庸俗。在 AI 的理想與現實之間，彩雲科技究竟是如何找到平衡點的？

AGI 通用人工智能，被認爲是人工智能領域的聖杯。而大模型，是目前通往 AGI 的必由之路。2023 年大模型技術火爆全球，但技術進化才剛剛開始。比如大模型的核心技術突破—— Transformer 架構，就有一系列問題有待解決。

想摘下 AGI 的聖杯，AI 行業必須先跨越 Transformer 架構的瓶頸：

1. 效率瓶頸。大模型在并行計算過程中需要頻繁重寫檢查點（checkpoint），延長了訓練周期。增強 Transformer 架構的計算效率，可以大幅縮減計算時間，提升大模型的開發效率。

2. 能源瓶頸。大模型參數規模邁向超萬億，會消耗巨額電力資源，有新聞報道，一個十萬億或五十萬億參數的大模型就能用光一座小城市的所有電量。爲了減少耗電量和能源負擔，提升大模型的計算效率，縮短計算時間，已經刻不容緩。

3. 普及瓶頸。一味追求 scale-up 的大模型技術，對算力、存儲、傳輸、運維等各個資源的需求也直線上升，會帶來高昂的落地成本和部署難度。AI 的廣泛應用和普及，才能推動各行各業智能化，所以大模型必須從追求 " 變大 " 到 " 變聰明 "，底層 Transformer 架構的優化勢在必行。

正如袁行遠所說，" 沒有（計算）效率的提升，AI 就是鏡花水月 "。

爲了有一天人類能真正将 AGI 這枚月亮抱在懷裏，彩雲科技從一開始就瞄準了底層架構，主動擔起了優化 Transformer 架構的技術挑戰，也成爲在這一領域率先取得顯著成果的中國公司。

2024 年 5 月，彩雲科技全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》發布在 arXiv 平台，并順利被 AI 頂會 ICML2024 收錄，論文評分高達 7 分，遠高于今年平均分。同時受邀在今年 7 月登台發表演講，成爲 9473 篇論文中唯二斬獲 Oral 論文的中國企業，另一家是華爲。

大家想必都很好奇，論文中發布的 DCFormer 架構到底有什麽過人之處？

我們可以把大模型訓練，看作是一個大型複雜任務，需要很多個打工人（注意力頭），背着自己的參數集和數據在幹活。

而 Transformer 的核心組件——多頭注意力模塊（MHA），将查找選擇回路和變換回路給綁定在一塊兒了，交給同一個注意力頭。試想一下，當一個打工人既得關注查找，又得關注變換，專注性就會受到損害，而且完成的工作大概率也跟别人有重複，這就降低了整個組織的效率。

那更合理的辦法是什麽呢？當然就是多雇些人、專事專辦呗。讓不同的 " 注意力頭 " 關注不同方面，一群專業的人靈活協作，幹的活效率更高，質量也更好。

所以 DCFormer 框架，就是給注意力頭 " 減負 "，來提高大模型的效率。

彩雲科技提出的可動态組合的多頭注意力（DCMHA），解除了 MHA 注意力頭的查找選擇回路和變換回路的固定綁定，讓它們可以根據輸入動态組合。這就爲 DCFormer 框架帶來了幾個變化：

1. 靈活性提高。由于 DCMHA 允許根據輸入動态組合不同的查找和變換回路，讓應用了 DCFormer 的模型，能夠更靈活地處理複雜任務。

2. 表達能力提高。MHA 的固定綁定導緻模型無法充分捕捉輸入數據的多個不同特性，表達能力也受到影響。DCMHA 從根本上提升了模型的表達能力。

3. 效率提高。查找和變換被固定綁定，會導緻不同的注意力頭學習到相似的信息，造成功能上的重複冗餘，不僅降低了計算效率，還會浪費計算資源。通過可動态組合的多頭注意力（DCMHA）解綁之後，DCFormer 框架實現了對 Transformer 架構 1.7 — 2 倍的提升，也可以讓模型成本進一步下降。

總結一下，DCFormer 框架從底層改變了注意力頭的組合方式。如果說打破 Transformer 計算瓶頸，加速 AGI 進程，是彩雲科技的逐月之旅。那麽 DCFormer 框架，就是彩雲科技爲夢想所打造的一座天梯，讓大模型在上面實現了效率、性能、成本優化等多方面的飛躍。

沿着 DCFormer 的天梯望過去，一個大模型爲核心的 AI 時代，好像離我們真的不遠了。

避免這一輪大模型的 AI 浪潮走向泡沫，必須讓技術緻用，形成商業閉環。賺到六便士，是 AI 獲得長期生命力的前提。

從技術到商業的轉化，彩雲科技同樣敢爲人先。目前，彩雲科技的 AI 應用已經獲得了在 DCFormer 架構的一系列助益，有望實現商業騰飛。

比如既有能力的大幅升級。作爲國内首個分鍾級天氣預報，街道級定位精度的天氣預報服務，彩雲天氣基于 DCFormer 帶來的模型效率提升，有望在未來将分鍾級的高準确率預測時長從 2 小時擴展到 3 — 12 小時，能力進一步提升。

再比如全新能力的拓展。彩雲科技旗下 AI RPG 平台彩雲小夢，采用了全新的 DCFormer 架構，V4、V5 版本有望擴展到 2000-5000 字的創作，再通過故事工程優化，目标是一年内可以輕松創作出達到專業作家水平的 5 萬字長度中篇故事，同時小夢角色扮演的故事體驗，也能達到專業編劇的水平。憑借優異的性能，彩雲小夢在小說續寫、AI 陪伴等領域，已經實現了用戶使用時長斷崖式的領先。

不難看到，DCFormer 架構爲彩雲科技的 AI 産品化、AI 商業化，奠定了騰飛的基礎條件。也證明，唯有基于底層技術創新，AI 産品才能避免同質化競争，打造出極具說服力和差異化的産品體驗，從而建立碾壓式的市場優勢。

大模型爆火以來，國外做底層創新、國内做應用改良，似乎成了慣例。

中國 AI 企業不敢向底層創新下大力氣，更希望低頭撿起六便士，并不是不願意擡頭追逐月亮，而是技術代際的現實差距、算力資源受限的實際情況、商業回報的約束和壓力，都是切實存在的。

而提到那些敢于逐月的 AI 公司，我們第一時間想到的是國内科技巨頭，很少人知道彩雲科技是國内最早做 LLM（大語言模型）的公司之一，而且敢于追逐 AGI 的夢想，向底層技術發起沖鋒。

既能仰頭逐月，也能低頭搞好商業化，彩雲科技可以作爲一個國内 AI 公司找到技術和商業平衡點的成功樣本。

彩雲科技區别于主流 AI 公司的獨特之處，在于其是個少見的 " 三有少年 "：

有信仰。作爲一個體量較小的科技公司，彩雲科技利用效率更高的模型架構，在與世界頂級人工智能企業的對抗中取得優勢。如果沒有 AGI 的技術信仰，一個小公司是想不到、不敢做優化 Transformer 架構這件事的。

有技術産品化的能力。Transformer 架構由谷歌率先提出，卻被 OpenAI 摘了桃子，ChatGPT 成爲這一輪 LLM 裏程碑，這得益于 chatbot 聊天機器人功能的産品化程度更高，更貼近大衆。彩雲科技的成功也在于此，并沒有單純地隻發 paper，而是盡快将 DCFormer 與産品集成，讓技術盡快轉化爲産品落地。這種技術産品化的能力，可以讓底層創新快速投向市場，形成良性循環。

有長坡厚雪的環境。創新，需要長期耐心地投入；産品化，需要深入行業和用戶之中的經驗和感覺。這就是巴菲特所說的 " 長坡厚雪 "，要有足夠強的盈利和長期增長的賽道。這是很多 AI 初創企業所缺乏，但彩雲科技恰好具備的。十年間，彩雲科技打造的數款足夠成熟和商業化的 AI 産品，爲技術創新營造了長坡厚雪的良好環境。

" 三有少年 " 彩雲科技，找到了理想與現實之間的平衡點，正沿着 DCFormer 架構的天梯，朝着 AGI 的月亮飛翔。這條彩雲逐月之路，也讓我們看到了 AI 産品化、商業化的清晰增長路徑。