清華90後學神，首輪即融資20億，要打造大模型ToC超級應用

來源丨快鯉魚（ID：akuailiyu）

作者丨巴裏

編輯丨信陵

題圖丨 Moonshot AI

月之暗面（Moonshot AI）可以說是國内大模型最神秘的創業公司之一。

其創始人——現年 31 歲的清華大學交叉信息學院、智源青年科學家楊植麟教授曾就職于 FAIR 和 Google Brain，是 Transformer-X 與 XLNet 論文第一作者。

這兩篇論文在深度學習領域影響深遠，在 Google Scholar 的引用次數之和達到了驚人的上萬次。

不過，學霸的人生并非從一開始就是開挂的。小學和初中時期的楊植麟，父母對他并沒有很高的分數期望，也因此給了他更多的自主性。

高中時期，沒有任何編程基礎的楊植麟被選拔進奧林匹克競賽培訓班，最終通過競賽保送清華大學，師從中國最知名的 AI 研究者之一唐傑教授，在校期間四年時間成績保持年級第一。繁重的學業之餘，他還組建了 Splay 樂隊，當起了鼓手、創作者。

在卡内基梅隆大學（CMU）讀博時，他又師從蘋果 AI 研究負責人 Ruslan Salakhutdinov、谷歌首席科學家 William Cohen。他用 4 年時間完成了一般 6 年才能完成的的 CMU 博士課程。

今年 6 月，矽谷極具影響力的科技媒體 The Information 曾列出了有可能成爲 " 中國 OpenAI" 的五個候選，包括 MiniMax、智譜 AI、光年之外以及瀾舟科技，而另一個位置就是楊植麟，其他都是公司，而他直接是一個個體。

10 月 9 日，這家成立僅半年的大模型初創公司 —— Moonshot AI 宣布在 " 長文本 " 領域實現了突破，推出了首個支持輸入 20 萬漢字的智能助手産品 Kimi Chat。并稱，這是目前全球市場上能夠産品化使用的大模型服務中所能支持的最長上下文輸入長度。

相比當前市面上以英文爲基礎訓練的大模型服務，Kimi Chat 最大的特色就是具備較強的多語言能力。

例如，Kimi Chat 在中文上具備顯著優勢，實際使用效果能夠支持約 20 萬漢字的上下文，2.5 倍于 Anthropic 公司的 Claude-100k（實測約 8 萬字），8 倍于 OpenAI 公司的 GPT-4-32k（實測約 2.5 萬字）。

這也是 Moonshot AI 在大模型領域做 To C 超級應用的第一次嘗試。相對于楊植麟此前創業面向 ToB 的循環智能，他反複強調，Moonshot AI 是一家 ToC 的公司，追求大模型時代的超級應用。

據悉，除了楊植麟，兩位聯合創始人周昕宇和吳育昕也均出身清華。團隊還有來自 Google、Meta、Amazon 等巨頭的海外人才，團隊成員約爲 50 人。今年 6 月，Moonshot AI 被曝出完成首輪融資，已獲得來⾃紅杉資本、今⽇資本、砺思資本等知名投資機構近 20 億元的融資。

楊植麟表示，目前市場上關于估值的表述是不準确，且偏低的，後續會通過官方形式正式對外公布。首輪融資及接下來的新一輪融資，都将主要用于技術産品的研發，以及團隊擴展上。

大模型輸入長度受限？這次直接支持 20 萬字

當前，大模型輸入長度普遍較低的現狀對其技術落地産生了極大制約，例如：目前大火的虛拟角色場景中，由于長文本能力不足，虛拟角色會輕易忘記重要信息，例如在 Character AI 的社區中用戶經常抱怨 " 因爲角色在多輪對話後忘記了自己的身份，所以不得不重新開啓新的對話 "。

那麽，擁有超長上下文輸入後的大模型實際又會有怎樣的表現？

比如，公衆号的長文直接交給 Kimi Chat ，讓它幫你快速總結分析：

新鮮出爐的英偉達财報，交給 Kimi Chat，快速完成關鍵信息分析：

出差發票太多？全部拖進 Kimi Chat，快速整理成需要的信息：

發現了新的算法論文時，Kimi Chat 能夠直接幫你根據論文複現代碼：

隻需要一個網址，就可以在 Kimi Chat 中和自己喜歡的原神角色聊天：

輸入整本《月亮與六便士》，讓 Kimi Chat 和你一起閱讀，幫助你更好的理解和運用書本中的知識：

我們可以看到，當模型可以處理的上下文變得更長後，大模型的能力能夠覆蓋到更多使用場景。同時，由于可以直接基于全文理解進行問答和信息處理，大模型生成的 " 幻覺 " 問題也可以得到很大程度的解決。

目前，Moonshot AI 的智能助手産品 Kimi Chat 已開放内測。

不走捷徑，解決算法和工程的雙重挑戰

通常，從技術上看，參數量決定了大模型支持多複雜的 " 計算 "，而能夠接收多少文本輸入（即長文本技術）則決定了大模型有多大的 " 内存 "，兩者共同決定模型的應用效果。

支持更長的上下文意味着大模型擁有更大的 " 内存 "，從而使得大模型的應用更加深入和廣泛：比如通過多篇财報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網頁的關鍵信息、基于長篇小說設定進行角色扮演等等，都可以在超長文本技術的加持下完成。

楊植麟指出，長文本技術的開發固然是當前大模型發展的重要方向，存在一些對效果損害很大的 " 捷徑 "，主要包含以下幾個方面：

• " 金魚 " 模型，特點是容易 " 健忘 "。（例如，無法從一篇 10 萬字的用戶訪談錄音轉寫中提取最有價值的 10 個觀點）。

• " 蜜蜂 " 模型，特點是隻關注局部，忽略整體。（例如，無法從 50 個簡曆中對候選人的畫像進行歸納和總結）。

• " 蝌蚪 " 模型，通過減少參數量（例如減少到百億參數）來提升上下文長度，雖然能支持更長上下文，但是大量任務無法勝任。

" 簡單的捷徑無法達到理想的産品化效果。爲了真正做出可用、好用的産品，就不能走虛假的捷徑，而應直面挑戰。" 楊植麟說到。

訓練層面，想訓練得到一個支持足夠長上下文能力的模型，不可避免地要面對如下困難：

•如何讓模型能在幾十萬的上下文窗口中，準确的 Attend 到所需要的内容，不降低其原有的基礎能力？

•在千億參數級别訓練長上下文模型，帶來了更高的算力需求和極嚴重的顯存壓力，傳統的 3D 并行方案已經難以無法滿足訓練需求。

•缺乏充足的高質量長序列數據，如何提供更多的有效數據給模型訓練？

推理層面，在獲得了支持超長上下文的模型後，如何讓模型能服務衆多用戶，同樣要面臨艱巨挑戰：

• Transformer 模型中自注意力機制（Self Attention）的計算量會随着上下文長度的增加呈平方級增長，用戶需要等待極其長的時間才能獲得反饋。

•超長上下文導緻顯存需求進一步增長：以 1750 億參數的 GPT-3 爲例，目前最高單機配置 ( 80 GiB * 8 ) 最多隻能支持 64k 上下文長度的推理，超長文本對顯存的要求可見一斑。

•極大的顯存帶寬壓力：英偉達 A800 或 H800 的顯存帶寬高達 2-3 TiB/s，但面對如此長的上下文，樸素方法的生成速度隻能達到 2~5 tokens/s，使用的體驗極其卡頓。

總之，Moonshot AI 的技術團隊通過創新的網絡結構和工程優化，克服上述困難完成了大内存模型的産品化，不依賴于滑動窗口、降采樣、小模型等對性能損害較大的 " 捷徑 " 方案，才有了這個支持 20 萬字輸入的千億參數 LLM 産品。

楊植麟此前曾表示，無論是文字、語音還是視頻，對海量數據的無損壓縮可以實現高程度的智能。

而無損壓縮等同于對數據聯合概率分布的預測，這⼜找到了與多模态數據⽣成的契合點。多模态數據的⽣成本質上也是在做數據的聯合概率分布預測，⽽⻓上下⽂窗⼝技術對實現多模态⾄關重要。

Moonshot AI 之所以選擇使⽤擴展上下⽂的策略來提升⼤模型技術的應⽤效果，源于團隊對⼤模型技術底層的認知、技術能⼒以及對應⽤需求的捕捉。

他相信，更⻓的上下文長度可以爲大模型應⽤帶來全新的篇章，促使⼤模型從 LLM 時代進⼊ L ( Long ) LLM 時代。更長的上下文長度隻是 Moonshot AI 在下一代大模型技術上邁出的第一步。

本文（含圖片）爲合作媒體授權創業邦轉載，不代表創業邦立場，轉載請聯系原作者。如有任何疑問，請聯系[email protected]。