圖片來源:視覺中國
翻看本輪大模型創業者的名單," 清華系 " 占據半壁江山。
清華東門外的搜狐網絡大廈,二層是王小川的百川智能,七層到十一層是來自清華知識工程研究室(KEG)的智譜 AI。距離這裏不遠的地方,是聆心智能、深言科技與瀾舟科技等明星創業公司。
這一次又是清華系。
近日,三位清華系創業者發布了一款支持 20 萬字輸入的 " 長文本 " 大模型 Kimi Chat,這是目前全球市場上能夠産品化使用的大模型服務中所能支持的最長上下文輸入長度。
相較于 Anthropic 的 Claude-100k 模型支持約 8 萬字,OpenAI 的 GPT-4-32k 支持約 2.5 萬字,Kimi Chat 分别是他們的 2.5 倍和 8 倍。
同時,Kimi Chat 通過創新的網絡結構和工程優化,在千億參數下實現了無損的長程注意力機制,但不依賴于滑動窗口、降采樣、小模型等常見的對性能損害較大的 " 捷徑 " 方案。
三位清華少年,融資超 20 億
2023 年 3 月,楊植麟、周昕宇、吳育昕三位清華出身的少年,創立了通用人工智能(AGI)公司 " 月之暗面 "(英文名 MoonShot AI)。Moonshot 的名字,源自于他們最喜歡英國著名搖滾樂隊 Pink Floyd 的專輯《Dark Side of the Moon》。
在創始人楊植麟看來,做大模型如同登月工程一樣," 月之暗面 " 意味着神秘,令人好奇和向往,同時又極具挑戰難度。
相較于王小川、周明這些大模型創業 " 老炮兒 " 而言,楊植麟在公衆中的知名度稍遜,但是在 AI 圈和創投圈眼中,他的能力并不遜色。
楊植麟是典型的學院派創業者,根據機器之心此前的報道,2015 年從清華計算機系畢業後,前往美國卡内基梅隆大學攻讀博士,師從蘋果 AI 研究負責人 Ruslan Salakhutdinov 和谷歌首席科學家 William Cohen。
博士期間,不僅與圖靈獎得主、深度學習三巨頭之一 Yoshua Bengio 合作發布 " 火鍋問答 " 數據集 HotpotQA。還先後以一作身份,發表 Transformer-XL 和 XLNet 兩項工作,谷歌學術被引次數近兩萬。Transformer-XL 成爲首個全面超越 RNN 的注意力語言模型,論文成爲 NeurIPS 2019 與 ACL 2019 的最高引論文之一;XLNet 則在 20 項任務上超越谷歌 BERT 模型。
砺思資本創始合夥人曹曦表示," 楊植麟是全球大模型領域裏最被認可的華人技術專家,其團隊在人工智能技術,特别是大語言模型 LLM 領域擁有深厚的技術積累,并已在國際上獲得了廣泛認可。"
團隊方面,MoonShot AI 的聯合創始人周昕宇負責算法,同樣是清華計算機系學生,畢業後加入曠世,與曠視研究院基礎科研負責人、ResNet 作者之一張祥雨一道,研究移動端模型,以共同一作的身份撰寫 ShuffleNet 論文,被 CVPR 接受。
另一位聯合創始人吳育昕和楊植麟一樣,畢業于清華和 CMU,研究方向爲計算機視覺中的檢測和識别問題。曾就職于 Meta,與 AI 大神何恺明共同提出組歸一化(GN)的方法,并創建了 detectron2,這是 Meta 最受歡迎的 AI 項目之一。
此外,團隊中非常多的成員有訓練超大模型的經驗,包括參與了 Google 的下一代多模态模型 Gemini 的核心開發;在 Google 訓練大幾千億參數的經驗;也包括國内最早的大模型悟道、盤古的原班人馬。
還有成員參與開發過一些世界上非常領先的技術,這些技術在很多大家耳熟能詳的模型或産品裏得到了使用,比如像 Stable Diffusion 裏面有一個非常關鍵的模塊,叫 group normalization,是 MoonShot AI 團隊的成員作爲第一作者開發的。
不光是技術人才,産品方面,也吸納了非常出色的一些人,包括有過幾億 DAU 的産品經驗,很多有從 0 到 1 産品經驗的天才加入。
" 我們希望通過這種很高的人才密度以及組織力量,能夠打造一個很快叠代的組織機器,讓人才能夠快速基于我們現有和未來發展出的技術,開發出比較好的産品。" 楊植麟向钛媒體表示。
Moonshot AI 成立以來,累計已經獲得近 20 億元融資,投資方包括紅杉資本、今日資本、砺思資本等知名投資機構,估值超過 3 億美元。
20 萬字 " 長文本 ",閉源模型
" 長文本技術是大模型‘登月計劃’的第一步。" 楊植麟表示。
大模型應用效果通常取決于兩個核心指标,一是模型參數量,決定了大模型的 " 計算 " 能力;二是能夠接收多少文本輸入,即長文本技術,決定了大模型的 " 内存 " 能力。 Moonshot AI 在千億參數模型的基礎上,重點突破了長文本技術的挑戰。
" 目前市場面上對于長文本技術路線,幾乎都是在犧牲一部分性能前提下的‘捷徑’。" 在楊植麟看來,他總結了三類不同的開發路徑:
" 金魚 " 模型,容易 " 健忘 "。通過滑動窗口等方式主動抛棄上文,隻保留對最新輸入的注意力機制。模型無法對全文進行完整理解,無法處理跨文檔的比較和長文本的綜合理解。例如,無法從一篇 10 萬字的用戶訪談錄音轉寫中提取最有價值的 10 個觀點。
" 蜜蜂 " 模型,隻關注局部,忽略整體。通過對上下文的降采樣或者 RAG(檢索增強的生成),隻保留對部分輸入的注意力機制。模型同樣無法對全文進行完整理解。例如,無法從 50 個簡曆中對候選人的畫像進行歸納和總結。
" 蝌蚪 " 模型,模型能力尚未發育完整。通過減少參數量(例如減少到百億參數)來提升上下文長度,這種方法會降低模型本身的能力,雖然能支持更長上下文,但是大量任務無法勝任。
楊植麟認爲,簡單的捷徑無法達到理想的産品化效果。因此,Moonshot AI 的技術路線,就是不走捷徑,踏實地解決算法與工程的雙重挑戰,在算力、存儲、帶寬等技術層面做了極緻的優化。
Moonshot AI 專注 ToC ,現在最高優先級的任務是在 C 端找到産品、技術以及市場的方向。比如通過多篇财報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網頁的關鍵信息、基于長篇小說設定進行角色扮演等等。
楊植麟展示了在不同場景下 Kimi Chat 的長文本能力。比如,提煉重點信息的能力,上傳一本《月亮與六便士》作品的内容,梳理作品重點内容,并繪制人物和人物命運的表格。
上傳财報 pdf 文檔後,可以彙總關鍵信息:
發現新的算法論文時,根據論文複現代碼:
上傳多張發票信息後,自動将發票繪制成表格:
無需粘貼文本,隻需要一串網址就可以解析一篇文章的重點信息:
隻需要一個網址,就可以和自己喜歡的原神角色聊天:
" 目前 Moonshot AI 是閉源開發。" 在楊植麟看來,像 OpenAI 一樣的閉源是通往 Super APP(超級應用)的唯一通路,而開源隻是 ToB 的獲客手段,凡要做 C 端超級 APP 的,都是閉源。
楊植麟認爲,大模型未來會分爲 ToB 和 ToC 兩個不同的陣營,他會堅定的走在 ToC 陣營,ToC 會有頭部的。 Super APP 出現,這些 Super APP 一定是基于自研的模型做出來的,因爲需要在用戶體驗上能夠有差異化,我是希望能在 Super APP 裏面去占領一個比較好的位置。
楊植麟并未透露很多細節,但表示最終考驗的是技術上能否做到領先,産品上能否快速找到市場 PMF,這還是一個巨大的空白市場。(本文首發钛媒體 App,作者 | 郭虹妘,編輯|陶天宇)