投研并舉,這是騰訊目前快速布局大模型的策略。
量子位獲悉,就在最近一輪清華系 AI 公司的融資中,騰訊已經出手下注,幫助其中一家風口上的公司快速完成 10 億級别的 Pre-A+ 輪融資——這家公司叫深言科技(DeepLang AI),源流自清華大學自然語言處理實驗室(THUNLP) 。
深言還曾陷入美團老王的并購傳聞,但目前爲止,被資本層面證實的最重要戰略投資方,依然是剛剛浮出水面的騰訊,以及好未來——這也是好未來首次公開投資大模型公司。
但對于騰訊,深言隻是大模型布局的提速。更早之前,騰訊被曝 4000 萬美元重注投資了MiniMax,幫助其快速晉升爲大模型獨角獸。
騰訊話事人馬化騰已經表态,對于大模型這樣的時代級浪潮不會袖手旁觀,但也不會急于求成搞半成品,會專心搞好研發。
但随着接二(尚未)連三的投資布局曝光,也能看出騰訊對大模型技術的決心和重視,以及對于大模型創投市場而言,這同樣是個振奮的消息,畢竟此時此地的創投市場,滿揣現金的騰訊進場,對不少 VC 都意味着退出保障和市場信心。
清華系 AI 初創公司深言科技?
深言科技成立于 2022 年 3 月,主要面向 AI 和 NLP,目标是用 AI 及 NLP 技術,尤其是大模型技術,全流程服務信息處理。
創始人兼 CEO豈凡超,是清華大學計算機科學與技術系 2017 級博士畢業生,本科時期就讀于清華電子工程系。
在校時,他是 THUNLP 的一員。其主要研究方向爲 NLP,曾在 EMNLP 等頂會發表論文 30 多篇。
聯合創始人兼 COO李潇翔,清華電子工程系 2017 級博士。紅杉中國合夥人張涵也是公司董事之一。
公司當前對外公開的産品,最引人注目的是 WantWords 和 WantQuotes。
WantWords,中文名叫反向詞典,産品在 2021 年 11 月時一度走紅微博,服務器被多次擠爆。
反向詞典的開發要追溯到更早期,2019 年,豈凡超就和同學合作研發了該産品,不僅支持支持中文及跨語言查詢,還進行開源。
項目背後的核心 AI,名爲多通道逆向詞典模型,相關論文中選過 AAAI 2020。
而反向詞典的項目指導教師一欄中,就有豈凡超的導師,清華大學計算機科學與技術系教授、博士生導師,清華大學人工智能研究院常務副院長孫茂松。
孫茂松和豈凡超的合作在後者畢業後仍然繼續。
去年豈凡超博士畢業後,随即與多位清華碩博背景同學一道,從 THUNLP 孵化出深言科技。
現在擔任深言科技首席科學家的,正是孫茂松。
同時,THUNLP 實驗室的反向詞典和後續推出的據意查句(WantQuotes)等,也劃歸深言名下。
關于爲深言科技生長提供土壤的THUNLP,這裏再多說兩句,它是國内第一個開展 NLP 研究的科研單位,70 年代就已經成立。
彼時的牽頭人是國内 NLP 研究領域的趟路人黃昌甯,也是孫茂松的恩師。
反向詞典另一名項目指導教師劉知遠同屬 THUNLP 實驗室,他是孫茂松的學生。
實驗室此前推出的項目,頗受關注的主要有三:
中文詩歌自動生成系統九歌 MixPoet,它訓練過程中學習了 80 萬首中國古詩;
語言表征模型ERNIE(和百度文心大模型同名),可與當時任務最優的 BERT 媲美;
以中文爲核心的預訓練大模型清源 CPM,是智源研究院大模型悟道 · 文源的前身。
上述項目研發過程時,豈凡超等人尚未畢業,仍身處 THUNLP。
投研并舉的騰訊
此前業内流傳一種說法," 騰訊正在變成一家投資公司 "。
這種說法背後的觀點認爲,看騰訊是否布局一個行業、一個領域,往往是看它向哪個地方砸了錢,而不是自己的業務團隊在做些什麽。
對此騰訊當時的回應是,除了自主開拓多條事業線利用好這些流量以外,不核心的、不專業的項目都會通過投資,交給其他更合适的團隊去做。
但在大模型領域,騰訊顯然沒有因爲對外投資就放棄自己内部的動作,隻不過不那麽 " 着急 " 而已——
日前的騰訊 2023 股東大會上,被媒體描述爲 " 身形暴瘦,快認不出 " 的馬化騰,分享了大模型的觀點:
騰訊也在埋頭研發,并不急于把半成品拿出來展示……
我感覺現在有很多公司太急了,感覺是爲了提振股價,我們一貫不是這種風格。
此前他還在 Q1 财報電話會上回應騰訊在大模型方向上的 " 慢動作 ":" 對于工業革命來講,早一個月把電燈泡拿出來在長的時間跨度上來看是不那麽重要的。"
雖然 " 不着急 ",但騰訊自身在大模型領域并非毫無動作。
最直接的消息,就是騰訊内部打造了混元大模型,在今年 4 月首次對外披露。
而後又公布了新消息,推出國内首個低成本、可落地的 NLP 萬億大模型。
并且,針對傳聞中 " 騰訊針對類 ChatGPT 對話式産品成立‘混元助手’項目組 ",騰訊給出回應:相關方向上已有布局,專項研究也在有序推進。
據職場 Bonus 消息,這個項目組的負責人大有來頭,是騰訊史上最高職級擁有者,張正友(騰訊首位 17 級研究員 / 傑出科學家)。
與此同時,随着大模型群雄逐鹿,對算力的需求激增,騰訊還另辟蹊徑,在算力層面着力。
根據騰訊 Q1 财報,騰訊雲計算等 ToB 業務占據了收入的 30%,同時,面向大模型訓練,騰訊采用了最新自研服務器。
以訓練自家大模型效果爲例——萬億參數的混元 NLP 大模型訓練。在同等數據集下,将訓練時間由 50 天縮短到 11 天。如果基于新一代集群,訓練時間将進一步縮短至 4 天。
技術層面的推進也在持續進行,3 月宣布成績的信息檢索領域頂會 WSDM(Web Search and Data Mining)宣布 WSDM CUP 2023 競賽成績。
來自騰訊研究團隊的在無偏排序學習和互聯網搜索預訓練模型賽道上的兩項任務中獲得冠軍,現在這兩項成果代碼和論文均已發布在 GitHub。
二者中的後者與大模型息息相關,因爲數據标注的質量對于模型的效果有着較爲顯著的影響。
比賽中,針對基于搜索的預訓練任務(Pre-training for Web Search),騰訊團隊通過大模型訓練、用戶行爲特征去噪等方法,在點擊日志上進行基于搜索排序的模型預訓練,進而使模型有效地應用到下遊相關性排序的檢索任務。
現在,随着對 MiniMax 和深言科技的先後押注,騰訊對大模型領域的内外布局逐漸開始撥雲見日。
騰訊仿佛在走與微軟類似的路線,投研并舉,即自主研發的同時,不忘對外投資市場看好或擁有技術背景的 AI 初創公司,一如微軟對 OpenAI 的押注。
随之而起的還有創投圈四起的哀嚎:
大廠戰投在大模型一出手就把估值拉賊高,跟不起了啊啊啊啊啊啊啊!!!
但另一方面,大廠戰投進場,同時也意味着最有保障的退出機制來了。
畢竟移動互聯網時代争奪 " 門票 " 的那幾年,UC 也好,91 也罷,不都是這樣嗎?
— 聯系作者 —