" 百模大戰 " 已開啓。
而在大模型熱潮中," 人才 "成爲各大科技公司、創業團隊和研究機構激烈争奪的關鍵。
無論是海外還是國内,當下涉足大模型的企業都在瘋狂延攬人才。
圍繞 " 如何選擇和培養大模型人才 " 話題,量子位智庫特别邀請瀾舟科技合夥人 & 首席産品官李京梅,向讀者分享對人才話題的看法,探讨大模型人才的發展現狀、機遇挑戰以及未來發展前景。
瀾舟科技作爲生成式大模型代表企業,緻力于用場景優勢驅動大模型應用超車,在大模型人才團隊架構方面更具有貼合應用場景的特點。量子位智庫希望通過此次分享,爲 AI 企業搭建、培養大模型人才團隊提供有益參考。
本文爲量子位智庫 " 大模型人才 " 系列深度訪談欄目,更多内容請關注即将發布的《2023 AIGC 大模型人才發展全景報告》。
訪談人物介紹
李京梅,瀾舟科技合夥人 & 首席産品官,北京大學學士、美國紐約州立大學碩士、美國賓州州立大學 MBA。
△ 瀾舟科技合夥人兼首席産品官 李京梅
曾就職于微軟美國和微軟亞太研發集團,阿裏雲等頭部軟件、雲計算公司,在雲計算、大數據、人工智能、城市大腦等領域具有豐富的産品和解決方案經驗。
精彩觀點
今年企業對大模型訓練效率、推理效率的提升需求更加明顯,如何利用好有限算力成爲關鍵。
模型的效果好壞依賴算法人才,模型的效率高低取決于 AI 工程人才。
對于算法人才,我們關注候選人在專業領域的認知、所在的學術團隊、論文等學術成果。
大模型是新興技術,悟性好的年輕人可以快速學習并上手,不需要太多曆史包袱。
應用和基礎研究強結合的培養方式,更适合國内對大模型人才的需求。
訪談實錄大模型人才如何劃分
量子位智庫:瀾舟科技如何劃分大模型人才?
李京梅:瀾舟科技的人才體系是與面向企業客戶的服務體系直接挂鈎的。瀾舟科技擁有自有大模型,我們的定位是大模型 +To B 應用,面向金融機構、互聯網公司等企業做行業應用落地。
瀾舟科技面向企業的服務體系目前分爲四層,L1、L2、L3、L4。L1 是基礎通用大模型,L2 是行業大模型,目前主打的是金融、營銷、文娛等領域,還包括機器翻譯等垂直大模型。L3 是聚焦具體的場景任務,比如金融行業裏根據财經新聞寫摘要或寫研報。L4 是自主智能體,或者稱爲數字助手,這四層體系與我們的人才是直接相關的。
量子位智庫:有人按照模型部署中重要程度将大模型人才劃分成三類:大模型核心研發人才、工程 / 産品人才、大模型應用人才,您怎麽看這種分類方式?
李京梅:您所說的算法人員、工程支撐人員、産品人才和我們服務體系各個層級都相關。
就算法人才而言,L1、L2、L3 各自分别有負責通用大模型、行業大模型和偏場景應用的算法負責人。在這當中,最核心的是通用大模型的算法人員,因爲其他的模型都是繼承自 L1 的通用大模型。
就工程人才而言,與傳統互聯網崗位劃分沒有區别,包括前端、後端和測試人員。
就産品經理而言,L1 通用大模型的産品經理的作用是橫向支撐,L2 和 L3 的産品經理要繼承通用大模型的能力,并基于金融行業或其他行業訓練出大模型以及上層應用。
量子位智庫:L1 到 L4 這幾類人才,哪種是相對比較稀缺的?
李京梅:通用大模型核心研發人才是最爲稀缺的。像我們創始人周明老師在微軟時就接觸過大模型、預訓練這些技術,但這樣的人才很少,Transformer 技術是 2017 年才發布的,2017 年後才陸續産生大模型研發人才。
L2 層跟 L1 層的人在能力畫像上差别不大,純從技術層面,跟 L1 層的技術要求一樣。但 L2 層因爲行業和領域數據不同,需要業務場景,對 L2 層的人才的要求是訓練出面向金融行業更好的模型。
L2 人才基于内部協同和分工會有更多行業認知,比如對金融行業大模型做評測時,應該如何定義十項任務,除了 L2 技術人員,還有面向行業解決方案的産品經理,給出行業輸入,L2 的人才綜合能力更強一些。
大模型訓練環節中注重配置的人才
量子位智庫:在基礎通用大模型訓練過程中,會更關注哪些環節技術?
李京梅:通用大模型訓練過程中會更關注預訓練、監督微調(SFT)、指令微調、基于人類反饋的強化學習(RLHF)、價值觀對齊等環節。
預訓練環節是基于無監督學習,利用海量數據去訓練,我們會使用 AI 框架技術,比如 PyTorch,目前也出現了針對大模型訓練優化的框架,比如 DeepSpeed、Colossal-AI、阿裏雲内置的框架等,我們也都會使用。
對于多模态技術,瀾舟科技更多是偏重文本,但是現在文生圖、文生視頻、文生語音技術也變得更可行,我們會在開源的圖片模型基礎上進行二次訓練,針對客戶想要的圖片風格進行可控圖片生成,提高生成效率。
我們的多模态技術是在開源模型基礎上,通過文字與其他模态結合,從而實現應用場景落地。
量子位智庫:在訓練過程中,如何應用規模化技術呢?
李京梅:ChatGPT 出來前,我們走的是輕量化,輕量化是指模型參數量比較小。截至 2021 年 7 月,我們大模型參數量達到 10 億,效果就已經很好。我們目前在擴大參數量,推出 7B 和 40B 的模型,如果有客戶需要我們訓練更大參數量的模型,比如 700 億、上千億也是可以做到的。
更大規模參數的模型依賴的是資源,使用分布式技術,像一台機器一樣高效訓練幾百、上千張英偉達顯卡,這涉及整個算力、卡、機器之間的通訊效率等,都泛指規模化技術。從最開始的 10 億參數量到現在的 400 億參數量,我們的規模化技術已經相對成熟了。
量子位智庫:對于中間件和工具鏈技術是如何應用的呢?
李京梅:有些客戶除了有模型的購買需求還有掌握訓練技術的需求,在數據基礎上做 Continue-Train,想自己做微調,我們會把工具鏈的技術對外輸出。如果要實現模型流程閉環,必須是有這些工具的。
量子位智庫:推理與部署環節技術是如何應用的呢?
李京梅:企業客戶有高并發或多并發的需求,需要更高效縮短推理時間,如果大模型推理效率低,就需要多堆顯卡,成本被推高;如果大模型推理效率高,就可以使用更少的顯卡,縮短響應時間,提升并發效率,現在市面上也出現了推理加速的開源框架。
量子位智庫:孟子大模型經曆了多次升級,不同的升級過程當中會更注重哪些環節?
李京梅:在預訓練技術、規模化技術、工具鏈技術、推理部署技術上,核心環節我們投入的時間更多,AI 框架技術和多模态技術我們更多的是适配和使用。
量子位智庫:在這些環節當中會注重去配置哪些能力、哪些專業素養的人才?
李京梅:我們原來做輕量化,現在做更大參數量的大模型,所以就引進了更多在大廠實操過、跑過工程閉環的人才,這類人才更多來自成熟的互聯網産業。
今年企業對訓練效率、推理效率的提升需求更加明顯,如何利用好有限算力就成爲關鍵問題。這體現在商業化定價上,比如調用 API 接口的定價,如果訓練推理的成本高,在定價上就不具備優勢。如何用更少的算力,帶來同樣的用戶體驗,這就是技術降本的關鍵。技術不過硬,就需要更多的顯卡,成本就高。我覺得這是需要 AI 工程人才來解決的問題。
預訓練技術的好壞在于模型效果如何,但效果好并不代表效率高。效率高就依賴于 AI 工程人才,這些人不一定特别懂算法,但懂 AI 工程,很多雲平台廠商的工程人才自身不做算法,但是懂算法,他們之前爲千萬用戶到平台上訓練、合作、推理提供支撐服務,爲了服務好用戶,平台需要幫助用戶降本提效。像阿裏電商,騰訊遊戲等自身業務非常龐大,用戶并發量都很高,都用自有模型,自己訓練好自己用,也會遇到無數挑戰,實驗室裏人才在實踐方面還有待提升,很難接觸到實際挑戰,所以當下 AI 工程人才是市場所需的。
量子位智庫:相比實驗室的人才,AI 工程人才更稀缺嗎?
李京梅:不能說 AI 工程人才更稀缺,還是要分階段來看。各家企業在專注訓練模型時,更傾向于選擇算法人才來訓練模型。等現在模型紛紛都已經訓練出來,大模型企業期望對外提供服務時,團隊就更需要 AI 工程人才。
也有不少大模型廠商選擇綁定平台廠商,根據其提供的工具來進行訓練,也就不需要引進實驗室人才或工程人才,我覺得這是看各家的選擇。
大模型人才的選擇
量子位智庫:瀾舟科技會更關注大模型研發人才的哪些方面?
李京梅:人才的學術成果、實踐經驗、學曆背景對于瀾舟科技的大模型團隊而言都很重要。
我們創始人周明博士就是行業的領軍人物,在學術界、研究界的視野就足夠。周老師在高校兼職博導,他的博士生、碩士生在學術研究領域有些成果。學術背景我們比較關注,所以碩士生和博士生會比較多。尤其是算法人才,我們關注人才在專業領域内的認知、所在的學術團隊、論文等學術成果。
而且基于我們公司注重實踐的定位,也看重實踐經驗豐富的人才,不管是合夥人還是 VP 都具備實操能力。同樣,我們也十分重視專利。除了實踐與研發,每年團隊都産出幾十個核心發明專利。
我們比較綜合,不刻意補充純學術研究的人才,研究也是依賴于實踐,避免隻做研究、隻給客戶服務的這些情況。
量子位智庫:剛才提到的能力要素,哪些更重要?
李京梅:我覺得要分階段,因爲大模型技術叠代非常快,現在和 6 個月以前相比會有很大不同。6 個月前,大模型基礎研究成果更加重要。如今有很多開源大模型,隻做底層核心大模型對于面向企業服務的技術廠商并沒有那麽重要,我們公司定位就是開源技術基礎之上再做大模型預訓練。我們立足企業服務,所以目前實踐型人才占比較高。
大模型訓練的效果的好壞通過兩種方式來判斷,一種是榜單評測,另一種就是客戶的評測反饋。客戶真正使用上行業模型至少要到明年,我們還是要以實踐效果爲導向。
量子位智庫:您覺得市面上大模型人才的薪酬水平存在過高的情況嗎?之後會有所回落嗎?
李京梅:我認爲目前的薪酬水平是有一點偏離實際情況的,人才市場的變化與整個技術趨勢是相關,但不是完全合拍的。如果去年沒有 ChatGPT 的問世,今年的人才市場并不會這麽火熱。
從目前來看,市場上已有 130 多個大模型,出現了百模大戰的盛況。我們認爲這些公司中,到今年年底或明年年初,不太堅定投入大模型的創業公司就會回歸原本的核心業務,不會投入大量的時間、精力、财力押注大模型,所以随着時間的推移,對于大模型人才的需求會有所減緩,人才的薪酬也會有所回落。
大模型人才的培養方式
量子位智庫:瀾舟科技會選擇吸納剛畢業的人才嗎?
李京梅:其實這類人才我們大多會選擇自己培養。這和我們基因背景有關系,周明老師 2020 年底從微軟出來,到李開複老師創新工場孵化,會熱衷于選拔實習生,一般是碩士、博士背景,很多實習一年多轉爲留用的人才。
量子位智庫:我理解是讓這些實習生成長爲大模型研發人才,培養周期需要一年到兩年左右。
李京梅:其實實習生工作半年左右,我們就能看出來是不是具備大模型研發人才的潛力。比如有一位博士在 2021 年畢業就加入了瀾舟科技,他現在成長爲能夠帶領幾位師弟的研發 leader 人才。
現在新技術瞬息萬變,具體需要多長的培養周期我覺得要看潛力,半年到一年就能達到大模型研發要求的人才其實很多,他們可以獨立完成很多事情,比如說指令微調,強化學習,還有監督微調(SFT)等,悟性強的實習生很快能掌握,但訓練中間還是需要有經驗的員工 check,導師會帶一點。
目前階段,大模型面向企業落地其實是不容易的,但和能力素質較高的年輕人對齊模型研發訓練的認知還是很快的。
量子位智庫:您怎麽看待 " 大牛帶小牛 " 這種培養形式?
李京梅:我覺得還挺有效的,現在的年輕人相對還是 " 白紙 ",而且大模型這樣的新技術不像傳統的軟件工程需要時間積累和學習,沒有太多曆史包袱。年輕人的基礎好而且跟随自己導師也積累過相關項目經驗,可以快速成長到一定的水準,後續接着磨煉,就能夠成長成優秀的大模型人才。
量子位智庫:瀾舟科技吸納的大模型人才大部分是在自然語言方向,有沒有再細分一點的研究方向?
李京梅:也有,比如機器翻譯,文本生成搜索這些研究領域的人才比較多。
國内大模型核心研發人才規模
量子位智庫:您覺得目前的大模型能夠做核心研發的人才大概是在什麽規模?
李京梅:樂觀點的話,國内做核心研發有幾千人左右,OpenAI 做核心能有幾十人,投入已經是非常多的。中國大廠不超過 10 家,做核心大模型的也沒有很多,創業公司就更少了。像王小川說 100 天招 100 人,也不是全部都研發大模型,所以幾千人就已經很多了。
量子位智庫:您覺得未來這些核心研發人才會越來越多嗎?
李京梅:肯定會多,現在高中畢業生上大學選專業,他們會參考人才市場薪酬,從而決定選擇什麽專業,高校也會根據市場情況增加設置相關專業。
除了學生群體,還有很多潛在人才加入大模型行列。之前有很多候選人來找我,把自學大模型的學習筆記發給我,來詢問應該補充學習哪些論文和文章。在這些方面有過積累的人才,我覺得都是可以發展成大模型人才的。
量子位智庫:您說的這些潛在人才我們看作是大模型的儲備人才,那您認爲大模型核心研發人才未來會成指數級增長嗎?
李京梅:我覺得不至于成指數量級增長,從我的角度來看,能做這件事的團隊少而且需求在變少。以 Meta 的 LLama2 開源以後,大模型作爲基座來講已經遍地開花了,未來會出現幾個巨頭。國内外的很多企業也都是站在 OpenAI 開源的成果上,所以其實做最底層的技術人員,全球範圍内的人數都不多。所以我覺得大模型核心研發人員,可能沒有之前想象的需要那麽頂尖的人才,如今 " 百模 " 出現,就表明大模型的基礎能力已開始趨同,現在投入大模型的人才不是大家想象說的那麽頂尖,必須要 OpenAI、Google、Meta 出的大模型,可能就會更多圍繞上層行業應用去落地。
今年上半年大模型落地很少,都在訓練大模型本身,現在發現大家差不太多。大家都在做 0-1 的事,想要比别人走得更遠,更多的人就會關注怎麽把大模型應用到場景中。
大模型人才發展現狀與未來
量子位智庫:您認爲目前大模型人才的發展階段是處于剛剛起步、高速發展,還是相對成熟的階段呢?
李京梅:如果是指和大模型核心研發相關的人才,那我覺得已經邁過了剛剛起步的探索階段,現在處于高速發展階段,分水嶺是 " 百模 " 情況的出現,意味着已經有很多大模型團隊已經實現技術閉環。
量子位智庫:您覺得邁向下一個階段的标志性事件是什麽呢?
李京梅:還是商業化事件,比如面向 C 端有第二個抖音這種現象級産品出現,面向 B 端稍微滞後一些,企業客戶從内部使用到大範圍推廣還需要一些時間,目前很難說使用大模型給客戶帶來了多少效用。
量子位智庫:關于大模型人才的分布,您覺得哪些地方是比較密集的?
李京梅:我覺得是北京、上海、深圳。北京肯定是最多的,這跟高校人才是密切相關的。然後就是華東、上海,再延展到杭州,因爲有阿裏在。再有是深圳,因爲像華爲、騰訊都在深圳。
量子位智庫:您覺得國内目前的這種培養模式可以從哪些方面進行提升?
李京梅:加強校企合作是很好的培養人才的方式,這種方式培養出來的人才在畢業時就有工程實踐的積累。因爲高校人才擅長做學術研究、寫論文,但他們沒有場景也缺乏數據。所以校企聯合可以發揮自身優勢,高校人才将自己的研究和實際場景結合會更有益,研究出成果也能繼續發論文,對企業來說也能形成前瞻技術的沉澱。
當前一直在讨論産、學、研聯動,其實現在很多企業和高校也在做這種合作,瀾舟科技也和金融機構成立金融 NLP 聯合實驗室。目前适合國内的培養模式,更可能是應用和基礎研究緊密結合這種方式。
量子位智庫:除了實踐型人才,您認爲未來什麽類型的大模型人才更受企業的青睐?
李京梅:我覺得是跨界人才。比如面向金融領域的大模型,就需要懂金融和大模型的人才。比如 AI for science,需要既懂制藥又懂 AI 的人才。未來大模型往産業落地,跨界人才是非常吃香的,至于是從科學家裏培養 AI 人才,還是從 AI 人才裏培養懂業務的人才主要是看大家的選擇。