近期," 百模大戰 "愈演愈烈。在大模型熱潮中," 人才 "成爲各大科技公司、創業團隊和研究機構激烈争奪的焦點。然而,目前 AIGC 領域的尖端人才,仍存在較大缺口。
到底招募什麽類型人才,有利于模型研發?
去哪裏招募大模型人才?
如何培養大模型研發人才?
爲了回答以上問題,量子位智庫特别邀請 AI 大模型領域的從業者及領域專家學者,向企業團隊和求職者分享大模型人才的機遇挑戰以及未來發展前景。
本文爲量子位智庫 " 大模型人才 " 系列深度訪談欄目,更多内容請關注即将發布的《2023 AIGC 大模型人才發展全景報告》
訪談人物介紹
△昆侖萬維董事長兼 CEO 方漢
2008 年加入昆侖萬維,先後領導研發了《三國風雲》和 RPG 類網頁遊戲《武俠風雲》,并且多次獲獎。
精彩觀點
1-2 年内,算法人才的短缺情況會得到極大的緩解。
我理解的人才創新意識,指的是在技術和工程角度如何創新性地解決問題、提高指标。
" 選擇 " 比 " 培養 " 更重要,自主學習比師父帶徒弟更加重要。
在大模型這樣的全新領域,剛畢業的博士生經過半年時間的培養,也能成爲領域專家。
從供給角度看,目前大模型人才處于不足的階段,3-5 年後情況會極大地緩解。
從宏觀角度來看,與傳統行業相比,大模型人才培養難題在于大學目前的算力不夠。
基于 AI 和大模型,在應用層面做出全新商業模式的企業将獲得最大的紅利。
訪談實錄大模型人才如何定義?
量子位智庫:昆侖萬維是如何劃分大模型人才的?
方漢:我認爲模型訓練應該分成兩大塊,訓練推斷與應用開發。按照模型訓練的環節,我們又把人才分爲算法側人才、架構側人才以及應用開發側人才,核心算法人才又細分爲預訓練、數據處理、微調推斷優化等等。
量子位智庫:算法人才、架構人才、應用開發人才,您覺得哪類人才最爲稀缺?而且未來很長一段時間都有可能很稀缺。
方漢:目前看,最稀缺的肯定是核心算法人才,但供需情況會迅速得到緩解。因爲這裏有一個很有意思的現象,目前各個大學算力是嚴重不足的,大模型相關方向又是當下熱點,能轉向這個研究領域的人才特别多,比如 NLP,所有做 NLP 的人才全在轉向大模型。
所以,我個人看法是 1-2 年内,算法人才的短缺情況會得到極大緩解,因爲拿到高薪的算法人才特别多,我覺得中國在人才配比上還是很市場化的。
大模型人才應當具備的能力要素
量子位智庫:那在招攬人才的時候,是比較看重人才本身哪些素質?
方漢:在您所說的學術成果、實踐經驗、學曆背景和創新意識這幾個方面,我們優先考慮的是實踐經驗和創新意識:首先,大模型訓練本質上是個工程問題,那麽實踐經驗肯定是非常重要的。其次,大模型是創新項目,因爲所有大模型企業都在齊頭并進地去競争,如果沒有創新意識,很難領先于其他人的,因爲這是全新的工程方向。
量子位智庫:您是如何看待這種創新意識?
方漢:我理解的創新與大衆定義的創新不太一樣,以往更多是算法創新。我所說的創新,首先是緊跟大模型的前沿進展,全球範圍内研究大模型訓練的人非常多,這個方向進展很快,每天有幾百篇新論文出來,在各個方向、領域做改進。第二個是能夠從實際需求出發,用新方法來解決在工程上遇到的問題,這裏的創新更關注的是如何在技術和工程角度創新地解決問題、提高指标。
量子位智庫:您覺得是否可以通過學術成果、專利成果等來判斷大模型人才的創新意識?
方漢:我認爲根據專利成果來判斷人才的創新意識是不太合理的。OpenAI 并沒有那麽重視人才在申請專利方面的表現,最好的創新其實依賴的是内部的經驗積累,僅從專利角度來判斷是不太合理的。
然而,學術成果是可以作爲比較重要的判斷依據。比如說第一個做出 Vicuna 模型,第一個做出 ControlNet 都是博士生,從這個角度來看學術成果可以作爲一定參考。
但是在實際操作過程中,除了發論文的大創新以外,在工程上還要有無數的小創新來實現。所以,創新意識還是要根據人才在實踐中解決問題的速度和交付能力來判斷。
大模型人才的培養方式
量子位智庫:天工大模型從 1.0 升級到 3.5 階段,在不同的階段會注重配置哪些領域的人才呢?
方漢:在早期階段我們确實是更需要對大模型底層架構、對 CNN、對 Transformer 更加熟悉的算法人才,當然還包括數據清洗、數據處理這些方面的數據科學人才;等到大模型逐漸成熟需要轉向多模态,這時就需要一批做計算機視覺的人才;如果要對外發布大模型,就需要安全審核的人才。
量子位智庫:昆侖萬維是如何培養自有的大模型人才?
方漢:昆侖萬維從 2020 年開始做大模型訓練,當時市面上做大模型的人才非常少,走 BERT 路線的人比較多,走 GPT 路線的人比較少,所以我們當時選擇自己培養大模型人才。
培養方式就是讓有算法背景的人才學習模型訓練方向,那麽在招聘時就要考慮選擇對機器學習、深度學習熟悉的人才,同時有較強的自驅力和學習速度比較快的人才、有算法背景的人才,我們原來有一些人才研究的是 CNN 等技術方向,現在會更多地轉向 GPT 訓練方向。
量子位智庫:您如何看待 " 大牛帶小牛 " 的這種培養模式?
方漢:每個技術驅動的企業其實都會選擇 " 大牛帶小牛 " 的培養方式,但選擇人才比培養人才更重要,自主學習比師傅帶徒弟更加重要,所以在招聘時我們也十分看重人才的自主學習能力。
對于傳統技術方向,比如 Java,需要依賴豐富的經驗,應屆畢業生需要較長的培養周期,才能成長爲領域專家。但大模型訓練是新興領域,工業界的積累并不比學術界深厚太多,我們比學術界多的是算力,在算法層面其實我們并不比高校領先太多。
量子位智庫:那應屆畢業人才如果成長爲大模型專家,需要多長時間?
方漢:有大量在讀博士生能夠發表非常前沿的大模型論文,也看得出來很多大模型創新論文是博二、博三學生發的。我們在學校裏找到來了就能上手的人才,花幾個月就能成長爲領域專家。
我們的想法是,從應屆畢業的博士生中選擇在校期間就表現出創新能力和技術視野的人才,我們可以用較短的時間來培養 " 小牛 ",就能成爲您說的 " 大牛 "。
量子位智庫:通過幾個月到一年的時間,這樣的應屆博士生就可以成爲領域 " 大牛 ",我理解您所指的 " 大牛 " 他們是具備核心研發的能力。
方漢:對,我們給年輕人的機會非常多。其實 OpenAI 做 GPT 訓練的,可能才幾十人,其中有一大批是剛畢業沒幾年的人才。我覺得國内大模型團隊基本都是這樣,這是一個全新的領域,新人的機會特别大。剛畢業的博士生幹了半年左右,成爲領域技術專家是沒問題的,但管理能力肯定是有欠缺的。這個技術領域很新,大家都在同一個起跑線上向前跑,應屆生不一定有劣勢。
量子位智庫:您說的應屆人才大多是自然語言處理方向的嗎?具體會細分到哪些領域?
方漢:也不完全是自然語言處理,我覺得在大模型全生命階段,除了數據處理需要依賴工程積累,在預訓練、RLHF、SFT、算子優化等方面,在學術上都有相應研究方向,所以我認爲他們具備了 70-80% 大模型研發訓練的能力。
研究機器學習、強化學習、深度學習的人才,轉向大模型都非常容易。而且由于現在有很多開源模型,學術界基于開源模型做論文研究的人也很多,所以我不覺得高校人才存在分工上的絕對差距。
國内大模型人才市場的發展情況
量子位智庫:您覺得目前大模型人才市場整體發展如何?
方漢:我覺得大模型人才整體處于一個高度稀缺的狀态,那麽做存量的人會多一些。但是随着大模型從業者越來越多,分工也會越來越細,這是很自然的分化過程。任何一個新技術的發展過程都是這樣,從早期的全棧工程師逐漸成爲組長級、總監級的 leader,然後組員的技術方向分化就會更明顯。
量子位智庫:昆侖萬維招的人才大部分是來自高校,還是來自這個産業更多?
方漢:我們目前需要有實踐積累的人才,就會更多選擇來自産業的人才,他們有豐富的工程經驗。但也會招聘應屆畢業人才做儲備,所以校招也比較多,校招跟社招的比率差不多 1:5 的關系。
量子位智庫:您覺得目前的這個大模型人才發展處于一個什麽階段?
方漢:從人才整體的學術成果數量來看,全世界 AI 論文發表數排在第一的是中國,排在第二的是美國,論文數目是美國大于中國。
我認爲在人才的能力要素方面,不同經驗的人才都是大模型所需要的,剛畢業的應屆儲備人才、領域專家和領軍人物這三者應該都有。但從供給角度來看,目前就是處于不足的階段,大概 3-5 年後供給情況會極大地緩解,因爲從設置科目到學生畢業也需要 5 年時間。
大模型人才的培養難題
量子位智庫:您覺得人才培養可以從哪些方面進行提升呢?
方漢:我主要從兩個來分享吧,企業角度和宏觀角度。
從企業角度來看,人才參與工程項目,成長就更快一些,這是非常明顯且實際的方式。對人才更有耐心的大企業,人才做的事情會更專業,但小公司大模型團隊的人才成長得更全面,大模型全棧的能力要素都要具備。
從宏觀角度來看,和其他傳統行業相比,大模型人才培養難題在于大學目前的算力不夠,導緻學校很難培養出架構人才,這些人才隻能去企業進行培訓。這是全世界所有大學面臨的困境,在國家級算力共享給大學之後,我們相信這種情況會得到緩解。
量子位智庫:也就是更多依賴于産、學、研、策的聯動來培養大模型的人才。
方漢:我覺得要盡量在學校裏提供與企業一樣的硬件條件,否則在學校裏學到的東西肯定是相對有限的。
大模型人才和 AI 企業的未來發展趨勢
量子位智庫:那從您的角度來看,大模型行業整體未來會有什麽樣的發展趨勢?
方漢:我覺得不應該叫大模型行業,應該是整個 AI 行業,AI 行業遇到的機會應該是不亞于互聯網和移動互聯網。我對 AI 行業的發展趨勢是非常看好的,我認爲 AI 将深刻改變整個互聯網,以及整個人類生活都會受到極大的沖擊和改變,我覺得整個行業會發生方向性的轉變。
量子位智庫:基于這樣的趨勢,您覺得什麽樣的大模型人才會更受企業的青睐?
方漢:首先,現在已經形成" 百模大戰 "的情況,大家都在做大模型底座,将來大模型底座這一塊肯定會收縮到幾家大廠商來提供,更多企業應該處在用大模型做應用的位置,那麽我認爲基于大模型應用開發的人才會越來越多。
而做大模型底層訓練、優化算法和架構的人才會向大廠或是大模型團隊去彙集,但我們認爲最大的巨頭不一定是大模型企業本身,而是基于大模型做出很強應用的這些企業。這些企業一旦它長大了,也會建立自己的大模型。
我們認爲" 應用爲王 ",就是指在應用上基于 AI 和大模型,做出全新商業模式的企業将獲得最大的紅利。那麽我們認爲在未來十年一定有像字節,美團、滴滴這樣的新形态巨頭公司出現,而且一定是從 0 到 100 長出來的,今年或者明年創立的公司應該都有這個可能性和機會。