本文是 5 月 31 日品玩舉辦的 " 模型思辨——國内大模型生态研讨會 " 上,品玩創始人、CEO 駱轶航與 360 集團創始人、CEO 周鴻祎的對話實錄,經整理編輯發布。
訪談人:駱轶航
受訪人:周鴻祎
大模型确實要比光刻機簡單很多
駱轶航:我現在是品玩的首席大語言模型布道師,今天跟我對話的既是中國大語言模型領域的一個主要 builder,他也是一位大語言模型領域的 evanglist(布道者)。過去幾個月我們看到他在各種場合分享了對大語言模型趨勢的看法,當然他自己的團隊也在做大語言基礎模型。他就是 360 集團的董事長和 CEO 周鴻祎先生。
周鴻祎:我前不久生病了才病愈,我是第一次陽,後遺症比較嚴重,如果一會兒産生大模型幻覺,說錯什麽話,大家不要在意。
駱轶航:那取決于我怎麽給 prompt,出現模型幻覺的原因往往是 prompt 給得不好。
周鴻祎:我在下面聽你開場講了這麽久,感覺已經快溢出了。
駱轶航:那是你的 Token 不夠用了。那好,我争取用短小精準的 prompt 問你問題。過去三個月所有人都在讨論大模型,您覺得春節以後,中國和美國在大語言模型領域的差距是更大了還是更小了?
周鴻祎:我覺得當然是更小了,因爲在 ChatGPT 剛出來的時候,我這個做搜索的人,用搜索的思路去看人工智能,簡直覺得匪夷所思不可思議,原來研發大模型的路徑答案可以是這樣的,你也完全不知道它的工作原理是什麽。
但最近幾個月國内同行陸陸續續發布了自己的大模型,雖然客觀來講跟 GPT4.0 還有點差距,相比 GPT3.5 也有點差距,但差距沒有那麽大。
順道吐個槽,國内測試大模型特别喜歡用腦筋急轉彎的形式,但如果你看微軟對 GPT4.0 的測試,其實在推理能力以及非常長的思維鏈的能力上,GPT4.0 是遙遙領先的。
話說回來,千裏之行,始于足下,原來不知道什麽是預訓練,不知道什麽是微調,不知道什麽是用戶強化學習,踩了很多坑。,又從百億參數到幾百億、上千億的參數,現在總算做出一個能用的東西,雖然有差距,但也是非常大的進步。
國内研發大模型滿打滿算,起步晚的過了春節開始做,到現在也就三五個月時間,再次證明大模型确實還是要比光刻機簡單很多。
不過昨天看到英偉達的黃仁勳發布了 GH200 芯片組,我覺得差距是不是又拉大了。
駱轶航:所以我才問差距究竟是在變大還是變小,這個事是動态的,一會兒大一會兒小。
周鴻祎:要看角度。算力差距肯定是拉大了,人家内存大概 144TB,整個模型放進去都綽綽有餘,這樣就不需要搞好幾百台電腦集群訓練了,同樣參數的模型,過去一個月才能訓練完的,現在三個小時或者一天就能訓練完。
這種叠代速度太驚人了,因爲很多時候訓練的結果不一定是收斂的,可能訓練一個月後發現是一地雞毛,還得從頭訓練,但一個月的時間已經過去了。因此别人的訓練速度可能比你快上百倍,從這個角度來說,中美之間算力帶來的大模型差距拉大了。
我的感覺跟你是一樣的,大家都感覺很焦慮,三個月就像三十年,每天都有層出不窮的圍繞大語言模型的成果,軟的硬的,各種框架開源工具都有出來。但整體來說,我還是傾向于比較樂觀。
駱轶航:但不少同行覺得用一個很快的時間就能追趕上 ChatGPT 的現在水準,當然 ChatGPT 本身也在叠代。
周鴻祎:我覺得差距是客觀存在的,隻是行業中有人愛吹牛,如果要準确預言差距将會在哪一天趕上,我個人覺得還是應該謙虛一點,畢竟中國還是有很多人真正用過 GPT4.0 的,你不能因爲大部分人都沒見過就吹牛吧。
我們應該找到差距在哪裏,然後找到合适的場景充分發揮它的能力同時讓用戶對創新和面臨的困難有寬容和理解的接受度,不然吹牛吹得太大,大家期望很高,結果一用起來很失望。
垂直領域的機會還遠遠沒有表現出來
駱轶航:同行中您比較看好誰?是比 360 體量更大的巨頭,還是創業公司?
周鴻祎:我覺得各有各的優勢,最關鍵的是中國不會隻有一個 GPT4.0 就滿足了,也不會隻有一個大模型。
現在有一個趨勢是把大模型做小,小到一台安裝了英偉達 3090、4090 芯片的機器可以微調,甚至是将來在 IoT(物聯網)設備上部署,這就決定大模型算力結構将來會無處不在。
當年計算機剛出來的時候也有人總結過,全世界人民需要五台超級電腦就夠了,但真正改變工業革命的東西是個人電腦,進入每個家庭、進入每家公司,安裝不同軟件來幹各種各樣的事情。
駱轶航:也就是說會湧現出許多垂直模型?
周鴻祎:我覺得會比想象像更快。
大家需要改變想法,不要以 GPT4.0 作爲 Benchmark(對标)。,就像一個哈佛培養的博士後,水平是很高,獲得了十幾個博士學位,我們想複制一個短期内有點難,但這不妨礙我們培訓出來一個 211 或者 985 的大學本科生,他的場景目标很現實,就是直接訓練垂直業務。
因爲你用 GPT 就會發現很多問題它貌似能回答,但缺乏行業深度,因爲它太通用了。如果把大語言模型看作一種生産力工具的話,我非常堅信在垂直領域其實很多機會遠遠沒有被表現出來。要是真正完全用 ChatGPT4.0 看病,開的藥方你敢吃嗎?你真正完全用 ChatGPT 寫訴狀打官司,那不是會出事嗎?美國有一個例子就是一家公司打造了法律行業的大模型,它不會唱歌、不會寫詩、不會做腦筋急轉彎,但會回答法律問題。
因此,很多企業都需要自己定制的 ChatGPT。
駱轶航:随之開發成本、部署成本、訓練成本會降低對麽?
周鴻祎:這事兒已經不是秘密了,因爲難度降低了很多,所以還是要感謝開源,各種大模型相當于新鮮的大腦供你選擇,至少短期内将 knowhow(知識和認知)變成用數據灌進往裏面進行預訓練,或者根據行業的特點,針對将來行業可能用到的能力進行微調。
訓練的數據和訓練的方法現在一樣重要了,感謝開源生态,這些方法都在逐步被顯露出來。擁有和部署一個大模型的成本在急劇降低,但要是說大模型目标就是比肩 GPT4.0 甚至 5.0,那投入依然是巨大的,競争依然是激烈的。
三星前不久有員工把公司的機密數據放到 ChatGPT 上訓練導緻數據洩露,這是一個很典型的例子,無論是國内還是國外都可能就存在數據洩露的問題。現在很多企業試圖訓練自己的 GPT,因爲他們攢了很多安全内部數據,這些數據是他們的吃飯家夥,能夠拿來去訓練一個通用大模型嗎?不可能。
所以隻能去訓練企業專有 GPT,讓大語言模型更了解行業,更了解企業。未來這個市場應該是有非常大的場景和機會。
今天下午我會參加我們公司一個視覺大模型和智能設備結合的發布會。大家現在都在談軟件 APP,智能硬件的 AIoT 一直沒有真正實現,大模型真正成爲人工智能以後這方面有非常巨大的機會,将是又一個重要的應用場景。
現在的智能網聯汽車,比如特斯拉,要不要用大模型?肯定要,但車的速度很快,需要響應很及時,大模型如果在雲端可能不一定能及時響應,而車上安裝一個大模型成本不會特别高,可能就是一個英偉達 3090 處理器的成本。
駱轶航:是車要追求精準,大語言模型精準不了。
周鴻祎:所以隻有專有垂直的大模型才有可能解決所謂幻覺的問題。
駱轶航:隻有專有的大模型才不胡說八道。
周鴻祎:大模型胡說八道不是獨有的,大家都有這個問題。舉個例子,你問所有 GPT 大模型,湯姆 · 漢克斯演過幾個電影?它最後一定會胡說八道一堆湯姆 · 漢克斯沒有演過,甚至壓根不存在的電影給你。我對這個知識模糊思考了很久,這是生成式智能算法不可避免的問題,它在模仿人類學習知識的過程中更注重對知識範式的學習,對知識的細節做了很多壓縮,甚至是有損壓縮。
駱轶航:跟人類學習的過程都是反的。
周鴻祎:隻是部分沿用人類的學習過程,對知識模糊的應對必須借助搜索能力。大模型并不能夠取代搜索,相反,一個強大的搜索無論是基于全文檢索還是向量數據庫,能夠對大模型帶來兩個校正。一個就是訓練時間延誤導緻的不知道 " 今夕是何年 " 的問題,另一個就是知識模糊,很多可笑的問題如果有搜索能力做輔助那容易就可以解決,在企業級和專業級大模型上都是如此。
駱轶航:能不能說通用大模型的出現,是爲了未來出現更多解決特定問題的小模型?
周鴻祎:對,包括 Hugging Face 最近出現一些新的計算框架,本身和模型沒關系。有一種思路是主駕駛思路,因爲大模型善于理解語言,可以跟人交流,這樣在理解人的意圖以後,大模型可以調用很多其它應用系統或其它小模型。我們幹嘛爲什麽一定要讓哈佛出來的有十幾個博士學位的教授來幹所有的事情呢?十幾個不同專業的員工用不同的小模型、不同的訓練方法幹不同的事情才是合理的,最後需要一個大模型把它們協調起來。
這裏還有一個成本問題,維護千億級的大模型,不說預訓練成本很高,就是定期每個季度組織訓練一次,做一些微調,成本都會非常高。如果是做企業專有的垂直模型,可能一個 60-70 億參數或者 100 億參數出頭的模型,維護運營成本會非常低,改動起來也會非常快速,所以大模型并不是萬能的。
最近 Hugging Face 還有一個 "Agent" 模式,就是有外面的 "Agent" 調用大模型,完成工作規劃、分解和落地。圍繞大模型有很多程序,也有很多小模型、小應用可以彌補,它們就像膠水一樣粘合在一起。大模型不是萬能的,但通過各種模式合在一起可以取長補短,完成擅長的事情。
不要太着急于所謂 " 大模型生态 "
駱轶航:追求某個行業、某個領域數據的精準、數據的反饋,落實到應用上面還是小模型更靠譜。
周鴻祎:我們自己訓練大模型過程中發現一個特點,就是數據種類必須非常均勻,摻點文科的,摻點理科的才行,如果最近狂灌物理題就會出現遺忘現象,很多技能會急劇下降,我猜跟訓練過程中内部概率統計的參數變化有關系。
要做一個很大的模型,滿足十個億用戶的長尾需求,一會兒能算高數問題,一會兒能給出人生答案,一會兒能寫一首詩,一會兒能寫寶馬汽車廣告文案這是非常難的。
爲什麽我鼓吹力倡中國走大模型之路?可能我不是在一夜之間追上 GPT,需要有幾年的時間,但不能說追不上 GPT 我們的産品就是垃圾,就不做了,不做的話永遠趕不上别人,但達到 60、70 分甚至 80 分的水準,在很多垂直領域中,這種弱點就變得不那麽重要了。
駱轶航:打個不恰當的比喻,其實通用的大語言模型更像蘇格拉底和柏拉圖,因爲那個時代的先知什麽事情都知道,物理學、數學、化學都懂,包括亞裏士多德,我們期待對人類更有用的模型可能是錢學森、袁隆平,就是在具體領域非常專精的。
周鴻祎:我說的比你還極端,大模型就像當年個人電腦,它本身是通用架構,加上不同的軟件、不同的環境,可以幹很多事情。
我覺得今天不要太着急這個 Ecosystem 構建大模型的生态環境,因爲現在大家對大模型怎麽做的都還沒有搞弄清楚,你指望生态系統直接出來直接考慮做生态系統?我覺得有點太着急了操之過急了。
現在大家連發布都還沒正式發布,隻有發布以後。這裏還大模型的應用不隻是在 to C 的場景,另外我個人覺得大家也要關注大模型在 to B 領域的應用。像你這樣研究 prompt,研究大模型的,門檻和難度還是比較高的,盡管個人消費者也可以用它來但分析一個上市公司的年報,讀一篇論文,個人消費者也可以使用,但普通用戶真的會用嗎?大多數人沒有這種學習的欲望和分析的需求的。
大模型最大的意義就是作爲企業、國家、行業提高生産力的工具。
我想給品玩一個建議,其實品玩沒有必要做。
駱轶航:是品玩沒有必要做大模型還是品玩都沒有必要做了?
周鴻祎:沒有必要做模型,隻要打造一個駱轶航的個人 GPT 就好了,上面挂一個 360 行車記錄儀,每天去哪裏全部記下來,站在台上的一個小時,全部都數字化記下來,把這些數據全部鏈接訓練兩年,就能訓練一個專有的駱轶航版本的 GPT,訓練兩年。
《流浪地球 2》就描繪了數字影像,把你的人生拷貝在 U 盤裏面,然後插在一台超級計算機,電影裏好像叫 W500。我剛開始想這不是鬼話天方夜譚嗎?等我看到 GPT 後就發現這是完全有可能的,哪一天我把你 " 幹掉 " 以後,你不就永生了?因爲我們還是可以跟你的數據分身進行交流,你的數據分身可以站在台上滔滔不絕地回答我的問題。
駱轶航:你甯願看到我的分身也不願意看到我本人是嗎?回到剛才的問題,你還是沒回答國内更看好誰做大模型。
周鴻祎:你問我更看好哪個 GPT,我覺得我看好的都不重要,所有公司都有自己的優點,特别是中國互聯網公司爲什麽都要自己做?第一難度沒有那麽高,第二代表着人工智能的未來,因此不是用了别人的 API 就可以的,必須要對别人有所了解。
GPT 優先解決要 NLP(自然語言處理)問題,NLP 是所有人工智能皇冠上的明珠,誰參玩透了語言的理解誰就真正理解了這個世界,成爲未來其它人工智能任務的底座。OpenAI 最大的創新和指明的道路,就是把所有文本序列當成一個 sequence(序列)進行猜測和預測,所以現在處理視覺、處理聲音,大體也都是這個思路。用大模型做多模态效果要比原來的 CNN(卷積神經網絡)和 DNN(深度神經網絡)的玩法先進很多。
如果我們把所有東西都看成序列,那麽從機器人到自動駕駛,都有可能用大模型結合其它模型形成技術上的突破。DeepMind 對蛋白質的分析,甚至人類對基因序列的分析,大模型算法都有可能幫助形成突破,因爲基因序列也是一種序列啊。!甚至,大模型工具在将來可能變成數學家、物理學家手裏的工具,幫助人們研究前沿科技。
駱轶航:現在大家都在講生成式 Generative 生成式人工智能,或者是 Predictive 預測式人工智能,它們的背後都是一套通用的大模型底座是嗎?
周鴻祎:對。目前網上出現的很多開源給的已經不是一個 " 幹淨 " 的東西,而是經過預訓練很多數據集,能力雖然不高,但 General 知識是有的,剩下就是交給自己微調,就像往專業方向發展。最近國内也有開源的趨勢,所以我覺得還是得感謝開源。
駱轶航:您覺得現在開源的趨勢怎麽樣?最近也有很多中國開發者是在開源社區裏面,但還有哪些方面做得不夠?
周鴻祎:國外的想要開源是因爲這是體現了市場經濟條件下的人多力量大,聚集更多的人,因爲靠一家公司、一個團隊支撐不了。我覺得 Meta 的 LLAMA 系列的發展就是相互刺激,可能一個開源項目隻有 40 分,但刺激你一下就會做到 60 分,另外一家可能做到 80 分,國内還沒做到是習慣把開源改一改自己用。
駱轶航:不再把自己的成果返回給開源 Community。
周鴻祎:可能需要一個過程。
我覺得三個月都像過了三十年
駱轶航:因爲大語言模型的出現,General AI 這樣的人工智能出現,您認爲未來五年會發生什麽?
周鴻祎:怎麽總是想那麽長遠的事情?我覺得三個月都像過了三十年。
其實現在我的策略非常清楚,再牛的人也要符合大勢,中國的大勢就是産業數字化,互聯網數字化的公司在裏面其實是配角。我覺得 360 就是做好兩件事情:一個是數字安全,光是網絡安全不夠,要有數據安全。另一個是人工智能安全,這是最複雜的,也是現在大家最關心的。我們國家可能也有很多政府部門關注這些事情,今天還回答不了人工智能産生意識以後變成新的物種會不會造成大規模的社會問題。
我認爲人工智能的意義不亞于電腦和互聯網,是一場新的工業革命,也是數字化的頂峰。大家好不容易上雲有了大數據,但這不是數字化的終結,得把大數據轟灌到大模型裏,變成一個通用的智能服務才能像電一樣賦能百行千業。
360 現在所做的各種場景都值得用人工智能重做一遍,所以會把存量和增量的場景都做一遍。
駱轶航:不光是存量,增量也有很多。
周鴻祎:就是打造企業級、行業級的 GPT,包括面向中小企業的 GPT。直接給到中小企業大模型他們是不會用的,必須經過 SaaS 化的包裝,所以就是安全和數字化兩條腿。
謝謝你給我的這點廣告時間。
駱轶航:廣告時間還是要給的,但今天還是更感謝周總,時隔幾個月叠代得這麽快,已經迅速地從對大語言模型的迷思中走出來。美國人要談民主化人工智能、民主化大語言模型,如果我們也套用他們的話,最重要的就是讓每個人都能夠用對自己真正有用、讓每個開發者用得真正更簡易,每個想搭建自己模型的人,真正搭建符合自己企業、産業、行業需要的模型。
周鴻祎:這就是科技平權,我一直在思考 GPT 這種大語言模型究竟能夠帶來多大變革?我們這一代人跟英偉達黃仁勳黃老闆一樣,四十年前經曆了 PC 的問世,你會發現電腦被發明的時候是沒有帶來産業革命的,就算再強大,它隻是軍隊研制核武器的工具,是氣象局預報天氣的工具,是政府做人口統計的工具,跟普通人沒有關系。
什麽時候産生工業革命?其實就是科技平權,PC 走進千家萬戶。手機也是一樣,因爲智能手機,今天一個流浪漢也任何人都能拿出手機刷短視頻,找你刷二維碼付費。一個東西多有力要看是不是能夠滲透到千家萬戶、百行千業,原來大數據不具備這個能力,。品玩公司可能也有大數據,但想直接利用的話很難,需要有人幫你分析。
大語言模型解決了利用大數據、分析大數據的問題,創造了一種通用人工智能的問答能力甚至寫作能力、讨論能力,這種通用能力使得跟行業無關,能夠賦能百行千業,賦能千家萬戶,我認爲這絕對是工業革命級的發明。
駱轶航:最後扯一個小閑天您怎麽評論黃仁勳目前的生意和英偉達萬億市值?
周鴻祎:這個我很難評價,我跟老黃最熟的時候是他最失意的時候,那個時候他一直在爲英偉達的微電子芯片找出路,當時英偉達試圖進軍移動市場,但是他的手機芯片實在是太熱了,熱到發燒。
我那時和一個創業者一起想要用芯片做家用遊戲機,進入 console game(手柄遊戲)這個市場,于是就跑到矽谷去見老黃了,老黃很重視這件事情,請我吃牛排大餐,但事實證明,console game 是非常獨特的市場,曆史上隻有索尼和微軟和任天堂成功了。
老黃其實有一段時間業務很迷茫,希望給業務尋找出路,所以對來自中國的兩個創業者也表現出很大的尊重和尊敬。我認爲老黃今天的成功不是運氣,而是靠堅持得來的。按照我設想的情況,以後大模型無處不在,如果都需要英偉達的機器,需求當然是很大。
過去幾年我們都在建立超算中心,但很多超算中心都閑置,因爲它無法做通用計算任務,缺乏一個通用計算架構,如果都換成英偉達的 A100 或者 A800,保證大概生意會好得多,因爲全世界對英偉達的需求還是非常旺盛的。