特邀國盛證券所長助理、計算機首席分析師【劉高暢】帶來最新的觀點。
1、産業變革看什麽:巨大的潛在空間和颠覆性,落地速度快不是核心,空間大更關鍵。
2、DeepSpeed Chat 的優勢是效率和經濟性比較好,它的效率比其他系統快 15 倍以上,且具有出色的擴展性支持,可以應用于各種模型。
3、Deep Speed-Chat 應用的三種方式:
第一種方式是通過 Fine-tune 微調這種方式來進行行業化,和 know-how 的融合;
第二種方式是通過 plugin 接入到其他應用程序中,調用接口并使用其他工具;
第三種方式則是通過多模态的方式,使用的輸入輸出信号除了文字,還包括圖像、視頻輸出信号以及機器人指令。
4、在應用的爆發後,推理側的算力需求才是真正的爆發。使用量越大,對算力的需求就越高。
正文:
1999 年整個互聯網行業的發展特點:巨大的潛在空間和颠覆性
在之前的幾次關于整個 AI 時代的分享中,我們在去年底所有的行業策略中強調了 AI 這一重要方向。然而,事實證明 AI 的演變速度和擴散程度超出了我們的預期。與去年年底我們撰寫年度策略時相比,AI 在這幾個月的演進中得到了質的提升。因此,我們将其作爲幾個主線中最核心的方向之一。
以前我們列出了三個并列的主線,但現在我們認爲 AI 是首選的主線。市場和産業發生了許多變化,主持人剛才也提到了 "AutoGPT" 和 "DeepSpeed chat"。市場有許多相關認知和領域方面的錯誤理解,我們今天分享的重點是這個行業的最新更新,幫助大家理清思路。
從行業中期的角度來看,我們之前撰寫了一份有趣的報告,分析了 1999 年互聯網市場。我們認爲,從産業的角度出發,我們應該淡化對投資本身的理解,那麽這些年唯一可比的科技周期就是 1999 年。因此,我們回顧了當時的互聯網行情,并發現它們有幾個特點。
它們都是巨大的行業變革,同時處于産業的早期階段,因此很難看到營收和盈利的變化。在早期階段,甚至産品形态、商業模式和競争格局都不是很明确。然而,它們最可比的特點是具有巨大的潛在空間和颠覆性。
當我們回顧 1999 年整個互聯網行業的市場表現時,發現它的持續時間遠比大家預期的要長。這一行情從 1998 年 7、8 月開始,一直持續到 2000 年年底。在這一過程中,出現了許多倍數增長的牛股,股票的漲幅多達 8 倍、10 倍或者 15 倍,甚至更多。
因此,在大型科技行業的早期,整個産業積極地擁抱了這種新技術的變革,全社會也響應積極。市場也會給予這種可能性極強的獎勵。這一輪人工智能的發展,與當時的情況非常相似。巨大的技術變革和極大的社會影響力,它的影響不僅限于計算機行業的 400 家公司,也不僅限于 A 股的 4000 家公司,它影響的是全體民衆的生活和工作,以及整個社會形态。它有可能極大地提升社會生産力,爲我們民衆帶來巨大的便利性。但同時,它也具有極強的颠覆效應。因此,某些行業可能會受到影響,整個形态也可能會發生較大的變化。
DeepSpeed Chat 的優勢和應用
近期的 DeepSpeed Chat 很多公衆号報道時寫得非常誇張,稱其爲 " 全民大模型 ",好像這樣的大模型開始變得不值錢了,但事實上,DeepSpeed Chat 并不是一個訓練預訓練大模型的工具,它更多的是在預訓練好的大模型的基礎上進行強化學習調優,也就是所謂的 Fine-tune 或微調方式。雖然絕大多數大模型具有非常強的通用性,但在具體細分領域可能無法提供足夠的準确性。
例如,如果将 ChatGPT 在 3.5 階段的模型用于醫療診斷,準确率可能隻有 87%。因此,我們需要使用行業化、專業的數據和知識,以及 know-how 來訓練模型,使其成爲一個準确性更高的醫生。
在這個過程中,Fine-tune 需要特定領域的數據,以及一定模型的基礎,在傳統原有模型的基礎上,再來訓練提高準确性。這種過程類似于強化學習, Deep Speed-Chat 主要加速的就是這個環節。該引擎具有三個主要優點:
第一個優勢是效率和經濟性比較好,它的效率比其他系統快 15 倍以上。它相對高效地利用了 GPU,不像其他方式可能隻能利用 GPU 的 10%或甚至 5%性能。
第二個優勢是它具有出色的擴展性支持,可以應用于各種模型,不僅僅是像 Hugging Face 的 Bloom 這樣的模型,還包括像 openAI 的 ChatGPT,GPT-3 還有各類的 GPT3 模型。它一天之内的訓練速度也很快,可以對一個龐大的 175B 模型進行 Fine-tune。并且它的算力消耗也很親民,隻需要一個 GPU 就可以支持超過 130 億個參數的模型。
Deep Speed-Chat 會帶來非常明确的影響,應用主要通過三種方式:
第三種方式則是通過多模态的方式,使用的輸入輸出信号除了文字,還包括圖像、視頻輸出信号以及機器人指令。通過使用 DeepSpeed Chat,也可以降低某些工程難度,使中小型應用程序制造商能更輕松地将 ChatGPT 用于各種應用程序,如醫生、老師、金融分析師等,并且可以用于其他方案。
因此,整個 ChatGPT 的可能性擴張速度将會加快,這種完整的開發工具對應用的成型有非常強的幫助。
另外一點容易被誤解的是,使用 DeepSpeed Chat 後,訓練時需要的大量算力就會縮減,但事實上,這種觀點是有偏差的。正如我們之前所提到的,在整個訓練過程中,包括預訓練階段和強化學習階段,還有很多 InstructGPT 的過程,這是一個教育和指導的過程,就像我們教小孩子一樣,我們會指導他們遵循正确的指令和提升道德水平。預訓練階段,包括編寫代碼的階段更多地提高了它的邏輯水平。
相比于預訓練階段,強化學習在整個訓練過程中所需的計算資源占比非常小,如果僅僅是強化學習的話,它可能隻占整個訓練過程的千分之一以下。
但結合一些其他的 Fine-tune,可能需求會多一些。但總體而言,在整個訓練過程中,它的占比會非常少。
另一個知識點是,在強化學習中訓練的占比已經足夠小了。在整個模型的訓練和推理過程中,我們認爲在應用的爆發後,推理側的算力需求才是真正的爆發。使用量越大,對算力的需求就越高。
相對于訓練端,這種需求可能是 5 倍、10 倍,甚至更高。因此,需要多少算力取決于應用。DeepSpeed Chat 加速了各種應用的落地,因此我們認爲中期算力需求有望迎來一個極大的爆發。
AutoGPT 是什麽
很多人關注 AutoGPT。AutoGPT 是一種自主反饋和改進的行爲。初始時,它有許多身份設定和目标存在。該産品展示了整個流程,并提供了一些演示和連接,比如你可以輸入 AI 名稱和角色來定位身份。在此輸入的 AI 是爲了自動發展和實現商業目标,如增加淨值。
所以交易中的 GPT 是指定增加淨值的,設定五個目标是爲了完成任務。GPT 開始産生邏輯鏈以實現這些目标,給出理由并制定計劃。完成目标的計劃通過反思和下一步操作來實現。這個過程循環不停以達到目标。
在這個例子中,展示了一個 Chef GPT,即廚師的 GPT。它的設計初衷是通過浏覽網頁和觀察事件來創造一個獨特的菜單,這個菜單能夠與特定的主題相匹配。它的一個目标就是發明一個不在菜單中的菜譜,然後将其保存下來以适應這個特定事件。在完成這個目标前,它會不斷推導和搜索相關的新聞和事件,以形成新的菜單。如果沒有形成菜單,它會将其跳過并繼續搜索,這個過程中會有不斷的思考。
AutoGPT 就是這樣的一個過程,它把 GPT 融合起來,形成了一個能夠自我反饋、自我思考,不斷去演繹邏輯的方案。等于把一個簡單的指令和目标指出來後,讓它發散,然後讓它去審視之後的結果。
所以 AutoGPT 是一個很有意思的産品,它的應用空間也比較大,給一個簡單的指令,就可以不斷的去擴展、去融合,所以想象空間就比較大。這裏強調一下,微軟 Copilot 大家也看得比較多了,SAM 也是大家最近看的比較多的一個方向。事實上,SAM 并不能夠取代機器視覺,因爲 SEM 隻是去分割任務,大家可以看到這個我們分割出來的效果,如果分割的效果比較好,那麽識别的準确率也會大大提高。
互動環節
見智研究:對于 DeepSpeed Chat 來說,企業會用到開源的模型對這種類 ChatGPT 進行微調,那麽對企業來說他們可能會遇到哪些難點?
劉高暢:
對企業來說的,首先還是要有一定的大模型的知識,也不是說所有企業的都有微調的基礎,也是需要專業的團隊來做。
第二點就是在微調的過程中,都是爲了強化某一個領域的效果,這個時候,需要對這個場景有一個好的理解,并且要結合所需要的場景和應用,然後儲備足夠好的數據。
不是泛泛而談的數據,而是真的對這種場景應用有很大支撐的數據,然後進行強化學習和訓練,才能很好地提升這個領域的效果。
第三點,對企業來說,Fine-tune 強化學習的過程當中,不隻是單單地把它的專業度提升,它還有一個優點就是我們可以把這個模型做小,因爲大家知道大模型的參數規模都會比較大,對算力的消耗也比較大,那麽在推理應用端的話經濟性不足。
那麽 Fine-tune 的微調,所需要考慮的就是有沒有辦法在保持效果的情況下,把模型做得相對來說小一些,那麽它的經濟效益就會更好。
見智研究:怎樣看待中小企業自己研發大模型的路徑?
劉高暢:
中小企業研發大模型,就是你也不能太小,因爲我們考慮過你這個模型需要先做大再做小,你即使做行業模型,一般來說也是這種多模态的模型,基本上模型規模我們認爲融合起來至少也是在 500 億參數以上,純視覺大模型你是可以做到幾十億參數的,不過那個意義不大。
一旦和 GPT 融合,然後用這種視覺大模型的形式,我們認爲至少有一定的泛化能力,至少應該是在一個小幾百億參數,這個是必須的。小幾百億參數,這種行業的模型要達到比較好的效果和比較好的應用,我們認爲整個研發的投入,應該也在一兩個億以上。而且它對于這種人才的儲備,還有行業的客戶數據的儲備,還有 know-how 的儲備,其實要求都還是比較高的。
所以我們認爲很多初創公司有人才的基礎上,它是可以做這樣的大模型的,但是對所有的絕大部分的中小企業來說,我們認爲這個門檻相對來說比較高,所以盡量不要一開始就做大模型,最好是結合一些比較成型的,比如說像開源的 hugging face 等等。
見智研究:對專用領域的企業來說是否會傾向于模型壓縮以及本地化的部署?
對很多場景來說模型壓縮應該就是蒸餾和裁剪這兩個方式,這個是一定會做的。我們剛才講 Fine-tune 的時候,它也進行了這種方式。所以你在具體的細分行業,你是可以蒸餾和裁剪的比例是比較高的。像 ChatGPT ,它在應用的過程當中它爲了保持通用性,它大概裁剪的模型規模,就是對算力的損耗大概是降低了 90%。那可能在細分的領域來講,這種模型的蒸餾和裁剪我們認爲應該是可降低在 90% 以上,好的話可以在 95% 以上這樣的水平。本地化部署,我們覺得相對來講難度會比較高。
見智研究:對于開源模型來說,開源商的授權問題是否值得關注?
劉高暢:
開源商的授權問題是肯定需要關注的,因爲無論是在這種 GitHub 還是像 hugging face 裏面,如果自己用還好,但是如果說來進行這種商業化去推廣,你的整個合法性就會受到考驗。在一些非允許的區域或者說領域内,你用它的底層的模型,開源模型做訓練。就像我們之前,比如中國軟件以前做操作系統這種服務器操作系統,它的麒麟操作系統的底層可能是 CentOS。一旦把這一塊禁了之後,大規模的商業化就會受影響,很多客戶也會不願意用這樣的一個合法性存疑的模型,所以在商業化的過程中是受影響的。但是在這個自己就是說單獨使用的過程當中,這個是不受影響的。
見智研究:Meta 的 SAM 模型在是否在産業當中已經有一些最新的進展了?
SAM 它整個推出來的時間不長,我們這裏也講了它的功能主要是分割,也叫 segment anything model,然後它這裏面其實是融合了很多算法,包括像 ViT 這種算法一些思想也是融在其中。這個後面就是它對這種通用的視覺。比如說在機器人的運行過程當中,那麽它可以去區分,要讓每一塊物體進行這種自動的分割,然後你的注意力注意到哪個模塊,它才進行這種識别。
那這樣的自動分割,然後再加識别的方式,它對節省算力,還有像人一樣的這個智能其實是非常像的,就是我們一看看到眼中的圖像當中,我們可以其實知道是很多模塊,但是我們不仔細去看某一個領域,我們可能很多細節很多點是看不清楚的。那麽它這個就是先分割,然後再重點關注再識别,這個可以大大的去提升視覺的效率還有準确度。
見智研究:多模态在視頻應用上有什麽最新的進展?
劉高暢:
多模态視頻這個其實是大家的一個誤區,大家覺得視頻才是真實的世界,但實際上視頻的話就是一秒 24 幀的這個圖片。在多模态發展到今天的話,其實産業都在進步。在分割的這個環節上有 SAM 出來,然後在識别的這個環境上,我們也看到了像這種 Google 2 月份發的這個 ViT-22B,也就是大家講的這個視覺大模型,真正就真的把這個大模型從 30 億參數擴展到了 220 億,再加上這樣的一個圖生文的模型之後,我們看到 GPT 的發展有這種智能化的這個反饋了。
現階段我們看到的是搜索輔助編程、聊天機器人的應用,但是未來我們會看到很多這種簡單多模态的方案,像這種智能家居的工業視覺,工業檢測,通用的 AGV 等等。
落地速度快其實不是一個選擇的标準,未來的發展空間大才是最好的一個選擇标準。現階段的話我們看到的比較快的是搜索,是輔助的編程,是各種聊天機器人的變種落地快,在中期來看的話,既能快速落地,又有比較大的空間。我們看到是 office 類的工具,簡單多模态的這種方案,行業的專家智能助理,接下來的這個半年到 3 年内,應該會給大家不斷地産生各種各樣驚喜。
未經授權,禁止轉載。