近期,ChatGPT 火爆全球,僅用了兩個月就達到 1 億活躍用戶,成為史上用戶增長最快的消費應用。
不僅如此,ChatGPT 在資本市場掀投資狂潮,多隻概念股持續走高,還吸引衆多科技巨頭争相入局。
同時,也有不少有關 ChatGPT 的問題,如為何最近突然火了?到底沒有颠覆性創新?申萬宏源證券洪依真團隊在最新的報告中對這些關鍵問題一一作出解答。
Q1:為何 GPT-3 在 2020 年就推出了,而資本市場近期才開始對大模型高關注?
申萬宏源指出,2020 年的 GPT-3 仍有較多缺陷,其中無法商用的最大問題是輸出結果有毒或不真實,OpenAI2022 年 1 月正式公開了改良版 InstructGPT。比 GPT-3 小了 100 多倍,僅有 13 億個參數。
OpenAI 使用了一種通過人類反饋來強化學習 ( RLHF ) 的現有技術,根據用戶和 API 的交互結果,對模型的多個輸出進行了排名,然後再利用這些數據微調 GPT-3,大幅減少了有毒結果的輸出。因此,我們現在看到的 ChatGPT 可以優化負面結果,同時連貫對話也更加流暢,達到了可以商用的效果。
Q2:為何也有人認為 GPT 等大模型并未對 NLP 做出颠覆式創新?
傳統 NLP 最大缺陷,即自然語言理解、缺乏邏輯等問題,在 GPT 中仍未被解決。
GPT 等模型依賴于大規模離線收集的語料進行訓練,但是對于在線提供的即時信息,往往并不能進行充分理解并且納入自己的回複中。更進一步的,對于對話中提供的因果關系,ChatGPT 也往往缺乏很好的理解能力。
此外,GPT 會給出部分問題貌似合理但不正确或荒謬的答案,或者過度使用一些詞句和特定表達,同時缺乏類似人類的舉一反三的能力等。
Q3:國内 transformer 大模型做的怎樣?
申萬宏源指出,首先需要承認這一類大模型底層創新在美國開始,2017 年 Google《AttentionIsAllYouNeed》首次提出了 NLP 模型 Transformer,OpenAI 的 GPT-3 等。中國在 2021 年後加速追趕,尤其是在 CV 大模型和多模态融合。
據國内 OpenBMB 開源社區統計,目前,在全球超千億參數的大模型中,中國企業或機構貢獻了 1/3,美國貢獻了 1/2,世界其他國家或組織貢獻了剩下的 1/6。
其次,國内大部分視覺類 AI 公司都以小模型路線為主,投入大模型研發較多的包括百度、華為等,優勢可能會在多模态融合。
申萬宏源在這裡列劇了百度文心和華為盤古大模型:
百度文心大模型:NLP+CV,基本實現跨模态和多下遊應用。應用場景涵蓋:NLP 大模型、CV 大模型、跨模态大模型、生物計算大模型、行業大模型。API 包括了:1)ERNIE3.0 文本理解與創作:預置作文生成、文案創作、情感分析等任務提示,2)ERNIE-ViLGAI 作畫大模型,3)PLATO 大模型開放域對話服務。
華為盤古大模型:最大中文語言預訓練模型。2021 年 4 月華為發布千億參數 40TB 訓練數據的全球最大中文語言(NLP)預訓練模型,30 億參數的全球最大視覺(CV)預訓練模型。将 P-tuning、priming 等最新技術融入到盤古的微調框架中,提升微調效果;在樣本極少的情況下,盤古的少樣本學習能力遠超 GPT 系列和 BERT 系列;要得到相同的 F1 結果,盤古所需的數據量僅為中文 GPT-3 的 1/9,實現了近 10 倍的生産效率提升。
Q4:大規模預訓練模型(大模型)與小模型的核心區别?大模型有什麼優勢?
最核心區别在于參數量,例如 GPT-3 參數量達到了 1,750 億個,是傳統深度學習小模型參數量的至少一萬倍以上。申萬宏源表示,通過模型的擴大,可以帶來提升包括:
1)GPT-2 等大模型舍棄了小模型中常見的調參 Fine-Tuning 過程,轉向容量更大、無監督訓練。
2)在自然語言理解 NLP 中,常見任務包括翻譯、問答、文本填空等,常見小模型需要對不同的任務使用不同模型分别訓練解決,而 GPT-3 等大規模預訓練模型不再規定任務,而是對以上不同任務都有較好效果。
3)傳統的模型訓練方式是反向傳播算法,先對網絡中的參數進行随機初始化,再利用随機梯度下降等優化算法不斷優化模型參數,這種方式下對數據需求量較大。GPT-3 先使用海量數據預訓練大模型,得到一套模型參數,然後用這套參數對模型進行初始化,再進行訓練。大幅降低後續對數據量的需求。
Q5:GPT-3 等大模型和 Transformer 的關聯?
Transformer 是目前 NLP 領域效果較好的深度學習模型,因此 GPT/Bert 等都使用了 Transformer。
Transformer 引入了 Self-Attention 自注意力機制:讓機器注意到整個輸入中不同部分之間的相關性。Transformer 最大的特點是,可以讓每個單元都可以捕捉到整句的信息,這也是 RNN/LSTM 等更早期 NLP 模型無法做到的一點。
Q6:大規模預訓練思路對 AI 應用落地有什麼幫助?
小模型時代,商用模型開發會綜合考慮調參等研發投入量和帶來的商業價值,模型開發出來後能否複用以攤薄研發成本,同時對于部分訓練樣本量較少的場景,沒有很好解決方法。
大模型可以在長尾場景應用落地,降低訓練成本、減少數據要求。基于大規模預訓練思路,一方面大模型可以應對多個泛化任務,大模型 + 細分場景微調,更适合長尾落地;另一方面,對于小樣本訓練,大模型也有較好提升。
Q7:那 Transformer 對于 CV 機器視覺可以有類似 NLP 的提升嗎?
Transformers 用在 CV 上的難點,Transformers 自注意力操作中,每個元素需要和每個元素互相進行兩兩互動,最後算得一個 Attention 自注意力圖,通過加權平均,最後得到輸出。由于單元間兩兩互動,因此複雜度是序列長度的平方,也就是 n^2,在自然語言處理中,一個句子的長度一般就是幾百或上千,例如 BERT 為 512 序列長度。
而對于一個比較常見的 224x224 大小的圖片,如果直接以每一個像素點為單位進行兩兩互動的話,那序列長度為 50176,大概為 BERT 序列長度的 100 倍,因此複雜度極高。
但在 2021 年後,随着 swintransformer、mae 等論文推出,transformer 在 CV 和跨模态等應用增加。因此,國内擅長 CV 的 AI 公司,在 2022 年前對于基于 transformer 的大模型關注投入較少,但是申萬宏源認為随着 VIT 等效果提升,應用類的 CV 公司也會開始關注并投入大模型。
Q8:怎樣的公司有機會參與大模型底層技術研發?
申萬宏源認為大模型對存儲、算力要求極高,普通機構或難以複現。GPT-3 發布一年後,隻有 NVIDIA、微軟等大企業可以複現。
據 NVIDIA 估算,如果要訓練 GPT-3,即使單個機器的顯存 / 内存能裝得下,用 8 張 V100 的顯卡,訓練時長預計要 36 年;如果擁有 1024 張 80GBA100,那麼完整訓練 GPT-3 的時長可以縮減到 1 個月。
以微軟與 OpenAI 合作建造的 AzureA 工智能算力平台為例,該算力平台投資約 10 億美元,使用該超算中心訓練一次超大模型 GPT-3 大約花費 1200 萬美元。同時需要解決分布式訓練問題:上百台服務器之間的通信、拓撲、模型并行、流水并行等問題,模型訓練是顯存峰值問題。
本文主要摘取自申萬宏源報告《ChatGPT/AIGC 九問九答》