人工智能開啓狂飙進化路,見智研究(公衆号:見智研究 Pro)特邀中信證券研究部高級副總裁【丁奇】一起來聊聊人工智能 GPT4 的最新進展,并将核心内容整理如下:
摘要:
1、多模态帶來成本的提升是非常正常的。
2、科技越往後成本會越低。從長遠來看,OpenAI 的邊際成本将無限趨近于 0 。
3、人機交互界面的改變是 GPT3.5 開始被産業界重視的原因
4、多模态 4.0 的本質:所有的文字,語音,圖像,視頻都可以抽象成一組向量。GPT 本質上就是一個向量的輸入,通過它的相關性輸出另一組向量,從而轉換成圖像、語音或者視頻,本質上是一樣的,不同的是所消耗的算力資源。
5、現在其實有兩個革命,一個是能源革命,基于锂電池,從過去的化石能源到我們的現在的锂電能源。另一個革命就是以 ChatGPT 爲代表的 AGI 通用人工智能,未來在有了更靈敏的機械反饋後,機器人就是最大的一個應用場景,但數字人一定會比機器人更先應用。
6、 AI 演繹路徑:肯定是先軟件後硬件,先雲端,後端,最後是邊端。
正文
丁奇:微軟将 GPT4 嵌入 Bing、Office 全家桶這是一次天作之合。GPT4 的核心就是多模态,能夠生成文字、圖像和視頻,這對搜索引擎和辦公有非常大的促進作用,像搜索引擎的核心需要的不僅是鏈接,而是答案, GPT4 就可以直接生成我們想要的具體關于某個問題的答案。
我們平時一般通過辦公軟件、PPT、Word、Excel 來生成内容,現在 GPT 成了非常強大的助手,比如一鍵生成 PPT,極大促進了辦公效率。所以我們認爲微軟和 OpenAI 合作必将對生産内容帶來革命性的變化,也希望國内相關辦公軟件盡快推出相關的功能,讓人享受到辦公的便利。
見智研究:如何看待 GPT4 的運行成本?
丁奇:首先 GPT4 現在并沒有公開論文說參數到底是多少,不過 360 董事長周鴻祎先生根據 GPT4 的效果做了一個預估,可能是萬億量級的參數。不過這點對于成本來講還沒有那麽重要。
另外,過去的計價和現在的計價,都是基于 token,現在的單位計價貴了 30 倍左右(過去是 1000 個 token0.002 美元,現在是 0.06 美元)。爲什麽會更貴了?因爲 token 的計價方式不同。通用計價方式是你看輸入的參數,現在輸入同樣詞更貴了,因爲不能光看輸入端的成本,還要看輸出端的成本。過去的輸入和輸出都是文字,所以成本是比較低的。而 GPT 4.0 輸出完全可能是圖片,甚至以後是視頻,輸出量是大幅增加的,所以多模态帶來成本的提升是非常正常的。
見智研究:GPT 3.5 Turbo 爲什麽能做到參數量更多,但是價格反而更低?
丁奇:3.5 相比 3.0,核心參數在調優後是有所下降的。成本可以分爲兩塊,一塊是訓練成本,一塊是推理成本。從 3.0 之後,模型是做好了一個大概的訓練,很多成本是有所攤銷的,到了 3.5 之後,大家攤的更多的是推理成本。
科技就是這樣的,在一開始的時候肯定是貴的,因爲它有大量的研發投入、大量的基礎設施投入。當然越往後它會越便宜,因爲用的人越多,成本也會分攤的越多。
所以 OpenAI 說,從長遠來看,它的邊際成本是無限趨近于 0 的。其實就像我們現在的搜索引擎一樣,現在點一次搜索成本是極其低的。隻不過 4. 0 相比過去的 3. 5 生成的内容不一樣,圖像、視頻對網絡帶寬、計算量消耗很大,所以短期成本也會提升。
見智研究:GPT4 發布後,如何看待之前版本的價值量?GPT1、2、3、3.5 到 4 代大模型的演進變化是怎樣的?
丁奇:1. 0 是 2018 年出的, 2. 0 是 2019 年出的,但是其實在産業界沒有激起太大的水花,都是 transformer 往 NLP(自然語言理解)上的嘗試。過去在 NLP 上大家體驗效果其實不太好的,比如語音的轉寫,翻譯效果其實是不太盡如人意的。
過去的人工智能,它的主要算法是基于 CNN, RNN, LSTM 這三種。它在模仿人的神經元,認爲信号是從一個神經元傳遞到另一個神經元的,也就是從一個單詞找到相鄰單詞之間的相關性。這種方法在圖像上特别有效,因爲從圖像上來講,相鄰的顔色,紋理都會很相似,也誕生出了人工智能的 CV 領域。
但是像語音、文字就不一定是相鄰相關的,需要結合上下文的語境,甚至在前幾章就可能埋了伏筆,需要對上下文要有一個完整的記憶和解讀。關鍵就是如何讓機器能夠實現語境理解。
Transformer 架構提供了一個非常好的思路。既然我們生活中的理解、智慧、經驗跟很多東西都相關。那就把參數組擴大,一直擴大到十億或者是幾十億的範圍。這樣就能從各種各樣的訓練數據裏找到更多的相關性。
之前 Transformer 架構沒表現出厲害的特質,本質上隻是做一個統計相關。當它隻有 1. 17 億參數的時候,也就是 GPT1.0,大家也沒有覺得多了不起。到 GPT2. 0 的時候,大概 15 億的參數,大家也覺得好像也沒有什麽特别大的突破。GPT3.0 到 3. 5,大家就發現發生了本質的變化。當它的容量擴到上千億參數的時候,可以想象關聯了多少知識在裏面,這個時候它的準确率就有一個飛躍。所以直到 GPT3.0 和 3. 5 問世才被産業界真正開始重視起來。
3.5 跟 3. 0 的根本區别在于改變了人機交互的界面,這是非常大的一個突破。InstructGPT 能夠更好的将語言模型和人類的意圖、偏好進行匹配,并且在反饋的機制上進行微調。而 4. 0 的本質就是多模态了。
見智研究:多模态是如何實現的?
丁奇:無論中文還是英文,常用詞也就上萬個詞,完全可以用矩陣做一個編碼。圖像其實是由像素點形成,每一個像素點是由三種顔色塗在一塊,是三個數字的小矩陣,把若幹個矩陣連在一起,就會形成一個大矩陣。圖像本質上就是這樣的。
每一個語音就是一個正弦波,對它抽樣,它也變成一組數字視頻,其實就是一張圖像把它疊起來,所以本質上所有的文字,語音,圖像,視頻都可以抽象成一組向量。GPT 本質上就是一個向量的輸入,通過它的相關性輸出另一組向量,向量轉換成圖像、語音或者視頻,本質上是一樣的,不同的是所消耗的算力資源。所以爲什麽能實現多模态?因爲本質上都變成了一組矩陣,所有的東西都可以抽象成一組矩陣,這是能變成多模态的底層原因。
其實我們做 Transformer 也好,做這 GPT 也好,根本目的是想使用一個通用人工智能 ( AGI ) 做到在不同的情境下都能用。過去都是專用人工智能,比如專門做人臉識别的,專門做車牌識别的,或者專門做工業檢測的,都是在某些專業領域的。人機交互一定是多模态的,這也是爲什麽 4. 0 能夠讓業界感到歡心鼓舞,這是意味着我們離 AGI 更近了一步。
見智研究:GPT4 應用具有怎樣的想象力?
丁奇:搜索一定是落地的第一個場景,比如 New Bing 最先接入 ; 其次就是辦公軟件,比如 office365;電子郵件、視頻會議也是生成内容類的場景。此外,像服務機器人、智能客服也是非常好的應用領域。
現在其實有兩個革命,一個是能源革命,基于锂電池,從過去的化石能源到我們的現在的锂電能源。另一個革命就是以 ChatGPT 爲代表的 AGI 通用人工智能,未來在有了更靈敏的機械反饋後,機器人就是最大的一個應用場景。
數字人一定會比機器人更先應用。因爲機器人受掣肘的地方比較多,包括續航、關節自由度等等,落地的困難要大很多。如果是數字世界裏面的一個數字人,它的到來可能就會快很多,比如主持人、直播帶貨、數字明星等等。
此外,對遊戲行業的影響也很大,特别是能夠直接大幅降低遊戲的開發成本。用 AI 畫圖能夠極大提高遊戲創意師的工作效率。
未來 AI 機器能夠替代很多簡單的工作,所以人的創意,人的思想就變得特别重要。所以我們覺得對于内容創意者會帶來特别大的需求提升。
見智研究:AI 産業是硬件叠代的速度更快,還是應用側發展會更快?
丁奇:我覺得要分兩個階段,初期一定是應用會更快,現在海外有很多的企業都接入了 API 接口。國内也有百度的文心一言,後面也會開放 API 接入很多的應用。
現在看起來國内和海外的發展路徑非常類似,有一兩個企業做出一些通用的大模型,接入 API 後向上層的應用軟件進行拓展,就可以極大提升效率。Office365 就是一個很典型的代表。
硬件的叠代要取決于幾個條件。雲端的硬件就是以 GPU 服務器爲代表, 國内相比英偉達還是有一定差距的,不是短期之内能夠迅速追上的。而雲端,我們相信以後在端側也會有一些智能硬件,這些端側硬件現在的計算能力、内存能力,肯定是難以支持千億參數的大模型。
而一些應用變得智能,也需要對大模型去做剪枝。可能對參數範圍進行圈定,在特定領域有特定應用,從一個大模型變成一個專用領域的特定模型,使得一些邊緣側的智能硬件也可以用。
我們認爲首先起來的是雲端的軟件,以一種 SaaS 化的方式給大家提供。其次就是雲端的硬件,因爲雲端的硬件要怎麽去做,其實已經有标杆在那裏了,隻是大家要踏踏實實地基于路徑去做。
後面才是端側怎麽做,現在 open AI 也沒有答案,大家現在的精力也不在這上面,但我們相信未來的這些硬件一定會被智能化的,所以路徑肯定是先軟件後硬件,尤其是先雲端,到後端,最後是邊端。