費斌傑 熵簡科技 CEO
作者 | 費斌傑 熵簡科技 CEO
自從去年 12 月 ChatGPT 問世以來,AI 的發展正式進入快車道,整個行業開始 " 按日叠代 "。從 1957 年以來,人類在經曆了數輪 AI 浪潮後,這次通用人工智能(AGI)是真的要來了。
我們團隊在 2 月發表了對 ChatGPT 技術原理的深度剖析,得到了業内專家朋友們的廣泛認可。但随着研究的深入,越來越多的問題浮出水面:
ChatGPT 強大的一個重要原因是大語言模型的湧現能力(Emergent Abilities),那麽湧現能力究竟爲何産生呢?
GPT-5 會有哪些意想不到的性能表現?
AGI 會走向何方,對社會經濟活動又會産生怎樣的影響?
在這篇文章中,我們針對以上問題進行深入探讨,并且給出盡可能詳實的分析過程。本文濃縮了我們團隊的研究成果,共分爲以下四個部分:
大語言模型的本質:性能強大的無損壓縮器
視覺信息是知識的富礦:從文本走向多模态
大數據時代的數據荒:運用合成數據破局
AGI 對人類社會經濟活動影響:展望與思考
寫在前面:熵簡科技是一家專注于幫助資管機構實現投研數字化的科技公司,主要客戶包括中金、中信、廣發、建投、國信、招商、華夏、嘉實、銀華、博時、彙添富、興全、易方達等證券與基金公司。我是熵簡科技的創始人費斌傑,但在寫下這篇文章的時候,我更多是純粹作爲一個在新技術浪潮下,既興奮又緊張的見證者和參與者,盡可能客觀地評述分析這項新技術對我們行業會帶來怎樣的影響與沖擊。以下分享是我們熵簡團隊的研究成果,LLM 技術發展日新月異,當前時點的分析難免錯漏,歡迎各位指正。
大語言模型的本質:性能強大的無損壓縮器
在最近 OpenAI 的學術分享會中,Jack Rae 提出了一個重要的論斷: 大語言模型的本質,其實是一個性能強大的數據無損壓縮器。
LLM = Compression
這個論斷并不是很直觀,但卻揭開了 " 通用人工智能 " 非常重要的一角,值得高度重視。爲了讓大家理解這個觀點,我們從" 學習 "這件事本身來探讨。
上個世紀以來,人類普遍認爲 " 學習 " 是一種人類特有的才能,機器無法真正地掌握 " 學習能力 "。随着深度神經網絡技術的發展,人們通過構建 " 人工神經元 " 來模拟大腦中的 " 生物神經元 ",從而使得機器開始具備一定的學習能力。
圖:生物神經元(左)與人工神經元(右)對比
而現在,OpenAI 得出了關于 " 學習 " 的最新結論: " 學習 " 這件事本身,可以理解爲對有效信息進行無損壓縮的過程。
爲了更好地理解這個觀點,讓我們來做一個思想實驗。 假設我們需要搭建一個模型,用來處理英譯中的翻譯任務。
最簡單粗暴的方式,就是列舉出每個英文單詞對應的中文,即rule-based mapping。假設我們枚舉完了所有英文單詞的中文對照表,寫出了一本 1000 頁的詞典。
但通過這本詞典,我們真的能夠有效完成所有英譯中的翻譯任務嗎?答案是否定的。因爲基于規則的映射系統是非常脆弱的,隻要在翻譯過程中遇到一個之前沒有遇到過的新單詞,系統就崩潰了。
因此,這個模型的翻譯性能是很弱的,可以理解爲 " 該模型沒有真正學會翻譯 "。
重點來了,現在請你把這本 1000 頁的詞典," 無損壓縮 " 成一本 200 頁的手冊。字數減少了,但是信息量不能少,因此你不能簡單地從 1000 頁中抽取 200 頁構成一本 " 小詞典 ",而需要通過對數據進行 高維編碼 ,從而實現 無損壓縮 。
經過壓縮後的這本 200 頁的手冊中,不再是簡單的單詞映射,而是包含了主謂賓、定狀補、虛拟語氣、時态、單複數在内的英語語法。相比于一本 " 詞典 " 來說,它更像是一本 " 教材 "。
圖:降低任務描述長度等價于增加對任務的理解
注意,在這個壓縮的過程中," 學習 " 作爲一種隐式的過程,起到了知識編碼的作用。通過把一本 1000 頁的詞典壓縮成一本 200 頁的手冊,模型" 學會 "了英語語法,掌握了英譯中的知識。 通過這個例子,不難發現: 學習的本質,可以理解爲對有效信息進行無損壓縮的過程。壓縮率越大,學習的效果就越好。
根據 OpenAI 的最新觀點,基于 GPT 的大語言模型的是 性能卓越的數據壓縮器 。 語言模型的本質,是不斷預測下一個詞的概率分布,從而完成生成式任務。
但是從 " 無損壓縮 " 的角度來看,如果模型對下一個詞的預測更加準确,就意味着其對知識的理解更深,從而獲得對這個世界更高的分辨率。 随着模型規模的提升,基于信息熵計算出的壓縮率也會逐漸提升,這就解釋了爲什麽模型的性能會随着規模的增加而增加。
而提升模型的壓縮率并不隻有 " 增加規模 " 這一種方法,正如 Jack Rae 所言:Scaling is not all you need。 更好的算法架構、基于 Plugin 的工具集成、合成數據的運用 都能夠有效提升模型的壓縮率 ,從而實現模型性能的進一步提升。
圖:提升模型壓縮率的幾種方法
視覺信息是知識的富礦:從文本走向多模态
既然大語言模型發展的目标,是不斷提升對有效信息的壓縮率。那麽自然地,如何獲取盡可能多的有效信息,就成爲了一個重要命題。
人類是一種擁有語言能力的視覺動物,我們大腦皮層中約有三分之一的區域是用于視覺信息解析的。因此, 視覺信息是人類知識的富礦 。
圖:大腦皮層中的視覺信号中樞
舉個例子,我們都知道 " 太陽從東邊升起,西邊落下 ",這是一個常識。但如果分析一下我們是如何學到這個知識的,我相信絕大多數人是通過眼睛親眼看到的,而不僅僅是通過書本學習到的。
推而廣之, 視覺信息往往是人類知識的源頭。由于人類具備語言和寫作能力,人們會把通過視覺獲取到的信息慢慢地轉變爲文本形态傳播出來。
因此,如果把人類已獲得的全部知識看作一座冰山,那麽以 " 文本 " 爲載體的數據隻是冰山一角,而以 " 圖像 "、" 視頻 " 爲載體的數據才是人類知識真正的富礦。這也是 OpenAI 的 GPT-5 會基于海量互聯網視頻進行學習的原因。
具體而言,如果給模型看大量的天文觀測視頻,模型有可能學習出一個隐式的開普勒定律;給模型看大量的帶電粒子運動軌迹,模型可能會學習出洛倫茲力的數學表達;當然,我們也可以更大膽一些,如果給模型學習強子對撞機的海量實驗數據,模型是否可以解開希格斯玻色子的秘密,從而解答物質的 " 質量 " 之謎,這一切都相當值得期待。
圖:基本粒子模型與上帝粒子
大數據時代的數據荒:運用合成數據破局
雖然人類社會早已進入了大數據時代,全球經濟活動産生了大量數據資産,但是LLM 所需的訓練集膨脹速度更快。 根據預測,到 2026 年文本數據将被訓練完,圖像數據将在 2040 年左右用完。
圖:大語言模型對互聯網存量數據消耗的預測
這對于 " 大力出奇迹 " 的大語言模型來說,并不是個好消息。如果訓練集體量不夠,模型便無法繼續 scaling up,從而不斷提升性能天花闆。
這個時候, " 合成數據 " 成爲了重要的破局方法。顧名思義," 合成數據 "(Synthetic Data)指的是通過算法生成的訓練集,而非從現實世界中采集到的樣本。
根據 Gartner 的預測,2026 年模型訓練數據中的 50% 将由合成數據構成;2030 年合成數據的質量将全面超過人類标注的真實數據。
圖:Gartner 對合成數據發展的預測
OpenAI 在 GPT-4 的技術文檔中重點提到了合成數據的應用,可見 OpenAI 對該領域的重視。
圖:GPT-4 技術報告中對合成數據應用的探讨
更進一步來看,如果合成數據的質量能夠全面超越人類标注的質量,那麽未來 AGI 便可以 自我叠代 ,進化的速度會大幅提升。到這時,人類可能就成爲 AGI 的啓動腳本(Boot Loader)了。
這不禁讓我聯想到馬斯克曾在 2014 年做出的預言。他認爲從 " 物種進化的尺度 " 來看, 以人類爲代表的 " 碳基生命 " 可能隻是以 "AI" 爲代表的 " 矽基生命 " 的啓動腳本 。
這個預言令人毛骨悚然。放在 14 年那會兒,絕大部分人會認爲這是危言聳聽。但是當下我們再回頭審視這個判斷,不難發現這與 " 合成數據 " 的發展目标不謀而合。
合成數據領域的突破,可能成爲 AGI 跨過奇點的重要裏程碑 ,讓我們拭目以待。
圖:Musk 在 14 年對 AI 發展的判斷
AGI 對人類社會經濟活動影響:展望與思考
在剛結束的 GTC 大會上,NVIDIA 的 CEO 黃仁勳将 ChatGPT 的誕生類比爲移動互聯網的 iPhone 時刻。但從人類科技發展史的尺度來看,我認爲 ChatGPT 的誕生更像是拉開了 " 第四次工業革命 " 的序幕,會帶來社會生産力和生産關系的質變 。
雖然有點不恰當,但如果把人類看作一台 " 生物化學計算機 ",我們不妨比較一下人類與 AGI 的效率異同:
首先,從 " 通信效率 " 的角度來看,人類之間的數據傳輸主要依靠交流,而交流的本質是以空氣爲媒介的機械波。與此相對,AGI 之間的數據傳輸則主要通過 GPU 之間的 NVLink,數據傳輸的帶寬顯著提升。
其次,從 " 工作效率 " 的角度來看,人類受限于生物體内複雜的免疫機制、神經元修複機制等原理,需要保持充足的睡眠,才可以換取白天良好的工作狀态。但是 AGI 隻需要有充足的能源供給,便可以做到7*24 的高強度作業,工作效率顯著提升。
再次,從 " 協作效率 " 的角度來看,由 100 個人組成的團隊整體的工作效率往往會低于 10 人小組産出總量的 10 倍。随着組織人員規模的增加,人均産出不可避免的下降,需要通過 " 富有經驗的管理藝術 " 才能激發團隊協作的活力。相反,對于 AGI 來說,增加運算節點便可以擴大産能,并不會出現邊際效用遞減的管理與協作難題。
圖:人工智能與人類智能的發展曲線
以上分析了相比于人類而言,AGI 的生産力優勢。但是人類在以下幾個重點方面依然具備着不可替代的價值:
首先,雖然 AGI 在知識的廣度上會遠超人類,但是在具體領域的知識深度上,人類目前依然占據優勢。
以金融投資爲例,一位資深的投資經理可以根據不完整的市場信息做出模糊推斷,從而獲得超額收益;以科學研究爲例,一位優秀的科學家可以從看似無關緊要的實驗誤差中推斷出全新的理論體系。這些都是當前 AGI 難以企及的。
其次,社會經濟活動的運轉,高度依賴于人與人之間的 " 信任 ",這種信任是 AGI 難以取代的。 比如當你去醫院看病的時候,即使 AGI 能夠根據你的症狀描述做出相當準确的診斷,你依然大概率會拿着診斷結果去咨詢邊上的人類醫生,尋求一個值得信任的診療建議。類似的 " 信任機制 " 構成了醫療、教育、金融等領域中經濟活動的重要基石。
随着 AGI 的發展,許多經濟活動的遊戲規則會悄然發生改變,而這個規則改變的契機,則會以 AGI 在該領域超過人類中的最強者作爲分界線,正如 AlphaGo 的誕生徹底改變了圍棋界的規則一樣。
結語
這是最好的時代,也是最壞的時代。悲觀者可能永遠正确,但确實毫無意義。
縱觀曆史,人類科技史的發展并不是連續的,而是跳躍的。 或許我們正在經曆的正是一次人類科技水平的跳躍,無論如何,能夠親眼見證并參與其中,我們都是幸運的。
最後,分享一句我特别喜歡的話,這是 OpenAI 的 CEO Sam Altman 在 30 歲生日時給自己的人生建議:
The days are long but the decades are short.
參考文獻
[ 1 ] Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." arXiv preprint arXiv:2201.02177 ( 2022 ) .
[ 2 ] Bubeck, S é bastien, et al. "Sparks of artificial general intelligence: Early experiments with gpt-4." arXiv preprint arXiv:2303.12712 ( 2023 ) .
[ 3 ] Eloundou, Tyna, et al. "Gpts are gpts: An early look at the labor market impact potential of large language models." arXiv preprint arXiv:2303.10130 ( 2023 ) .
[ 4 ] Wu, Shijie, et al. "BloombergGPT: A Large Language Model for Finance." arXiv preprint arXiv:2303.17564 ( 2023 ) .
[ 5 ] Liang, Percy, et al. "Holistic evaluation of language models." arXiv preprint arXiv:2211.09110 ( 2022 ) .
[ 6 ] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 ( 2020 ) : 1877-1901.
[ 7 ] Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 ( 2020 ) .
[ 8 ] Zhou, Yongchao, et al. "Large language models are human-level prompt engineers." arXiv preprint arXiv:2211.01910 ( 2022 ) .
[ 9 ] Wei, Jason, et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 ( 2022 ) .
[ 10 ] Zellers, Rowan, et al. "HellaSwag: Can a machine really finish your sentence?." arXiv preprint arXiv:1905.07830 ( 2019 ) .
[ 11 ] Barocas, Solon, Moritz Hardt, and Arvind Narayanan. "Fairness in machine learning." Nips tutorial 1 ( 2017 ) : 2017.
[ 12 ] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 ( 2022 ) : 27730-27744.
[ 13 ] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 ( 2018 ) .
本文來自微信公衆号" 熵簡科技 Value Simplex"(ID:Shangjian-Tech),作者:熵簡 CEO| 費斌傑,36 氪經授權發布。