透過ChatGPT的進化足迹，OpenAI傳達了哪些信号？

古希臘神話中，一位名叫赫爾墨斯的神，會充當人神之間的信使，穿着帶有雙翼的飛鞋，行走在神明與人類之間。

根據《荷馬史詩》的記載：" 在天神中，赫爾墨斯是最喜歡引導凡人前行的。" 這句話用來形容 OpenAI 與 AI 的關系，雖不中亦不遠矣。

上一周，OpenAI 打造的 ChatGPT 出盡風頭，成為國内外 AI 領域的頭号熱門話題。關于 ChatGPT 的對話能力，大家可能已經通過很多文章感受過了。簡單總結，就是對答如流，無所不能，可替程序員寫代碼，可替商務人士出方案，還能替作家編故事。一度讓久違的 " 谷歌已死 ""XX 職業又要被 AI 取代了 " 之類的 AI 威脅論說辭，開始大量出現了。

關于 ChatGPT 的神奇之處，看多了也有點審美疲勞了，冷靜下來思考一下：

為什麼同樣是 AIGC，問答、對話這類 NLP 領域應用更容易引起轟動，激發人們對通用人工智能的希望？

為什麼同樣是預訓練模型，相比 BERT、GPT3 等前輩，ChatGPT 的對話能力産生了質的飛躍？

為什麼同樣是做 AI，OpenAI 要死磕 NLP，從 GPT1 到 ChatGPT 不斷叠代？

OpenAI 的 CEO、聯合創始人 Sam Altman 曾說過一句話："Trust the exponential，Flat looking backwards，vertical looking forwards"，相信指數的力量，平行地向後看，垂直地向前看。ChatGPT 出現代表着，AI 似乎已經站到了指數級飛躍的關鍵點上。但起飛的 ChatGPT，并不是一蹴而就的。

從 GPT 到 ChatGPT，恰好代表了 OpenAI 在大模型領域切實走過的曆程，從中可以看到，OpenAI 在 AI 大模型競争中，已經探索出了一條屬于自己的道路，就如同赫爾墨斯一樣，成為引領 AI 技術前進的使者。

如果 OpenAI 是傳遞 AI 前沿進展的赫爾墨斯，ChatGPT 就是那雙帶着雙翼的金絲鞋。我們既要關注 ChatGPT 這雙鞋究竟有多神奇，更有必要搞懂，OpenAI 選擇的這條大模型道路有何玄機。

今天，中國科技企業與研究機構都在積極投布局大模型，求術不如問道，我們不妨從 GPT 這一系列模型的演變曆程，望向 OpenAI 關于 AI 與大模型的戰略思考與發展脈絡。

從 GPT-1 到 ChatGPT，超神模型的演化足迹

OpenAI 在博客中寫道，ChatGPT 是從 GPT3.5 系列中的模型進行微調而誕生的。

正如名稱中所暗示的那樣，GPT- 3.5 是 OpenAI 設計的一系列 NLP 模型中的第四個，此前還出現了 GPT - 1、GPT - 2 和 GPT - 3。

在 GPT 出現之前，NLP 模型主要是基于針對特定任務的大量标注數據進行訓練。這會導緻一些限制：

大規模高質量的标注數據不易獲得；

模型僅限于所接受的訓練，泛化能力不足；

無法執行開箱即用的任務，限制了模型的落地應用。

為了克服這些問題，OpenAI 走上了預訓練大模型的道路。從 GPT1 到 ChatGPT，就是一個預訓練模型越來越大、效果越來越強的過程。當然，OpenAI 的實現方式并不隻是 " 大力出奇迹 " 那麼簡單。

第一代：從有監督到無監督 GPT-1。2018 年，OpenAI 推出了第一代生成式預訓練模型 GPT-1，此前，NLP 任務需要通過大規模數據集來進行有監督的學習，需要成本高昂的數據标注工作，GPT-1 的關鍵特征是：半監督學習。先用無監督學習的預訓練，在 8 個 GPU 上花費了 1 個月的時間，從大量未标注數據中增強 AI 系統的語言能力，獲得大量知識，然後進行有監督的微調，與大型數據集集成來提高系統在 NLP 任務中的性能。

GPT-1 的效果明顯，隻需要極少的微調，就可以增強 NLP 模型的能力，減少對資源和數據的需求。同時，GPT-1 也存在明顯的問題，一是數據局限性，GPT-1 是在互聯網上的書籍和文本上訓練的，對世界的認識不夠完整和準确；二是泛化性依然不足，在一些任務上性能表現就會下降。

第二代：更大更高更強的 GPT-2。2019 年推出的 GPT-2，與 GPT-1 并沒有本質上的不同（注意這一點），架構相同，使用了更大的數據集 WebText，大約有 40 GB 的文本數據、800 萬個文檔，并為模型添加了更多參數（達到驚人的 15 億個參數），來提高模型的準确性，可以說是加強版或臃腫版的 GPT-1。

GPT-2 的出現，進一步證明了無監督學習的價值，以及預訓練模型在下遊 NLP 任務中的廣泛成功，已經開始達到圖靈測試的要求，有研究表示，GPT-2 生成的文本幾乎與媒體的真實文章（83%）一樣令人信服。

（GPT-2 表現）

第三代：跨越式進步的 GPT-3。2020 年，GPT-3 的這次叠代，出現了重大的飛躍，成為與 GPT-2 迥然不同的物種。

首先，GPT-3 的體量空前龐大，擁有超過 1750 億個參數，是 GPT-2 的 117 倍；其次，GPT-3 不需要微調，它可以識别到數據中隐藏的含義，并運用此前訓練獲得的知識，來執行下遊任務。這意味着，哪怕從來沒有接觸過的示例，GPT-3 就能理解并提供不錯的表現。因此，GPT-3 也在商業應用上表現出了極高的穩定性和實用性，通過雲上的 API 訪問來實現商業化。這種入得了實驗室、下得了車間的能力，使得 GPT-3 成為 2020 年 AI 領域最驚豔的模型之一。

當然，GPT-3 也并不完美。正如聯合創始人 Sam Altman 所說，GPT-3 的水平仍處于早期階段，有時候也會犯非常愚蠢的錯誤，我們距離真正的人工智能世界還有很長的距離。另外，GPT-3 API 的很多基礎模型非常龐大，需要大量的專業知識和性能優異的機器，這使得中小企業或個人開發者使用起來比較困難。

第四代：基于理解而生成的 ChatGPT。終于在 2022 年，OpenAI 的預訓練語言模型之路，又出現了颠覆式的叠代，産生了技術路線上的又一次方向性變化：基于人工标注數據 + 強化學習的推理和生成。

前面提到，一開始預訓練模型的出現，是為了減少監督學習對高質量标注數據的依賴。而 ChatGPT 在 GPT -3.5 大規模語言模型的基礎上，又開始依托大量人工标注數據（據說 OpenAI 找了 40 個博士來标數據），這怎麼又走回監督學習的 " 老路 " 了呢？

原因是，GPT 3.5 雖然很強，但無法理解人類指令的含義（比如寫一段博文、改一段代碼），無法判斷輸入，自然也就很難給出高質量的輸出答案。所以 OpenAI 通過專業的标注人員（據說是 40 個博士）來寫詞條，給出相應指令 / 問題的高質量答案，在基于這些數據來調整 GPT -3.5 的參數，從而讓 GPT -3.5 具備了理解人類指令的能力。

在人工标注訓練數據的基礎上，再使用強化學習來增強預訓練模型的能力。強化學習，簡單理解就是做對了獎勵、做錯了懲罰，不斷根據系統的打分來更新參數，從而産生越來越高質量的回答。所以這幾天很多人在互動中發現，ChatGPT 會承認錯誤、會修改自己的答複，這正是因為它具備從人類的反饋中強化學習并重新思考的能力。

因為 ChatGPT 具備了理解能力，所以才被看作是通向通用人工智能 AGI 的路徑。

當然，ChatGPT 也并不是完美進化體。OpenAI 的官網明确提示，ChatGPT" 可能偶爾會生成不正确的信息 "，并且 " 對 2021 年之後的世界和事件的了解有限 "。一些比較難的知識，比如 " 紅樓夢講了什麼 "，ChatGPT 會一本正經地胡說八道。

從 GPT 模型的演進和叠代中，可以看到 OpenAI 是不斷朝着自然語言理解這一目标前進，用更大的模型、更先進的架構，最終為通用人工智能找到了一條路徑。

從 GPT-1 到 ChatGPT 的縱向演變，會看到 OpenAI 對大模型的獨特理解與技術脈絡——通過模型預訓練提升 NLP 指标，抵達強人工智能。NLP 領域究竟特殊在哪裡，值得 OpenAI 如此執着？

OpenAI 的大模型差異化之路

前文中不難看出，OpenAI 對于文本生成模型的執着，因為做夠得久、投入夠多，所以能夠做得更好，是非常有長期戰略定力的。

與之相比，和 GPT-1 同年推出的預訓練模型，還有谷歌發布的 BERT，但後者在火爆一段時間之後影響力明顯減弱；而 NLP 問答領域一向由 Meta 引領，Meta AI 的 OPT 模型和 GPT-3 達到了同等的參數量，但效果就不如 OpenAI。同期選手中，OpenAI 對于語言模型的用心顯然是更多的。

一方面是資源投入，無論是越來越大的模型，需要消耗龐大的算力資源，ChatGPT 所需要的高質量标注數據，依靠博士級别的專業人士來完成，比起将數據标注任務分發給衆包平台，顯然會消耗更多的人力和财力。

另一方面，是技術投入，大規模預訓練、增強學習等技術都用在提升 NLP 對話系統在開放通用領域上的理解和推理能力。NLP 是認知智能，要提升就必須解決知識依賴，而知識又是非常離散且難以表示的，要解決帶标數據不足、常識知識不足等問題，是非常具有技術挑戰的。多年前 IBM 的 Frederick Jelinek 就說過：" 每當我開除一個語言學家，語音識别系統的性能就會改善一些。" 頗有種 " 解決不了問題，就解決提出問題的人 " 的既視感。所以也可以說，OpenAI 選擇了一條更難走的路，去解決真正困難的問題。

此外，聚焦 NLP 領域也意味着 OpenAI 會承擔隐形的機會成本。

今年 AIGC（AI 生成内容）在資本市場和應用市場都有很大的進展，與 AI 作畫、音視頻生成、AlphaFold2 所解決的蛋白質結構預測等生成任務相比，NLP 任務都是直接用詞彙和符号來表達概念，此類模型通過 "API+ 雲服務 " 來完成商業化服務，無論是雲資源的消耗量還是接口調用服務收費，所獲得的收益也是遠不及圖像音視頻或科學計算的。拿同樣的精力做十個八個 Dalle 模型，肯定能賺得更多。

科技博主王詠剛在博客中分享了一個故事，稱與 OpenAI 的兩位聯合創始人交流，發現這二人甚至不知道 AIGC 是什麼意思！

說到這裡，或許可以得出結論，OpenAI 作為一個旨在 " 實現安全的通用人工智能 ( AGI ) " 的公司，就是在不計投入、不計商業回報，專心緻志地通過過預訓練大模型來提升 NLP 任務的各項指标，從而接近 AGI 的願景。

為什麼 OpenAI 能夠走出這條引領潮流的大模型差異化之路呢？

一方面是 NLP 的特殊之處。

NLP 不是魔術，但是，其結果有時幾乎就是魔術一般神奇。通用人工智能必須具備認知智能，這也是目前制約人工智能取得更大突破和更廣泛應用的關鍵瓶頸，而 NLP 正是認知智能的核心。Geoffrey Hinton、Yann LeCun 都曾說過類似的觀點，深度學習的下一個大的進展，應該是讓神經網絡真正理解文檔的内容。

也就是說，當 AI 能理解自然語言了，AGI 可能就實現了。

另外，OpenAI 的運行模式也起到了關鍵的影響。

突破性創新早期需要大量的投入，大模型的開發需要大量的基礎設施投入，而 ChatGPT 的對話系統短期内很難靠調用量的規模化來攤平研發成本。因此，OpenAI 是一個非營利性研究機構，沒有迫切的商業化壓力，因此可以更專注于 NLP 領域的基礎研究，這是商業型 AI 公司所很難實現的。

2011 年，自然語言領域的泰鬥肯尼斯 · 丘吉 ( Kenneth Church ) 發表了一篇長文《鐘擺擺得太遠》 ( A Pendulum Swung Too Far ) ，其中提到：我們這一代學者趕上了經驗主義的黃金時代，把唾手可得的低枝果實采摘下來，留給下一代的都是 " 難啃的硬骨頭 "。

深度學習是經驗主義的一個新高峰，而這個領域的低枝果實也總有摘完的一天，近年來有大量 AI 科學家發出警告，深度學習面臨很多局限性，單純用深度學習很難解決一些複雜任務，或許不用太久，基礎性突破就會成為 AI 産業的重要支撐。

GPT 的演進也說明了，AI 的突破需要循序漸進、從小到大地一步步實現，今天，每家 AI 企業和研究機構都在做大模型，相比 CV 計算機視覺、數字人、元宇宙等 AI 應用，NLP 要顯得暗淡很多。而如果一窩蜂去摘容易的果實，最終會制約 AI 深入産業的腳步。

ChatGPT 的出現提醒我們，唯有啃下基礎領域的硬骨頭，才能真正為 AI 帶來質變。

本文來自微信公衆号 " 腦極體 "（ID：unity007），作者：藏狐