圖片來源 @視覺中國
文 | 牛透社,作者|鞏周周
又一次,GPT-4 斂住所有老牌科企的光彩。
在 ChatGPT 被譽爲範式轉變之作的第 3 個月,谷歌推出 PaLM-E 視覺語言模型 ( VLM ) 。功能上,除去讓 AI 獲得理解文字、圖片的能力外,額外增添了輸出指令生成機器人行動計劃的控制回路。
谷歌顯然急了。在 OpenAI 和微軟的左右夾擊下,他直接甩出大招。
這場相似的戲碼他太熟悉。移動互聯網時代的手機系統之戰,以操作系統起家的微軟沒能在智能手機發展初期抓住生态切入點,敗北後起新秀谷歌安卓。如今,緊鑼密鼓研發大模型的谷歌被後起之浪 OpenAI 的突然成功打了個措手不及。
但即使谷歌發布出參數量高達 5620 億、目前世界上最大的視覺語言模型 ( VLM ) PaLM-E,也沒能擋住 GPT-4 打破戈爾迪之結。
回溯 2015 年,馬斯克和山姆 · 奧特曼大概誰都不會想到,OpenAI 這家非盈利組織能夠十年内追平谷歌的技術進展,撞破 AI 核心技術巨頭壟斷格局。GPT 的先發公測且開源底層平台也意味着更多更廣的技術會以此爲基礎進行開發,這是個穩賺的開端。
任何成功的背後都是複雜的,自然語言處理技術跨越了三個階段,到現在終于迎來變革。接下來,你會從當下回到過去,看到:
1. 自然語言處理的兩次重要轉折
2. Bert 和 GPT 模型的應用差異及成因
3. GPT 沒有出現在中國的兩個原因
4. 科技發展是技術在前應用在後
5. 自然語言處理:AGI 最重要的基礎
Word2vec:讓機器感知語義
我們把時間線拉到 20 年前——
2003 年,Yoshua Bengio 正式提出神經網絡語言模型 ( Neural Network Language Model,NNLM ) ,而 NNLM 依賴的核心概念就是詞向量 ( Word Embedding ) 。
如果說 GPS 是物理世界的位置符号,那麽 Word Embedding 是語言世界的距離符号。
2010 年,Tomas Mikolov ( 谷歌團隊 ) 對 Bengio 提出的 NNLM 進行改進,提出 RNNLM ( Recurrent Neural Network based Language Model ) ,目标是利用所有上文信息來預測下一個詞語。
但 RNN 存在長距離梯度消失問題,上下文記憶能力有限,很難追溯更遠時間的信息。而且,隻通過孤立單詞或上文信息不足以讓機器感知到特定環境下的單詞含義。
于是,2013 年 Mikolov ( 谷歌團隊 ) 提出 Word2vec,他們把這個方法稱作 " 單詞到向量 "。Word2vec 的目标不再專注于建模語言模型,而是利用語言模型學習每個單詞的語義化向量。
在 1986 年出版的《并行分布式處理》裏有談過這樣的觀點:" 人類比當今的計算機更聰明,是因爲人的大腦采用了一種更适合于人類完成他們所擅長的自然信息處理任務的基本計算架構,例如,‘感知’自然場景中的物體并厘清它們之間的關系 ...... 理解語言,并從記憶中檢索上下文恰當的信息。"
研究人員想到,如果能夠把每個詞彙都标注爲數字,以編碼形式輸入,那麽編碼器網絡就可以通過反向傳播在這些樣本上訓練。但是,一個非常重要的問題是,機器無法像人類一樣獲取單詞或短語之間的語義關系。
語言學家約翰 · 費斯在 1957 年把這一思想表達爲:你會通過與一個單詞一同出現的詞來認識它。比如生氣往往和憤怒出現在同一語境,大笑和愉悅也常被放在同一語境。
研究人員 " 詞彙表 " 發現在使用大量英文語料訓練詞向量後,queen 和 king 的詞向量做差得到的向量與 woman 與 man 做差得到的向量幾乎一樣。于是得到一個等式:queen-king+man=woman
這就是著名的 " 國王和女王 " 的例子,也是自然語言處理向理解語言進步的重要标志。
word2vec,包含 CBOW 和 Skip-gram 兩組模型,分别根據上下文預測中心詞以及根據中心詞來預測上下文,簡化網格結構。使用 Hierarchical Softmax、Negative Sampling 兩種算法提升訓練效率,優化詞向量和語義方面能力。
在對機器進行詞語、對話或是理念傳達時,不同的語言使用方式和環境密不可分,因此,要消解機器對于模糊詞、隐喻等困惑,構建機器對世界的認知系統,數據和模型在這種體系中格外重要。
當單詞可以用坐标作爲數字輸入時,就大大提高了神經網絡在 NLP 中的性能。RNN 語言模型雖然也能獲得單詞的分布式表達,但爲了更好應對詞彙量的增加、提高分布式表示的質量,word2vec 很快成爲主流。
Transformer 和 Bert:從理論走向實踐的一次蛻變
再把時間線拉到 5 年内——
2017 年,谷歌團隊在論文《Attention is All You Need》中首次提出的 Transformer 架構,造就了一場關乎 NLP 研究的始發性變革。
深度學習時代,自然語言處理準确率的提升帶來模型對有标注數據的高度依賴。因爲數據稀缺和人力成本高昂,大型 NLP 語言模型訓練進入瓶頸。
Transformer 預訓練模型主要分爲兩段訓練,先在大規模未标注語料庫預先訓練一個初始模型,然後在下遊任務中利用标注數據對模型再次進行精調。相對而言,預訓練模型效能更高,所需标注數據也更低。
很快,預訓練語言模型成爲自然語言理解任務中的基準模型。
GPT 和 BERT,這兩個代表現代 NLP 技術發展的模型都建立在 Transformer 架構上。谷歌團隊把這個語言架構濃縮成一句話:"Attention is All You Need."
2018 年 10 月,谷歌團隊發布的 Bert 語言模型讓這項技術從理論走向實用的蛻變。
這是 NLP 一場全領域的狂歡。同時也預示着自然語言處理有史以來最強烈的一次進化即将開啓。
在過往許多研究 AI、NLP、AGI 技術的書籍中都提到過一個詞,叫 " 意義的障礙 "。機器和人類間存在着交流溝渠,所以創造出一種讓機器理解人類寫作、說話方式的能力進而協助人類,是 NLP 的初衷。
人類擁有的能力之一,是感知并反思自己的思維方式,即透過現象以某種本質深刻的方式來理解周圍情景,機器并不具備這種理解能力。NLP 的目标就是讓機器在理解語言上像人類一樣智能,彌補人類交流 ( 自然語言 ) 和計算機理解 ( 機器語言 ) 之間的差距。
但語言這種具象表達方式,從标引符号演變爲象征符号,再演變爲語法,是個漫長的過程。自然語言是一種 " 活着 " 的語言,它在不斷在向前演進、生長。從過去到現在,有許多俚語不斷被淘汰,又有許多詞語生成出來。基于此,這種可以擇世生存的自然語言處理技術研發變得相當困難。
在 Bert 發布前,大部分 NLP 任務是基于 word2vec+RNN 的基本架構。由于數據匮乏,NLP 進展一直不像 CV 那麽順利,于是有些學者就将基于 CV 的思想應用到預訓練 + 微調的架構上,ELMo 和 GPT 就是采用這種方式。
Bert 在兩個方向進行創新。首先提出兩階段模型,第一階段雙向語言模型預訓練,第二階段具體任務 Fine-tuning;其次特征提取器變爲 Transformer。幾乎所有的 NLP 任務都可以采用 Bert 兩階段訓練思路,所以此後的幾年,幾乎所有企業都在以 Bert 爲基礎進行改進,研發方向的轉折也就此開始。
GPT 沒有出現在中國的兩個原因
從自然語言角度出發,自然語言處理大緻可分爲自然語言理解和自然語言生成兩個部分。
自然語言理解:讓計算機能夠理解文本意義,核心是 " 理解 "。具象來說,就是把語言表示成可分解的符号或語音,從中提取有用的信息用于下遊任務。研究方向包含語言結構、信息抽取、信息檢索、詞性标注和句法分析。
自然語言生成:它是按照一定語法和語義規則生成自然語言文本、圖表、音視頻,即對語義信息以人類可讀形式進行表達,簡單來說是從文本規劃到語句規劃再到實現。主體分爲三大類,文本到文本 ( Text to Text ) 、文本到其他 ( Text to Other ) 、其他到文本 ( Other to Text ) 。
以 BERT 和 GPT 爲例,即使都屬于預訓練模型,但在技術研發方向存在分流:
BERT ( Bidirectional Encoder Representations from Transformers )
雙向語言模型,可以同時利用上下文信息進行預測,是自然語言理解任務中的基準模型。Transformer 的 Encoder 模塊構成,采用預訓練和微調兩階段模型訓練,屬于半監督學習模型,即在預訓練時使用大量無标注數據,屬于自監督訓練,而微調時采用少量有标簽數據,屬于有監督訓練。
Bert 的預訓練包含掩碼語言模型 ( Masked Language Model, MLM ) 和下一句預測 ( Next Sentence Prediction, NSP ) 兩個任務,引入基于自編碼的預訓練任務進行訓練。
這種訓練方式讓 BERT 可以有效捕捉文本中的語義信息,因此被廣泛用于文本分類任務,如機器翻譯、情感分析、垃圾郵件識别、新聞分類、問答系統、語義匹配等方向。
GPT ( Generative Pre-Training )
單向語言模型,自回歸語言建模方式,兩段訓練:生成式預訓練 + 判别式任務精調。
第一階段,利用大規模數據訓練出基于深層 Transformer 的語言模型;第二階段,在通用語意表示的基礎上,根據下遊任務特性進行領域适配。微調通常是在一個較小的數據集上進行的,因此可以使用較小的學習率和少量的訓練叠代次數來進行訓練。
單向訓練方式隻能利用之前的文本進行預測,因此适用于自然語言生成、問答系統、機器翻譯等任務。
表征和表達能力上,相對單向語言模型 ( GPT ) ,雙向語言模型 ( Bert ) 能力更強。因爲單向語言模型中,隻能依賴于前詞,而無法獲取後詞信息,在處理複雜自然語言任務時,可能會由于無法充分捕捉上下文信息,影響模型的性能。反之,雙向語言模型優勢明顯。
但是,BERT 的雙向性增強了它的理解能力,但在一定程度上限制了生成能力,相較于單向模型僅通過上文即可進行續寫生成,雙向模型在缺乏下文語境時的生成能力受限。對整個句子進行雙向處理,也意味着模型較大,訓練和推理時間長,所需計算資源和存儲空間更多。GPT 在簡化程度、訓練及推理速度上更快,更加适用于實時性要求高的場景。
相對于 GPT 這種單向語言模型,BERT 的雙向語言模型雖然存在缺點,但在實際應用中更加靈活和具有表達能力,也更容易遷移和擴展。在模型研發方面,BERT 更注重模型的可複用性和通用性,适用于多種自然語言處理任務的應用。
研發上,BERT 引入了 Transformer Encoder 的網絡結構,用于對輸入的序列進行編碼;而 GPT 則采用 Transformer Decoder 的網絡結構,用于生成自然語言文本。
模型複雜度方面,BERT 比 GPT 的模型架構更加複雜,訓練方式上,Bert 需要在自定義數據上進一步微調,相比之下,BERT 來說更加複雜和繁瑣。
" 梅須遜雪三分白 , 雪卻輸梅一段香。" 總的來說,BERT 和 GPT 兩者各有千秋,設計和應用方向的差别,決定它們适用于不同應用環境。
Bert 語言模型提出後的一年内,湧現了許多對其進行擴展的模型,其中包含 XLNet 模型、RoBERTa 模型、ELECTRA 模型等。并且,大多數 NLP 子領域研發模式切換爲:預訓練 + 應用微調 / 應用 Zero 、Few Shot Prompt 模式。
XLNet 模型
使用 Transforner-XL 代替 Transformer 作爲基礎模型,XLNet 提出了一個新的預訓練語言任務:Permutation Language Modeling ( 排列語言模型 ) ,模型将句子内的詞語打亂順序,從而使得預測當前詞語時可以利用雙向信息。XLNet 相對 BERT 也使用了更多的語料。
RoBERTa 模型
RoBERTa 采用了與 BERT 具有相同的模型結構,同樣采用了屏蔽語言模型任務進行預訓練,但舍棄了 BERT 中下句預測模型。此外,RoBERTa 采用了更大規模的數據和更魯棒的優化方法,從而取得了更好的表現。
GPT 目前已經發布五代,從 GPT-3 代起與 Bert 逐漸拉開差距。實際上,它不僅僅是一項具體的技術,更多是體現出關于 LLM 的發展理念的不同。
ChatGPT 是從生成式預訓練 Transformer,即 GPT-3.5 在文本和代碼的混合語料訓練後,再微調得到的,使用了來自人類反饋的強化學習 ( RLHF ) 技術,即帶有搜索啓發式的強化學習,它将兩種目的緊密結合,用以解決複雜的搜索問題,也是目前大型 LLM 與人類意圖較匹配的方法。
反觀自然語言處理的發展史,谷歌的模型升級更叠貫穿始終,競争力較強,但 DeepMind 一直以來的重心在強化學習和 AI 技術方面,在生成式模型研發押注不夠。
以往,GPT 的可商用場景不明确,但 Bert 的商用趨勢卻十分明顯,因此語義理解精準度一直是領域發展重點,國内外大部分企業也是以 Bert 模型路線進發。盡管谷歌反應夠快,2022 年 4 月便發布出 PaLM 和 Pathways,全力追趕 LLM 技術,但仍是入局尚晚。
經不完全統計,我國自然語言處理布局目前有 52 家,大部分布局重心在前端,即應用端,虛拟人、智能語音、翻譯及基于 NLP 技術的 RPA 這幾類發展較爲靠前。科技所謂技術在前、應用在後,在我國似乎體現不明顯。
不過,不隻是我國,谷歌尚且在 LLM 上落後一線,這隻能說明在之前的研發理念上存在分歧。目前來看,百度、阿裏、華爲、訊飛等企業的大語言模型研發能力存在潛力,數據、技術積澱上在國内有相對優勢。
我國在發展新技術時往往會首先看商用化可行性,這與國内創業環境有關,包含醫藥研發在内,幾乎所有領域都會考慮短線收益,這種方式并不适合新技術的産生。
從整體走向局部,從應用走向基礎,着眼算力、芯片、框架邏輯、理念意識才是關鍵。決定技術進展的往往是基礎力,彎道超車無異于拔苗助長,于核心技術進展無益。
自然語言處理:AGI 最重要的基礎
GPT-4 出現讓自然語言處理社團分成兩股:相信 AGI 和不信的。
進入大模型時代,範式改變給 NLP 帶來内核上的轉變,許多獨立存在的子領域被納入 LLM,不再獨立存在,LLM 熱度空前。
2 月 25 日,OpenAI 薩姆 · 奧特曼在博客中分享其對 AGI 的當前和後續規劃,以及 OpenAI 駕馭 AI 的風險。
他的短期計劃是使用 AI 來幫助人類評估更複雜模型的輸出和監控複雜系統;長期計劃是使用 AI 來幫助提出新的想法以實現更好的對齊技術。他認爲,一個錯位的 AGI 可能會對世界造成嚴重傷害,一個擁有決定性超級智能領導的專制政權也可以做到這一點。
在微軟 3 月發布的長篇報告中,微軟說:" 考慮到 GPT-4 功能具有的廣度和深度,我們認爲可以合理地認爲它是通用人工智能 ( AGI ) 系統的早期(但仍不完善的)版本。"
不過,他們也承認," 雖然 GPT-4 ‘對處理許多任務而言達到或超過人類的水’,但其整體‘智能模式顯然不像人類’。所以,大緻來講,即使它确實表現出色,但仍然不能完全像人類一樣思考。"
微軟提到了一個詞—— " 思考 "。
有許多哲學家認爲,即使通過圖靈測試的機器也不會實際上思考,而隻是對思考的模拟。
斯坦福大學教授克裏斯托弗 · 曼甯在 2017 年提出:到目前爲止,深度學習已經使得語音識别和物體識别的錯誤率大幅下降,但其在高級别的語言處理任務中并沒有産生同等效用。
人類語言往往依賴于常識及對世界的理解,要機器處理更高級别的語言任務。就要讓它完全理解人類語言,具備人類的常識和無意識行爲。目前的 LLM 還很難做到。
不過,20 世紀 90 年代,發明家、未來學家雷 · 庫茲韋爾發現這樣一個規律:一旦技術變得數字化,或者它可以被編輯爲以 0 和 1 表示的計算機代碼,它就能夠脫離摩爾定律的束縛,開始呈指數級加速發展。
簡單來說,技術發展後的産物會被用來加速産物升級,這就創造了一個正反饋循環。根據該理論,技術改良以過去的成就爲基礎,每十年革新步調就會加倍。
傳說西塔發明了國際象棋而使國王十分高興,他決定要重賞西塔,西塔說:" 我不要你的重賞 ,陛下,隻要你在我的棋盤上賞一些麥子就行了。在棋盤的第 1 個格子裏放 1 粒,在第 2 個格子裏放 2 粒,在第 3 個格子裏放 4 粒,在第 4 個格子裏放 8 粒,依此類推,以後每一個格子裏放的麥粒數都是前一個格子裏放的麥粒數的 2 倍,直到放滿第 64 個格子就行了 "。區區小數,幾粒麥子,這有何難," 來人 ",國王令人如數付給西塔。計數麥粒的工作開始了,第一格内放 1 粒,第二格内放 2 粒第三格内放 2 ’ 粒,…還沒有到第二十格,一袋麥子已經空了。一袋又一袋的麥子被扛到國王面前來。但是,麥粒數一格接一格飛快增長着,國王很快就看出,即便拿出全國的糧食,也兌現不了他對西塔的諾言。
獨立指數技術加速浪潮,已經開始呈現出與其餘獨立指數技術加速浪潮融合的趨勢。比如,自然語言處理技術的加速發展,不僅僅是因爲 NLP 或 LLM 的單項技術,還因爲 AI、深度學習、神經網絡等正加速發展的技術在向這個範圍靠攏。
2000 年,互聯網創始人提姆 · 伯納斯 - 李提出 " 語義網 " 概念。他希望建立一個 " 本體 " 爲基礎的、具有語義特征的智能互聯網,不僅能夠理解語義概念,還能夠理解之間的邏輯。突破單句限制,根據整個動态交互過程中的語義和語境的變化情況,對用戶實時輸入的語句進行處理并生成結果,是實現語義網的基礎。
正常的發展邏輯是首先通過解決語義表達,讓計算機利用對現有信息的經驗積累和理解,上升到更深層次。這也意味,AI 時代,語義處理會成爲操作系統的核心,所有軟件技術都會基于語義技術的進展而确立上限。
語言處理的進展,目前主要通過大數據和模型框架及訓練模式的互補和變化來構建。數據存在歧義性。LLM 時代,數據成爲重要核心,機器在進行詞語、對話或理念傳達時,使用環境和使用方式可以左右最終成果。因此,要消解機器對于模糊詞、隐喻等困惑,構建機器對世界的認知系統,人,在這種體系中格外重要。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App