在 2023 年初,Chat GPT 似乎掀起了一股 AI 大模型風。從 2 月以來,國内多家公司也推出了自己的大模型。
我們熟悉的有百度的文心一言、阿裏的通義千問、華爲的盤古、騰訊的混元,等等。除此之外,很多的科技企業、學校機構都在制作自己的大模型。比如,北京智源研究院的悟道 2.0,中科院自動化所的紫東太初、複旦大學的 MOSS、清華大學的 ChatGLM。
這麽多大模型的名字聽着就讓人覺得頭暈。如果這些機構全部集中精力做一個模型,其實不是更容易成功?
圖源:unsplash.com
這麽想自然有一定道理。但縱觀人工智能的發展史。多種技術、多條路線共同探索,也是讓人工智能能夠快速發展,能夠一次又一次沖破 " 寒冬 " 的原因之一。
想了解技術多元化對人工智能發展的好處,首先要從符号主義與連接主義說起。
讓計算機 " 變聰明 "
在 1956 年 " 達特茅斯會議 " 上,人工智能作爲一門新興的學科被确立下來。一代代科學家們投入到了讓計算機 " 變聰明 " 的研究道路上。但 " 變聰明 " 這件事太過抽象,具體要如何實現呢?
其實早在達特茅斯會議之前,人們就已經開始探索了。而在這個過程中,出現了幾條不同的路線,其中 " 符号主義 " 和 " 連接主義 " 是兩種重要且有代表性的路線。
符号主義的想法是人的智能主要體現在高層的推理方面:" 智能的基礎是知識,智能的核心是知識的表示與推理 "。而知識和邏輯推理可以轉化成數學符号來表示,而它們的推理、運算過程,同樣可以用數學公式符号來表達(正因如此,這一學派才被稱爲 " 符号主義 ")。
符号主義最典型的技術是 " 專家系統 "。專家系統背後的想法是,把某個領域的知識、邏輯以符号的形式表示出來,整理成知識庫和推理機。根據輸入的條件,專家系統能用知識庫裏面的知識和推理機裏既定的邏輯推理方法,一步步推理得出知識庫中沒有但是又正确結果。
在 1955 年,一款名叫 " 邏輯理論家 " 的程序出現了,這款程序,能夠推演《數學原理》裏面 52 個定理中的 38 個,并且對一些定理還給出了更簡潔的證明方法。
這個程序,甚至被一些人稱爲 " 第一個人工智能程序 "。自人工智能出現很長一段時間裏,符号主義都在人工智能領域占據重要地位,甚至 " 人工智能 " 這個詞也是符号學派爲主的科學家們起的新名字。
當然,在符号主義大大發展的同時,其他賦予計算機 " 智力 " 的探索也沒有停止,比如連接主義也在同步發展。
連接主義與人工神經網絡
連接主義有點類似于仿生學,是通過從底層到上層的方法來研究并且模仿人類大腦的結構,進而解釋人類的智力行爲。
連接主義認爲,微觀的神經節之間的活動最終湧現出了宏觀認知智能。這個思路也比較符合其他科學領域的從下到上的方法論:比如用底層的物理知識來解釋高層的化學反應原理一樣。它的發展,催生出了今天人工智能領域最重要的技術之一——人工神經網絡。
圖源:unsplash.com
1943 年,沃倫 · 麥克洛克和沃爾特 · 皮茨提出了一種類似于生物神經元的數學模型—— MP 神經元模型。這個模型其實就是模仿神經元細胞,對輸入的信号進行處理,并給出特定的信息。
在 1949 年,神經心理學家赫布發現,人類大腦中的神經元之間傳遞的信号強度并不是一成不變的而是 " 可塑的 "。這個理論,後來被人們稱爲 " 赫布規則 ",在人工神經網絡的發展上具有重要地位。
在 MP 神經元模型和赫布規則的基礎上,1958 年,羅森布拉特建立了感知器模型,這個模型被稱爲最早的 " 具有學習能力 " 的人工神經網絡。這個神經網絡被美國海軍寄予厚望,并持重金打造了硬件機器,希望它能成爲新一代的神經計算機。這個項目是美國海軍的重要項目。
但由于當時的算力和技術的限制,人們很快就發現,感知器的功能太有限了,隻能解決非常簡單的線性分類問題。
麻省理工大學的馬文 · 闵斯基(Marvin Minsky)和西莫 · 帕波特 ( Seymour Papert ) (也是少兒編程最早的倡導者)寫書公開聲稱 " 人工神經網絡用處非常有限,甚至連簡單的‘異或’問題都無法解決。"
在二十世紀六十年代末,人工神經網絡的研究陷入了低谷。而幾乎就在同一時期,投資者們也開始意識到,之前人們期待的 " 人工智能大爆發 " 并未到來。
比如 1958 年時候,就有科學家認爲,10 年之内,我們就能讓計算機成爲國際象棋冠軍(實際上這件事在 1997 年才實現比預計晚了将近 30 年)。在 1970 年,有科學家認爲 " 3~8 年之内,就能有一台普通人智力的機器人。" 但這顯然是做不到的,直到今天我們都無法造出這樣一台機器。
這些 " 美好的未來 " 并未實現,使得政府和投資者們也大大削減了研發經費,人工智能迎來了第一個寒冬。
AI 寒冬
但好在人工智能領域有多條技術路線。在寒冬之下,連接主義的人工神經網絡發展艱難,符号主義的專家系統卻悄然興起。
在 1972 年,一款叫 MYCIN 的專家系統出現了,它能夠基于病人的症狀,推理出合适的治療方案。
圖源:unsplash.com
比如,MYCIN 裏面記錄了多種内科疾病的症狀和病因,同時還有每種疾病适用什麽樣的藥物,哪些藥物之間會相互反應。如果一個人拉肚子了,隻要輸入對應的症狀(比如體溫、血常規數據、持續時間等等),MYCIN 就能推理出他所患的疾病,并且開具合适的藥物。
MYCIN 給出的治療方案 " 可接受性評分 " 跟人類專家的相差無幾(MYCIN 爲 65%,五位人類專家爲 42.5%~62.5% )。
除了 MYCIN,另一款名叫 XCON 的專家系統幫助 DEC 公司每年節省上千萬美元的成本( XCON 可以理解成一種專業的訂單處理系統)。看到專家系統有實打實的經濟效益,其他公司也在二十世紀八十年代開始效仿,紛紛建立自己的專家系統以節約成本。
但随着專家系統的普及,它的弊端也逐漸顯現,比如,專家系統知識庫裏的知識也不會自動更新,專家系統的維護成本很高。
專家系統很快就陷入了僵局,而在此時,連接主義的人工神經網絡迎來了自己的 " 文藝複興。
在二十世紀七八十年代,陸續有科學家發現了 " 反向傳播算法 " 的重要性。在 1982 年,保羅 · 韋布斯将反向傳播算法應用到多層感知器中,這對人工神經網絡的發展非常重要,我們今天的人工神經網絡,幾乎都離不開反向傳播算法。
由此可以看出,無論在人工智能的寒冬還是複興時期,符号主義和連接主義的研究都在繼續,這給人工智能技術取得飛躍和突破提供了條件。如果沒有這些多元化的研究爲基礎,人工智能的研究可能會深陷在某一條道路中難以前進。
當然了,除了人工智能技術本身,其他行業的突破,同樣也會促進人工智能領域的發展。比如,在二十世紀九十年代以後,芯片技術飛速發展,計算機的算力得以迅速提升,這對人工智能的發展來說也至關重要。
比如二十世紀九十年代以前,即便有了反向傳播算法,想訓練層數非常多的(超過 5 層)的深度神經網絡會非常困難,因此人工神經網絡一度也被支持向量機所取代。而在 2000 年前後,GPU 的出現讓人工神經網絡(主要是深度神經網絡)的訓練速度大幅提升,再加上互聯網的普及帶來了大量可供 AI 學習的數據,深度學習技術開始嶄露頭角。
BERT 與 GPT
到了人工智能技術飛速發展的今天,多元化的研究依然能帶來意想不到的突破。比如今天我們所熟悉的 ChatGPT,正是多種研究齊頭并進的受益者。
在 2017 年,Google Brain 的科學家們發表了一篇名爲《Attention Is All You Needed》的論文,提出了 Transformer 模型。
簡單的說,Transformer 是一種能夠讓計算機更好地 " 讀懂 " 人類語言的模型。它引入了 " 注意力 " 和 " 自注意力 " 機制,類似于我們看書時候,會把注意力集中在比較難理解的片段、詞句上,并且綜合上下文的意思,來理解這些片段、詞句。
基于 Transformer 人們繼續開發了多種大模型,在 2018 年 Google 推出了 BERT 模型。在同一年,Open AI 也推出了 GPT 模型,這兩個模型有很多相似之處,但也有一些區别。
簡單的說 BERT 更擅長于理解文本中的詞義,而 GPT 更擅長于生成文本。
BERT 能夠從一個單詞的前後兩側來理解它的含義,有點像考試中的填空題。比如:" 我的寵物是一隻會叫的(),它愛啃骨 "。BERT 非常擅長從空格的前後判斷出,這裏的詞最可能是 " 狗 "。
而 GPT 則是單向的,像我們閱讀一樣從左到右分析,并且預測出下一個單詞。比如 " 我的寵物是一隻會叫的狗,它愛()",GPT 能夠根據前文信息補全後面的内容。
BERT 出現之後,因爲它在語義理解方面有着非常優秀的表現,在自然語言處理方面大放異彩。而在 2018 年到 2020 年,GPT 模型并沒有像今天這樣受人關注,但它的研究沒有因此停步。
在 2019 年、2020 年,Open A I 相繼推出了 GPT 2.0、GPT 3.0。在 GPT 3.0 的時候,GPT 的參數達到了 1750 億,訓練樣本超過 40TB,GPT 3.0 湧現出了比之前的 GPT 模型更強的理解力和生成能力。
在 GPT3.5 又加入了人類标記的訓練方法,性能又有了進一步的提升。而在 Chat GPT 出現之後,越來越多的人了解到了 GPT 這項技術,這也再次把人工智能推到了人類技術發展的舞台中央。
每一項研究都值得重視
由此可以看出,在整個人工智能發展的過程中,多元化的研究和發展給人工智能技術帶來了更多的可能性。比如在二十世紀六十年代到九十年代,專家系統、人工神經網絡、支持向量機同步發展,一項技術陷入困境,會有其他技術興起。
對于整個人工智能領域是如此,而如果聚焦于大模型這樣的領域也是如此。在自然語言處理領域,科學家們也并沒有因爲 BERT 的效果突出,就冷落了 GPT。這才給了 Chat GPT 在 2023 年讓人們人盡皆知的機會。
除了 GPT 和 BERT,在大模型領域還有很多模型在研究、發展中。這些模型中的某項技術、某些成果可能在未來會給自然語言處理甚至是這個 AI 行業帶來颠覆性的改變。
因此,回到最開頭的問題,如果所有的公司、機構集中精力和資源去訓練一個模型,确實有機會造出一個超級大模型。但在這個過程中,可能會失去一部分寶貴的 " 技術多樣性 "。各個公司的商業化考量,可能也會在客觀上促成 AI 的多元化發展。
參考文獻
[ 1 ] 中國大百科全書
https://www.zgbk.com/ecph/words?SiteID=1&ID=216644&SubID=81535
[ 2 ] 斯坦福哲學百科全書
https://plato.stanford.edu/archives/fall2018/entries/connectionism/#DesNeuNet
[ 3 ] MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity [ J ] .Bulletin of Mathematical Biophysics, 1943, 5: 115-133.
[ 4 ] HEBB D O The Organization of Behavior: A Neuropsychological Theory [ M ] .Lawrence Erlbaum Associates, New Jersey, 1949.
[ 5 ] ROSENBLATT F. The perceptron: Probabilistic model for information storage and organization in the brain [ J ] .Psychological Review, 1958, 65 ( 6 ) : 386-408.
[ 6 ] Simon & Newell 1958, p. 7 − 8 quoted in Crevier 1993, p. 108.
[ 7 ] Yu VL, Fagan LM, Wraith SM, Clancey WJ, Scott AC, Hannigan J, Blum RL, Buchanan BG, Cohen SN. Antimicrobial selection by a computer. A blinded evaluation by infectious diseases experts. JAMA. 1979 Sep 21;242 ( 12 ) :1279-82. PMID: 480542.
[ 8 ] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [ J ] . Advances in neural information processing systems, 2017, 30.
策劃制作
作者丨秦曾昌 北京航空航天大學教授
田達玮 科普作者
審核丨于旸 騰訊安全玄武實驗室負責人
策劃丨徐來 崔瀛昊
責編丨一諾
往期
精選
點亮 " 在看 "
了解人工智能!