2024 年将開啓 AGI 元年。
"2024 年,從 GPT 到 GPT Zero 會是重大的階段性成果,我們相信這一天會在不久的未來到來。"
在 2 月 29 日舉行的 2024 中關村論壇系列活動——第二屆北京人工智能産業創新發展大會上,清華大學基礎大模型研究中心主任、清華大學計算機系 WeBank 講席教授唐傑發表了演講,并對大模型在 2024 年的發展給出了自己的判斷。
唐傑在中國人工智能領域的重要性無需多言,在 OpenAI 的文生視頻模型 Sora 震驚全球後,包括「甲子光年」在内的很多在場觀衆都很期待,作爲國産大模型研究先驅學者的唐傑,對 Sora 有什麽看法,對未來又有怎樣的判斷?
唐傑認爲 Sora" 可能是目前爲止最好的文本到視頻生成模型 ",而針對由 Scaling Law(規模法則)産生的智能湧現,他回應了兩個當下頗具争議的問題:
Scaling law 的盡頭到了嗎?Scaling law 的盡頭是否就是 AGI?
在他看來,2023 年是大模型的實踐應用落地之年,今年更多的大模型将開始全面面向 AGI," 我非常堅信 2024 年将開啓 AGI 元年。"
以下爲唐傑演講實錄,原标題爲《ChatGLM:從大模型到 AGI 的一點思考》,經「甲子光年」整理,有删改。
1. 從 " 算法之戰 " 到 " 大模型落地應用之戰 "
今天我帶來的題目是《ChatGLM:從大模型到 AGI 的一點思考》。我們在清華大學各位老師和學校領導的支持下,成立了 " 人工智能基礎模型研究中心 "。我今天報告裏講到的幾乎所有模型和算法都開源了。
剛才也有很多學者和産業界的朋友都提到了 OpenAI,OpenAI 确實引領了整個大模型的發展,其中有一個非常重要的時間節點,也是國際上比較公認的" 大模型元年 " —— 2020 年,GPT-3 的發布。
GPT-3 發布之前,雖然 GPT-2 比較小,但 GPT-2 能力非常強,基本上能在一句話裏把主謂賓、狀語、定語這些要素生成得比較不錯,而且非常流暢,但它還沒有實現智能推理。很多大模型到現在也還沒有湧現智能。
GPT-3 一下就到 1750 億參數規模,可能到現在爲止,國内包括美國很多公司能突破這個參數體量的還比較少。
原因各有不同,有的是爲了保證推理速度,有的是因爲稠密模型在知識量方面已經非常強了,所以國際公認 2020 年是大模型元年。
直到 2023 年 3 月 14 日,GPT-4 的出現讓大模型迎來真正的爆發。
GPT-4 大大推高了 ChatGPT 的能力。2022 年 11 月 30 日,ChatGPT 的第一個版本基本上算 demo,能力還沒有那麽強,很多用戶進來玩了一段時間之後又流失了。GPT-4 讓大家看到大模型作爲工具基本上是可用的。GPT-4 不僅大大提高了文字生成能力,還提高了邏輯推理、數學甚至微積分能力。
GPT-4 還有很強的圖文識别能力。給定一張圖(下圖左側圖片),GPT-4 可以識别出共有三張圖,并且能針對每張圖給出非常生動的描述。
2023 年 11 月 6 日,OpenAI 發布 GPTs,也就是智能體,使得大模型的應用門檻大大降低。我們可以用一些簡單的自然語言,比如 " 請幫我們生成遊戲 "" 幫我生成給小學生用的計算器 ",不需要任何編程,操作系統可以幫你編程,還可以幫你從網上查找相關的信息,自動生成帶界面的應用程序。
GPTs 讓很多人變成了大模型的開發者。到現在爲止,互聯網上可能有幾百萬開發者,甚至很多開發者應用,也就是一個智能體,通過自然語言處理,再通過自然語言放出去一句話,每天日活都可能到百萬。今年過年期間,我們有開發者通過很簡單的方式生成了很簡單智能體應用,每天的 token 調用量可以達到幾百億。
最近 OpenAI 發布了 Sora,這可能是目前爲止最好的文本到視頻生成模型。其實 Meta 的 Emu 也能做不錯的視頻生成,但是距離 Sora 還有一定差距。
我用這個案例的原因,是因爲 Bill (編者注:Bill Peebles)原來在 Meta 做相關研究,後來到 OpenAI 做出了非常驚豔的 Sora。
綜合以上,我們可以看到 OpenAI 在過去五年不同時期所做的事。
2018~2020 年,基本在做核心算法的研究。同一時期,Google 在做 T5,各家分别做了不同的算法,但基本上都是在 Transformer 架構上做的,我把這個時期叫做 " 算法之戰 "。
2020~2022 年,大家開始思考如何讓這些模型更智能,并且跟人的行爲 align(對齊)起來,開始有監督的指令微調,教模型跟和人的行爲、人的産業應用對齊。
2023 年,大模型爆發以後,很多企業一開始沒注意,但 2023 年 6 月份開始,從互聯網企業到很多國央企、傳統企業都開始布局大模型,有的用一些開源模型做微調,有的企業直接購買超大規模的底座模型開始做應用。
我認爲 2023 年是大模型的實踐應用落地之年,今年更多的大模型将開始全面面向 AGI。
2. 爲什麽大模型越來越智能?
爲什麽大模型變得越來越聰明、越智能?難道是因爲數據大、算力大,計算量大嗎?
答案是:" 是的。"
正是因爲數據、算力、計算量非常大,才使得訓出來的模型越來越聰明。這就是我們經常聽到的 Scaling law(編者注:規模法則),Scaling law 使得大模型具有一定的理論基礎。
但我們回顧 AI 的發展,從早期的符号 AI 到感知智能,到今天我們已經進入認知智能時代,這幾個時代都發生了什麽變化?
符号 AI 實現了 " 知識的可搜索性 "。無論是機器學習算法還是知識庫、知識圖譜都在做一件事,就是人類定義很多規則,讓機器在規則裏找到最優化的分界面或搜索結果。
而感知智能時代最重大的變化是深度學習的出現。深度學習就是給定一個樣本,不需要人來定義,機器自動學出表示,解放了人類的定義。由機器、算法來決定什麽樣的表示最好,深度學習實現了 " 知識的可計算性 "。計算機隻能做計算,不能實現特别多豐富的語義。計算機真的理解我們了嗎?不一定。計算機理論上沒有理解能力,計算機真正能實現的是知識的表示,不需要人類告訴計算機知識應該怎麽表示,規則應該怎麽定,計算機能自動識别并表示知識。
但這個時代的不足,是你必須告訴計算機你要做什麽任務,比如你要做人臉識别、杯子的識别、垃圾的識别。于是對于不同的識别任務,必須标注不同的數據,就像 ImageNet 一樣。你給定了多少人工标注,你的精度就有多高。當時很多人都說" 有多少人工,就有多少智能 "。
近五年我們進入認知智能時代,你給定大量數據,機器學習的任務是機器自己定的。你給了很多文檔,機器自動決定哪些地方學填空,哪些地方學摘要,哪些地方學下一句的生成。在這個時代,計算機實現了機器認知的 " 元學習 ",自動學習目标,不需要人爲給定樣本的表示規則,也不需要給定他要學什麽東西,它能夠自動學習。
由此帶來的重大變化是,當我們有簡單的知識表示以後,比如我們給了知識一個向量表示,就可以做非常簡單的計算。比如 " 中國減去北京等于日本減去東京 ",我相信很多做機器學習或者有一點點人工智能基礎的人都看了例子,從大模型對話的角度看,你問大模型 " 在日本跟中國的北京地位一樣的城市是什麽?" 大模型就會自動回答是東京,看起來在計算上非常簡單,但是它好像實現了推理能力。在此基礎上,我們就可以逐漸實現更複雜的推理。
随着模型的增大,甚至能實現更複雜的能力。當我們給定一句話,大模型會把這句話映射到一個知識概念空間,比如我們給了 problem,它把問題映射到 concern 上再做一定的推理。
再複雜一點,給定數學題,你可以教模型把數學的推理過程學出來。比如我給定上一道數學題,他學完推理過程後,能自動跳到下一道數學題,相當于你教了它一次以後,它可以求解下面數學題,這就是 "in context learning" 能力的變遷。大模型一步一步把能力遷移後,能力越來越強,我們看起來就好像大模型在逐漸湧現出更多的能力,也就是 " 湧現的模型新能力 "。
3.GLM:GPT 之外的路徑
2020 年," 算法之戰 " 結束,開始模型之戰的時候, OpenAI 基本上就不再公開所有的技術細節。今天我們看到的 OpenAI 所有的技術細節基本是大家猜的,或是大家通過猜來做實驗,最後調試的結果,也由很多人是用 LLaMA 等開源模型調出來的。
我們團隊非常希望在這個時代解密所有 OpenAI 做的東西。當然我們的解密也不一定百分之百正确,因爲 OpenAI 并沒有公開所有技術細節,我們隻能通過猜測和性能比較。
過去幾年我們把 OpenAI 做的所有事情基本上都做了個遍,提出了一個區别于 GPT 的算法——"GLM 算法 "。
GLM 算法把 Bert 和 GPT 合并在一起,使得它跟 GPT 有點不一樣,但又比較相似的地方是,它學到的 attention 是半矩陣(如下圖右下角所示),但是它又多了一點 attention(如下圖右上角所示),多的這一點使得 GLM 在某些任務上比 GPT 效果更好。
斯坦福做過一個全面的評測,我們的基座模型基本上在 2022 年跟 GPT-3 在一個水平。
有了基座模型我們就可以很容易地做對話模型。2023 年 2 月,我們就推出了 ChatGLM-130B,用 1000 多億的基礎模型迅速調出對話模型。對話模型中就有大家能看到的一些基礎能力,比如對話、生成文字,甚至解決一些幻覺問題。
大家老說大模型有幻覺,但事實上人也有幻覺。你慢慢多教大模型幾次,他的幻覺會越來越弱,所以現在大家已經不再說大模型的幻覺有多嚴重。
此外,在基礎能力上,比如基礎的英文能力和文字能力方面,我們新推出的 GLM-4 已經非常逼近 GPT-4。
文生圖方面我們最近推出了 CogView3,可以非常好地捕捉文字中的語義信息。
有了這樣的能力,我們就可以畫一些動畫:
我們文生圖的能力也大大提高。我們現在超越 DALL-E 了嗎?我個人覺得還沒有。但我們明顯比一些開源模型的能力好很多,也在逼近 DALL-E。
另外,我們最近經常提到的 "All Tools",也就是 Agent 能力也有提高。我們能夠實現教模型自動寫代碼,自動在不同問題裏調用搜索引擎或調用其他的求解器。
比如,查詢全球各國 GDP,分析這些 GDP 數據中哪一年下降了,用紅色标出來,并畫出曲線圖。
最近 Sora 越來越火,我們之前也做了一點 CogVideo 的工作。當然現在的效果還遠遠不如 Sora,所以我們最近也在加速。我們在 21 年、22 年、23 年分别發表了關于視覺生成和圖片生成的相關文章。
這是兩年前我們生成的結果:
生成效果還不太好,但是語義捕捉已經不錯了。比如," 獅子人拿着水杯喝水 ",它可以生成獅子人,并且用手拿着水杯在喝水。當時生成的時長隻有 10s。最近我們正在不斷提高模型能力,希望能夠實現像 Sora 一樣生成 60s 視頻的能力。
有了這樣的能力以後,我們就可以做很多智能體方面的工作。這是一些網友做的智能體。
這些智能體的制作過程非常簡單,就是輸入幾句話,未來每一個人會成爲智能體時代的開發者。
未來我們還希望把 GLM-4 的一些能力變成智能體 OS。這是我們在手機上做的 demo,你可以問它一句話,比如 " 把手機顯示改成 light 模式 ",大模型會自動查找手機上的 " 設置 " 按鈕,點開它,再把 " 設置 " 裏面的 "display" 找到,把它改成 "light 模式 "。所有流程全部是機器自動做,不需要人工幹預,也不需要設置任何的規則,這個模型我們也已經開源在網上。
我們希望所有的研究都以開放的方式促進國内甚至國際上的大語言模型研究,所以我們基本上把所有的模型都開源了。
4. 堅信 2024 年将開啓 "AGI 元年 "
大模型發展的基石是 Scaling law。由此衍生出兩個問題:
Scaling law 的盡頭到了嗎?Scaling law 的盡頭是否就是 AGI?
首先回答第一個問題,現在我們還遠未到 scaling law 的盡頭,數據量、計算量、參數量還遠遠不夠。現在大部分模型可能都困在 1000 億左右,而且很多模型還沒到 1000 億。因此,未來的 scaling law 還有很長遠的路要走。
現在回答第二個問題,scaling law 走到盡頭不一定能實現 AGI,但是肯定比現在的模型要聰明得多。
另外,人腦有多模态的感知和理解,有學習、記憶、陳述,我們有記憶系統、反思系統、邏輯推理系統,比如我們做完一件事情以後會反思,哪裏做得不夠好,能不能重做一下?這時你又會改進自己的規劃系統和做事的規則。
我們能否從人腦的認知角度出發,改進未來的 AGI 系統,使它變得更加智能?這是我們未來要思考的問題。在模型越來越聰明的同時,我們能不能讓超級智能跟人類的價值觀、道德觀對齊?這是更重要的問題。否則如果未來 AI 超過人類,會不會對我們造成威脅?
我們現在做一些工作,讓大模型自己教自己,并且自己和人的價值觀對齊,教會大模型自己判斷、自我反思,這是在國際上非常熱的 " 超級對齊 " 和 " 超級智能 "。
我非常堅信 2024 年将開啓 AGI 元年。從今年開始,國際上很多學者都會來探索 AGI。今年的終局是什麽?
我認爲今年的階段性成果,是實現 GPT 到 GPT Zero 的進階,即大模型可以自己教自己,不需要我們輸入這麽多數據,它會自己構造數據來教自己。
Sora 已經有了些端倪,Sora 通過遊戲引擎構造了大量的數據,使得自己變得更聰明。但GPT 到 GPT Zero 會是重大的階段性成果,我們相信這一天會在不久的未來到來。未來 GPT 甚至可能會幫我們探索科學規律和世界起源這些終極問題。
總之,2020 年是大模型元年,之前是 " 公元前世紀 ",2020 年之後我們經曆了大模型的 " 模型之戰 ",還有 " 落地之戰 "。今年我們全面面向 AGI,但是未來的 AGI 之路還很長。
以上是我的報告,感謝大家。