文 | 幸芙
編輯 | 靖宇
自 1956 年科學家研發出第一個「西洋跳棋」AI 程序算起,AI 至今已經發展了近 70 年。期間經曆幾次潮起潮落,但一條主線卻貫穿其中:那就是「模型化」——「模型」在 AI 中的占比越來越高。這一趨勢在大語言模型 ChatGPT 出現後達到頂峰。
「我們堅信未來 AI 就是模型的天下,多麽重視模型都不爲過。」
7 月 22 日,在極客公園主辦的 AGI Playground 大會上,IDEA(粵港澳大灣區數字經濟)研究院認知計算與自然語言講席科學家張家興說道。
2021 年,張家興就帶領 IDEA 團隊創建了最大的中文開源預訓練模型體系「封神榜」,是模型「先行者」。他們見證了大模型帶來的「範式轉移」。
張家興認爲,這場轉移包括兩個關鍵詞,「消失」和「形成」。「消失」是指,随着 ChatGPT 通用大模型到來,過去做信息抽取、問答、文本輸出等特定類型的模型在消失。「形成」是指,大模型背後考驗工程化的能力,會形成從模型誕生到微調到落地的新生态位。
IDEA 研究院也正在新生态位中布局。
除了研發全能力模型之外——目前,IDEA 基于 LLaMa,生成了「姜子牙」(Ziya)通用大模型,已經應用于數字人、文案寫作等場景。約一個月前,他們還訓練出了一系列的專家模型,如多模态模型、代碼模型、寫作模型、對話模型等。後者可以幫用戶寫文章、新媒體文案、直播腳本、宣傳海報、甚至網文小說等。
張家興認爲,在這個龐大的生态系統中,創業者可以結合自身特長思考要占據生态位的什麽位置。「任何有志于投身到大模型領域的人,都可以從中找到自己的位置。」他說。
以下是張家興在 AGI Playground 大會上的演講全文,經極客公園節選整理:
在極客公園主辦的 AGI Playground 大會上,張家興發表演講
大模型時代:新範式和新生态
今年我們言必稱大模型的時候,言必稱 AGI 的時候,我們總會把大模型這件事情認爲是 AI 中理所當然的。往前推,即使我們推到 1997 年非常重要的一件事情是「深藍」擊敗「卡斯帕羅夫」。即使那樣的 AI 系統裏面也沒有一個深度學習模型。
整個 AI 發展曆程始于 1956 年,至今已有 70 年。雖然 AI 經曆了幾次潮起潮落,我們可以發現 AI 發展一直沿着一條線進行,這就是 AI 的模型化進程——模型在 AI 中所占的比重越來越強。今天我們堅信,未來 AI 就是模型的天下,我們多麽重視模型都不爲過。
張家興講述 AI 的模型化過程
我們都說這次大模型是「技術範式」的變化,用兩個關鍵詞概括就是,「消失」和「形成」。
「消失」指的是類型的消失。半年前,整個 AI 領域充斥着各種不同類型的 AI 結構和任務。比如在結構上,有 BERT、T5 等各種模型結構。比如在任務上,有分類、信息抽取、寫摘要、問答等各種任務。然而,随着通用大模型時代的到來,這些多樣性正在消失。
現在,唯一的模型結構是 GPT,唯一的任務是文本輸入和文本輸出。所以曾經的 AI 概念,如句化分析、關鍵詞等概念,都逐漸都淡出我們的視野了。而且,今天模型的用途已不再由技術提供方決定,而是由使用的客戶自行決定。
而「形成」指的是生産鏈的形成。一個模型的構建需要投入巨大的資源,幾乎沒有人能夠獨自從頭到尾完成這項任務。它需要一個龐大的團隊,背後很大的算力支持下才能打磨出來。從模型的最初構想,到中間各種階段的微調,再到最後的落地實踐,這構成了一個完整的生産鏈。
從「消失」和「形成」,可以看到大模型的「範式轉移」。有時候,技術的進步就是無情的,不受個人意志的左右,新的技術範式将代替老的技術範式。
那麽,大模型作爲這項新的技術範式,到底有什麽價值呢?在我看來,它帶來了四個全新的價值:
1 全新的理解能力
在自然語言理解方面,當下的大模型遠超過之前所有的模型。它仿佛真的了解我們每句話的意思。盡管回答可能不完全準确,但呈現出了全新的理解能力。
2 全新的工具
它既是提效的工具,能把人從繁重的勞動中解放出來。它也是創造性工具,能創造出人創造不出來的東西。例如,去年 Diffusion Model 展示出的文生圖能力。
3 新界面
曾經,我們必須通過編寫程序來訪問數據和 API,而現在,似乎不再需要編寫繁瑣的代碼,隻需用自然語言描述,大模型就能自動生成代碼。
4 新引擎
大模型不僅僅是單一點能力,它可以作爲引擎,驅動信息檢索、對話生成、甚至創造故事等工作。
大模型還帶來了全新的生态,這就是如何跟産業結合落地的問題。
我們認爲大模型不僅僅是普通的 API,或者不可改變的模型。我們強調上遊公司生産模型之後,下遊客戶要進行進一步的訓練,跑完最後一公裏。這樣,模型就能嵌入到每個客戶自己的場景中。當模型表現得越好,收集的數據就越多,又會反過來加強模型。這樣能夠真正推動整個産業的發展。
在這個新生态中,最上遊是做基底模型的公司,基底模型往下有許多團隊,會專注于特定能力或領域的模型。繼續往下,就是與解決方案公司、雲廠家和硬件廠家合作,創造各種各樣的産品,最終服務于落地的企業和政府。
張家興描述的大模型新生态
從基底模型到真正的落地,這涉及了非常多的環節和鏈路,也孕育了許多新的生态位。我覺得,每個人都可以結合自己的特長,思考在這個生态系統中要占據哪些位置。其實任何有志于投身到大模型領域的人,都可以從中找到自己的位置。
「姜子牙」大模型背後
我們團隊已經成立兩年,從我們過往的經曆中,可以很清楚地看到這種範式變化對我們造成的影響。
一直到去年年底,我們都是開發大量的開源模型,做不同的模型結構和任務類型。僅在一年的時間裏,我們就開源了 98 個模型,創下了中文領域的開源紀錄。
然而,去年年底,文生圖的模型作爲一款爆品突然出現了。于是我們開始轉向,做了中文第一個開源的 Stable Diffusion 模型,我們稱爲「太乙」模型。我們希望能跟上大模型的技術範式變化。
到了當下通用大模型時代,我們團隊正在加班加點幹的事情是,爲中文訓練最好的開源基底大模型。這就是大家都知道的 LLaMA2。我們訓練了 20B 的 token,相較于之前訓練的「ziya-LLaMA-13B」模型,訓練速度提高了 38%,徹底解決了訓練過程中不穩定「訓飛」(訓練異常)的問題。
訓練 20B token 之後,LLaMA2 解決了訓練過程中不穩定的「訓飛」問題
這個模型我們訓練出來之後将會完全開源,而且不會有任何商業應用上的限制。同時,我們承諾會對這個模型進行持續的訓練,希望爲整個大模型社區提供一個最好的開源可商用模型的基底。
在當前的技術範式下,今年推出的 ChatGPT 令許多人興奮不已,說通用大模型将颠覆各行各業。然而,随着時間的推移,我們冷靜下來發現,大模型其實隻是對現有場景的淨化和優化。因此,我們認識到在垂直行業、領域和能力上,仍然有許多大模型應用的可能性和機會存在。
所以大概一個月前,我們團隊生産了一系列專家模型,比如多模态模型、代碼模型、寫作模型、對話模型等。其中許多都已經發布,并達到了領域内最優秀的水平。
我們最近剛剛開源了中文協作模型,稱爲「子牙 writing」。我們希望這個模型能夠成爲一個開箱即用的小助手,爲企業和個人提供提效的支持。例如,政府人員可以讓子牙 writing 幫助寫災害情況的彙報,或者寫領導在開幕式上的緻辭,因爲它能非常符合政策報告的風格。
另外,它還可以讓中文社區的創作者、運營人員和營銷人員從中解放出來,幫助寫各種類型的文章、文案、軟文,甚至可以創作優秀的短篇小說,甚至一篇古代修仙玄幻的網文小說。我們可以看到,它不管是在章節結構邏輯性、還是故事情節上,都有一個非常好的表現。
我們還開發了一個檢索包,隻使用了一個億的參數。它在法律和金融領域的效果都要優于目前的一些解決方案,甚至比目前開源最好的向量模型還要好。我們的工具包也可以成爲金融行業的小助手,爲研究員和分析師提供幫助。
我們爲什麽可以生産出這麽多高質量模型?
背後是我們的許多積累,包括三階段的訓練系統(預訓練 PT、有監督微調 SFT、人類反饋學習 RLHF),包括積累的大量高質量數據、自研的一些算法、以及把它沉澱到我們的訓練系統中。
我們的每一個模型都同時支持開源和商業版,并授權我們的夥伴進行訓練和微調,讓他們在自己的場景下面做私有化的訓練。
由小見大,從我們一個團隊的變化,也反映出當下整個大模型領域技術範式的變化。
現場提問
IDEA 團隊接受現場提問
問:如何看待未來硬件推理架構?未來的硬件是長期「訓推一體」,還是會有專用推理芯片的機會?
張家興:本來我們曾經是訓練和推理兩類芯片,但是現在的推理芯片顯然無法适應現在的大模型。
所以目前,基本從硬件的限制來說,做「訓推一體」比較多。而且訓推一體有很大的好處就是它可以複用算力。我們推理不見得一直是屬于滿負荷狀态,所以可以充分利用波谷的時間做訓練,這也是從經濟的時間來考慮。
未來來看,推理芯片仍然具有其存在的意義。在某些場景下,比如移動端、邊緣計算或車載設備等,仍然需要特殊定制的推理芯片。即使在雲端、服務器裏面,如果推理芯片朝着低功耗或者其他方面能夠有更多的優化,那它也有存在的意義。我覺得未來應該還是會有專門的芯片做專門的事兒。
問:針對一些垂直類的應用,應該從哪些角度去搜集數據比較好?如何構建高質量的數據集?
張家興:其實我們整個數據也都是逐漸收集的,從最開始隻有二三十個數據集。但慢慢通過訓練,比如缺了哪部分能力,我們就會針對性收集一部分這樣的數據,同時會有我們自己的一些經驗積累,比如一些數據處理之類的。
最後如果實在沒有,我們會自己構造一些數據。比如針對多人對話等,我們都有各種各樣的不同類型數據集在裏面。
問:爲什麽做了這麽多專項能力模型?爲什麽不在同一個模型上同時提升這些能力?
張家興:我們有幾點考慮,第一是我們事先選定了這樣的模型尺寸,選擇這個模型尺寸之後。再想讓這個模型具備什麽能力,這就是受限情況下的命題。這是非常大的成本優勢。
這個時候想把所有能力放進來一個大模型裏,但是這些能力在時間和空間上是互斥的。在空間上,某些能力是互斥的,比如當時我們做了邏輯推理方面的問題,比如數學題的問題和寫作類的問題它們是有沖突的。另外是時間上的沖突,在某一個時刻某個能力是最強的,但其他能力可能不是很強。
既然下遊的場景隻是需要單一能力,那我們幹脆去隻選取某些特定的數據集訓練某些任務,就是專用模型。
問:你講到不穩定「訓飛」問題被解決了,這是如何被解決的?
張家興:這裏面很關鍵的一點,第一是我們的訓練上做了調整,我們在分布式訓練時在源碼層做了修改,确實訓練的穩定性強了很多。我們當年訓練 Ziya-LLaMA-13B 的時候,那個訓練集的曲線就穩定了。我們是一個非常專注于訓練技術的大模型團隊,這也是我們能夠持續做出好模型的保障。
問:對于公域大模型和私有化大模型的讨論,模型一定要私有化嗎?比如我要做一個 to C 的應用,我可以不做私有化部署嗎?
張家興:首先,我們發現我們的合作夥伴有一些數據安全合規和隐私方面的需求,他們的數據不能去使用公有的模型去做訓練。第二,他們需要有一個非常深度的場景,定制的需求,不管 to B 的産品還是 to C 産品,他們都希望在自己的場景去用。
這個時候,公有的大模型或者通用大模型底座并不能完全滿足他們每一個需求,所以私有化訓練和私有化部署就成爲他們的必選項。