5 月 23 日,36 氪舉辦「颠覆 · AIGC」産業發展峰會。本次峰會彙聚産業力量,共同探讨企業、行業在面臨變革時的應對策略,分享思考,探索和發現産業中最具潛力的企業與最具價值的技術,在激蕩的環境中探尋前行的方向。
大會上,商湯科技聯合創始人、大裝置事業群總裁楊帆發表了題爲《大模型浪潮帶來的 AI 産業發展新機遇》的主題演講。楊帆認爲,新一輪 AI 浪潮有兩個特點:一是從技術突破到商業模式創新的周期更短,技術成果被更快地用于商業和産業探索、實踐;二是相較于過去十年,當前的人工智能産業化更容易将技術優勢轉化爲數據壁壘和規模優勢。
對人工智能技術能取得突破性進展的原因,楊帆也發表了自己的看法。他認爲,盡管大模型的成功仍然印證了人工智能的 " 數據、算力、算法 " 暴力美學,但這三要素背後實際上是一個綜合系統工程。以 OpenAI 爲例,楊帆指出,如何做好數據工程,如何提升芯片的有效資源利用率,如何設計更低成本但結構優良的算法,每一個環節都需要專家經驗知識和系統工程能力支撐。在他看來,這是模型層企業核心基礎技術能力積累的最終體現,也是向市場提供 AI 基礎設施服務的關鍵能力。
以下爲楊帆演講實錄(經 36 氪整理編輯):
大家好!很榮幸今天能夠在 36 氪的活動和大家一起交流大模型的一些産業趨勢。
在這樣一個産業極度變化期,我分享幾個觀點。首先,我們今天講大模型,是沒有被精确定義說法的,到底是千億較大,還是百億較大?在我看來,人工智能從 2012 年到現在,過去十幾年,模型結構一直在變大,參數量也一直在變大,爲什麽現在大家好像突然有了一個概念,引爆更多的關注熱點?我們可以看到,在 2016 年以 AlphaGo 爲代表的新應用,和個人消費者之間有一個強關聯,最近兩年,人工智能技術取得了新的進展和突破,首先這些進展、突破和每個人更直接相關,大家能夠直接感受到它,第二這些突破确實形成了更大的影響力,我覺得人工智能可以完成一些其他學科在科研領域裏的創新工作,不管是生物、物理、化學,還是其他領域,比如:今天大家所關注的 ChatGPT 模型,就很有意義,因爲它有可能驅動我們整個底層的科技,産生新的進步。這樣新的進步有可能在未來給人類帶來更多的增量。
從 2021 年開始,陸陸續續産生比較多的技術突破,同時我們看到一個很有意思的現象,這輪技術突破從技術形成一定的成果後,我們開始到産業、商業上做探索和實踐,這個周期變得比原來更短。在此之後,國内外有大量的創新公司成立,教授、學者開始創業,我覺得可能過去市場上對此已有一些路徑,投資人的認可度也變得更高,包括一些文生圖的 API 公布後,很快就有人在小紅書上做網紅嘗試。
我們看到很多趨勢,從技術突破到商業化創新,這個周期似乎更短。在最近參加的一些論壇裏面,我發現大多數人都在講,想要做一個什麽樣的大模型,模型有多大,有多厲害,要拿這個模型做什麽事情,在某些特定場景下去打造一個超級新的 APP,等等。在中國現在還沒有任何一個大模型得到政府監管正式 API 許可的情況下,在最近兩個月的時間内就有這樣一個很大的擴張變化。
所以我覺得這是一個更值得我們去關注的現象,我們看到這輪大模型的商業化進程更快,爲什麽會産生這樣的效果?很重要的一點是我們看到很多新技術,可以做更多 C 端應用,與此同時,可以天然形成數據積累閉環,這比起過去技術性創業更加容易建立起商業壁壘。我覺得這是我們看到的最近幾個月在産業方面的趨勢。
商湯科技聯合創始人、大裝置事業群總裁 楊帆
第二,是我們今天做大模型技術背後的東西。大家有一個共識,不管是大模型,還是回顧過去 10 年,整個人工智能産業發展變遷,基本上都是一個暴力美學的成功,包括人工智能的傳統三要素:數據、算力、算法。算法,大家可以理解成模型結構,今天我們所謂的這些大模型,或者技術上取得更新成績的模型,幾乎所有的模型在每個領域不管是數據集尺度所使用的算力規模,還是算法本身的結構,以及模型的參數量,其實都保持着非常高的增速,Transformer 這個模型非常穩定,效果非常好,可以解決很多領域問題,并能得到很好的結果。當我們發現數據量足夠多,可以拿到很好泛化性的結果時,其實在某種意義上,也更加驗證了人工智能技術的進步大方向就是暴力出奇迹,把更多資源整合起來就可以拿到更好的結果。
但是,光有這樣一個資源,其實是遠遠不夠的,我們去看對應的三要素,每個要素在形成好的結果之前,在每個領域都要做大量的專業工程實踐。
其實剛才嘉賓的演講就解釋了在算力領域,爲什麽我們需要大算力,這些大算力怎麽連起來?如果今天有 1000 塊卡,我們是不是能讓它們發揮出好的性價比,是不是有效利用率能做到 60%、80%,甚至 90%?再或者,如果我們今天連了 1000 塊,2000 塊、4000 塊卡,又會是什麽樣的效果?OpenAI 之前連了一萬塊 V100,目前國内還沒有人可以把一萬塊卡連在一起去跑同一個訓練任務,并使有效資源利用率達到 50%、60% 以上,現在可能有些人正在做,但還沒有這樣的成績,爲什麽?其背後就是非常複雜的工程事件。比如:一個千億參數量的模型,在訓練時需要做大量數據交互和中間梯度信息交互,當你把分在成千上萬塊 GPU 卡上的大量傳輸數據和運算結果傳輸之間形成有效平衡,很多時候模型是在點對點之間進行,在網絡結構上要做兩兩傳輸。我們把成千上萬塊卡連在一起時,效果有一個怎樣的可接受狀态,這背後其實也不複雜,就是大量的工程實踐,就像你幹過這件事,你踩過足夠多的坑,就會比别人調的更好,這個事情就是很重要的經驗問題。
算法也一樣,今天的算法結構設計可以比原來成本更低。結構設計的好,用更少量參數、更小數據就可以達到類似一個設計不做特别優化的最終算法效果,這中間也存有大量專家知識,數據就更不用說了。
OpenAI 做 ChatGPT4 的時候,最後在收集到的數據中隻取了中間可能不到 10% 的很小一部分做訓練,這對于資源節省和全量訓練的差距非常大,互聯網量數據非常大,到底哪些數據更加有效,哪些數據有更高蘊含價值?我們在做訓練的時候,先丢哪些數據,後丢哪些方式,這個中間其實也都有大量試錯。爲什麽算力這麽緊缺,大家需要拿更多算力?因爲做大模型的很多人在試錯,可能同時分三四個小組,在不同方向上試錯,然後再逐步做叠代優化,暴力美學或者規模化資源聚集是今天能夠讓 AI 技術、AI 算法能夠持續取得的原因。
更重要原因,是我們在每一個環節上,需要一些專家的經驗知識和系統的工程能力,其實是一個綜合系統工程。這也是看到 OpenAI 讓最優秀的科學家去做數據工程,而不是去做算法,這極大的超出了我們以往對于領域的認知,在未來,這可能會成爲一個關鍵性的門檻,也會成爲我們給市場提供服務的核心能力。
爲什麽在人工智能新技術出來以後,産業浪潮跟進的非常快,我們看到模型服務天然符合很多領域,互聯網圈的人非常激動,投資人覺得它會像互聯網一樣飛速增長。大模型在商業化的門檻和壁壘上能夠有一些更新的機會,當然這些機會的獲得取決于不同的差距和特色特長。無論如何,相比過去 10 年,如今的人工智能産業化會有非常大的優勢,因爲不是單一技術壁壘,今天的技術優勢是有可能轉化成數據壁壘和規模優勢,我們相信在未來會有更多的産業應用。
商湯從 2019 年開始做早期的大模型,在我們看來,整個 AI 模型其實一直處在越來越大的狀态,所以我們内部積累了大量能力,包括自研了一些 CV、NLP 的模型。在今年 4 月份,商湯把一些模型的 API 開放出來,給産業夥伴試用,包括一些大語言類的模型,在我們看來,這更多是核心基礎技術能力積累的最終體現。
我們今年發布了一系列的模型,爲市場提供服務支撐的背後是我們的大裝置,我們覺得,人工智能整個産業往前走,需要有人提供這樣大規模的高效率的基礎設施,這基本是一個必然路徑。整個 AI 技術浪潮,未來如果變成越來越多資源消耗加專家經驗累計的遊戲的話,其實門檻極高,是不利于 AI 被産業大量快速應用的,所以我們判斷勢必會形成分化,一定會有人提供基礎設施服務,不管是調用模型 API 形式,還是在此基礎上做小模型的方式,再或者以其他的方式,都可以低門檻、低成本的快速使用 AI 基礎性的資源和能力,從而快速完善自己的商業模式閉環。
商湯大裝置的定位就是做 AI 基礎設施提供者,今天我們有全亞洲最大的人工智能的計算節點,我們擁有超過 5000P 的資源算力,也提供非常多的業界合作,讓合作夥伴們能夠使用他們的大模型在大裝置上做訓練,這體現了商湯的深厚積累,不管是在資源層面還是在專家工程認知層面,我們的能力一部分可以标準化,變成軟件和服務,不能标準化的部分,我們可以把它變成專業類型分類服務,我們希望把這些能力打包提供給整個行業,幫助客戶做好屬于自己的領域模型或模型應用。
訓 AI 大模型,用商湯大裝置。
整理|沈筱