美國國家工程院外籍院士沈向洋(圖片來源:IDEA)
11 月 22 日舉行的 2024 年 IDEA 大會上,IDEA 研究院創院理事長、美國國家工程院外籍院士沈向洋以 " 從技術突破到産業融合 " 爲主題發表演講,其對人工智能 " 三件套 "(算力、算法、數據)的最新思考。
沈向洋指出,在技術大爆發時期開展創新,對技術的深度理解尤爲重要。他認爲,從算力來看,未來十年 AI 的發展可能需要增長 100 萬倍的算力,遠超摩爾定律預言的 100 倍增長,而英偉達成爲了 AI 行業最了不起、最成功的一家公司。
根據 EPOCH AI 的數據,每年最新的大模型對算力的需求都在以驚人的速度增長,年均增長率超過四倍(400%)。截至目前,全球已經 " 燒掉 " 了超過 1000 萬張 GPU 算力卡。
" 英偉達硬生生把自己從自己從做硬件、芯片的乙方變成了甲方,今天能拿得到英偉達的卡就可以說是成功了一半。" 沈向洋稱," 講(GPU)卡傷感情,沒卡沒感情。"
沈向洋現場透露,明天黃仁勳會到香港科技大學接受榮譽博士學位的授予,而他準備現在和黃仁勳讨論一些關于技術、領導力和創業的故事,特别是在針對算力發展的問題,探讨未來十年還會不會像過去十年那樣能夠達到 100 萬倍的增長。
會後,沈向洋還向钛媒體 App 透露,Scaling Law(尺度定律)放緩的原因是 GPT-5 還沒發布,背後主要與數據相關。
據悉,粵港澳大灣區數字經濟研究院(International Digital Economy Academy,簡稱 "IDEA 研究院 ")于 2020 年由微軟公司原全球執行副總裁、美國國家工程院外籍院士沈向洋創建,是一家面向 AI 和數字經濟産業和前沿科技的國際化創新型研究機構。
IDEA 研究院緻力于 AI 和數字經濟領域前沿研究與産業落地。目前該院包括低空經濟研究中心、計算機視覺與機器人研究中心、AI 金融與深度學習研究中心、基礎軟件中心、AI 安全普惠系統研究中心等。
此次,IDEA 發布視覺、具身智能、合成數據、AI for Science、AI for Coding、低空經濟等多個領域的新技術和新模型的前沿研究與産業落地成果,實現 AI 從技術突破到産業融合。
視覺大模型:IDEA 團隊本次大會發布了該系列最新的 DINO-X 通用視覺大模型,擁有真正的物體級别理解能力,實現開放世界(Open-world)目标檢測,無需用戶提示,直接檢測萬物。在零樣本評估設置中,DINO-X Pro 在業界公認的 LVIS-minival 數據集上取得了 59.7% 的 AP,在 LVIS-val 數據集上,DINO-X Pro 也表現亮眼,取得了 52.4% 的 AP。具體到 LVIS-minival 數據集上的各個長尾類别評估中,DINO-X Pro 在稀有類别上取得了 63.3% 的 AP(比 Grounding DINO 1.5 Pro 還要高出 7.2%),在常見類别上取得了 61.7% 的 AP,在頻繁類别上取得了 57.5% 的 AP。 行業平台架構:IDEA 團隊還推出行業平台架構,通過一個大模型基座,結合通用識别技術結合,讓模型不需重新訓練,就可邊用邊學,支撐多種多樣的 B 端應用需求。 具身智能:IDEA 研究院此次便一連宣布三個合作:與騰訊合作,在深圳福田區、河套深港科技創新合作區落地建設福田實驗室,聚焦人居環境具身智能技術;與美團合作,探索無人機視覺智能技術;與比亞迪合作,拓展工業化機器人智能應用。 合成數據:IDEA 團隊自研了語境圖譜技術,解決過往文本數據合成方案的多樣性匮乏等問題。該技術爲合成數據引入 " 指導手冊 ",以圖譜爲綱,指導用于合成的語境采樣。實驗結果顯示,IDEA 團隊的方案能持續爲大模型帶來能力提升,表現超過目前的最佳實踐(SOTA);從 token 消耗來看,平均節約成本 85.7%。目前,該技術内測平台已開放,通過 API 提供服務。 AI for Science:在預測方面,IDEA 研發了多個化學領域專家大模型,分子屬性預測和化學反應預測能力均處業界領先水平;在數據方面,IDEA 開發了化學文獻多模态大模型,聯合晶泰科技發布專利數據挖掘平台 PatSight,将藥物領域的專利化合物數據挖掘時間,從數周縮短至 1 小時。 AI for Coding(編程語言):IDEA 研究院的 MoonBit 團隊展示了其開發平台強大的 AI for coding 體驗。MoonBit 是專爲雲計算與邊緣計算設計的 AI 雲原生編程語言及工具鏈,已具備完備的多後端支持和跨平台能力,可在硬件上直接運行,支持 RISC-V。MoonBit 的開源開發平台,将于 12 月正式開放。 低空經濟:IDEA 推出低空管理與服務操作系統 OpenSILAS 1.0 Alpha 版,還攜手 17 家産業夥伴發起 OpenSILAS 創新聯合體,以及《低空經濟白皮書 3.0》低空安全體系的發布等。
此外,IDEA 還展示包括學術大模型和 AI 科研神器 ReadPaper、營銷創作大模型,以及面向經濟與金融領域的經濟大模型、運籌決策大模型、投資大模型等多款新 AI 技術與産品。
沈向洋表示,在過去所有廣受歡迎的編程語言中,還沒有一個是由中國開發者創造的,而如今,AI 時代也必将催生新的編程範式,中國開發者将會起到關鍵作用。
"ChatGPT 展示了一種新的可能:當技術突破達到一定程度,可以跳過傳統的産品市場匹配 ( PMF ) 過程,直接實現技術市場匹配 ( TMF ) 。" 沈向洋表示,如果 GPT-5 問世,按照其估計,可能需要 200T(200 萬億)規模的數據。
沈向洋強調,AI 正在改變科研方式。從 " 确定方向 "(ARCH)到 " 選擇課題 "(Search),再到 " 深入研究 "(Research),每個環節都将被重塑。今天 o1 不僅可以做數據、做編程,還可以做物理、做化學等。
" 我覺得接下來這幾年,算法沿着 SRL(強化學習)這條道路走下去,一定會有令人驚豔的全新突破。" 沈向洋表示。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)
以下是沈向洋演講的主要内容,钛媒體 AGI 編輯精心整理了其中精彩部分:
今天是 IDEA 研究院在深圳舉辦的第四屆 IDEA 大會。
回顧發展曆程,三年前的第一屆大會上,IDEA 首次向公衆展示了研究院的工作成果。在第二屆大會上,我們邀請了李澤湘教授、徐揚生教授、高文教授等學界翹楚進行深入對話。大家開玩笑講地我們四個人叫做深圳 F4。
值得一提的是,這些學者都是我 90 年代初赴美留學時最早結識的中國學者。三十年後我們能在深圳重聚,恰恰印證了深圳作爲創新創業熱土的獨特魅力。
經過四年發展,IDEA 研究院已發展成擁有 7 個研究中心、約 450 名員工的科研機構。我們選擇這些員工,雙向選擇的過程中我們強調這樣的理念," 科學家頭腦、企業家素質、創業者精神 "。來到深圳、來到福田、來到 IDEA 都是想幹一番事業。
過去幾年,人工智能的蓬勃發展讓整個行業充滿憧憬和期待。在人工智能發展進程中," 算力、算法、數據 " 這三件套始終是核心要素。接下來,我将從這三個方面,詳細分享自己的觀察和思考。
首先從算力說起。
作爲計算機領域的從業者,我們一直見證着整個計算行業過去 40、50 年來算力的不斷提升。早期有著名的 " 摩爾定律 ",英特爾提出每 18 個月算力增長一倍。
但在過去十幾年,随着人工智能,特别是深度學習的發展,對算力的需求呈現出前所未有的增長态勢。
根據 EPOCH AI 的數據,每年最新的大模型對算力的需求都在以驚人的速度增長,年均增長率超過四倍。
這個數字意味着什麽?如果按照這個增長速度,十年間算力需求的增長将達到驚人的 100 萬倍。相比之下,傳統的摩爾定律下 18 個月翻一倍的增長,十年也不過是 100 倍的增長。
算力是關鍵,算力就是生産力。爲什麽這樣講?過去十幾年可以毫不誇張的講,IT 行業、人工智能行業最了不起的一家公司、最成功的一家公司,不管從哪個角度看就是 NVIDIA 英偉達。
英偉達已經從一家單純的硬件芯片供應商,轉變爲整個行業的核心支柱。現在行業裏流傳着這樣一句話:英偉達硬生生把自己從做硬件、芯片的乙方公司做成了甲方,而今天拿得到英偉達的卡,那你就成功了一半。
讓我們看看具體的數據:2023 年英偉達最新産品 H100 的出貨量持續攀升,各大公司争相采購。包括馬斯克最近就部署了一個擁有 10 萬張 H100 卡的大規模集群。到 2024 年爲止,微軟、谷歌、亞馬遜等科技巨頭都在大量采購 H100 芯片。
爲什麽需要如此龐大的算力?這與大模型的發展密不可分。
Scaling Law 告訴我們,大模型不僅參數量巨大(從百億到千億,再到萬億參數),而且訓練所需的數據量也在不斷增長。更關鍵的是,要提升模型性能,對算力的需求會随參數量呈平方關系增長。這就解釋了爲什麽過去十年英偉達的市值能夠增長 300 倍,也說明了 " 算力就是生産力 " 這一論斷的深刻含義。
一旦這麽大的參數以後,要能訓練這樣的模型,數據量也要增長,某種意義上來講,要把性能提升,對算力的需求呈跟參數的平方關系,這對整個算力的需求是非常龐大。
過去這一年來我經常講的一句話," 講卡傷感情,沒卡沒感情 "。
前不久我在上海演講的時候台下有位大學校長,各位老師要對校長表示同情,校長也不好當。老師說你給我 100 張卡,我可以做些科研,給你 100 張卡,校長幾千萬就沒有了。
在人才招聘方面,算力資源已經成爲一個重要指标。有些企業會以 " 千卡人才 "、" 百卡人才 " 來形容人才規模,真正頂尖的甚至被稱爲 " 萬卡人才 "。IDEA 研究院已經擁有了千張卡的算力儲備,在深圳算得上是 " 小土豪 " 級别的規模。
這也解釋了爲什麽過去十年英偉達的市值漲了 300 倍,這是不可想象的事情,
這種算力需求的變革被業界稱爲從 " 摩爾定律 " 到 " 黃氏定律 " 的轉變。黃氏定律不僅體現在硬件算力的增長上,更重要的是反映了模型訓練對算力需求的指數級增長。未來十年的算力需求是否會繼續保持如此驚人的增長速度,這個問題值得我們持續關注和思考。
之前我在大灣區論壇也是提到過去十年算力的增長 100 萬倍,有一篇文章寫的不準确,他說沈向洋講,未來十年算力的需求會有 100 萬倍的增長。其實我并沒有這樣講,我也不是看得很清楚,接下來十年的算力需求是不是會增長 100 萬倍。
明天中午我在香港有機會請教黃仁勳博士,黃仁勳博士到香港科技大學接受榮譽博士學位,之後會和我做一個對談,講技術、領導力、創業的故事。我明天有機會想請教他一下未來十年的發展會不會有 100 萬倍的增長。
其次是算法。
在算法方面,自 2017 年 Transformer 架構問世以來,人工智能、深度學習和大模型的發展基本上都是沿着這個方向,通過堆數據和算力來推進。但在 GPT-4 之後,我們看到了算法範式的新突破。特别是 OpenAI 推出的新技術,包括多模态的 GPT-4V 以及最新的 o1 推理學習能力,展現了算法創新的新方向。
令人欣喜的是,近幾個月來,國内也有一些公司,包括初創企業在 o1 這個方向上取得了顯著進展。
這裏我想詳細介紹一下算法突破的思路。在 o1 出現之前,大家談論的都是 GPT 系列,所有的工作都集中在預訓練上,核心任務就是預測 " 下一個 token"。其中很重要的技術背景是對所有數據進行高效壓縮,使模型能夠快速給出答案,實現 " 一問即答 "。
而現在的範式變革引入了強化學習(Reinforcement Learning)的理念,模型具備了自我改善的能力。這種新方法的特點在于,它更接近人類的思考方式。不同于之前的快速思考模式,現在的模型在給出答案時會經曆後訓練、後推理的過程。這就像學生在解數學題時會先打草稿,驗證一條路徑是否正确,如果不對就回退嘗試另一條路徑。
雖然強化學習本身并不是一個新概念——比如幾年前 AlphaGo 就使用強化學習打敗了圍棋世界冠軍——但今天的創新在于它的通用性。過去的強化學習系統往往隻能解決單一問題,而像 o1 這樣的新系統可以同時處理數據分析、編程、物理、化學等多個領域的問題。我認爲,在未來幾年,沿着 Self-Reinforcement Learning ( SRL ) 這條道路,我們将看到更多令人驚豔的突破,期待 IDEA 研究院和國内的研究人員能在這個方向上有更多的思考和創新。
最後是數據。
在讨論數據之前,我已經提到,大模型的蓬勃發展不僅依賴于參數規模的增長,還需要海量數據的支持。讓我和大家分享一些關于數據規模的具體數據。
三年前 GPT-3 發布時,使用了 2Trillion(2 萬億)的 token 數據。到了 GPT-4 時代,模型訓練使用的數據量增加到了 12T,在不斷訓練過程中可能達到了 20T。這個規模大緻相當于目前互聯網上可獲取的優質數據總量。而未來如果 GPT-5 問世,按照我的估計,可能需要 200T 規模的數據。
但問題在于,互聯網上已經很難找到如此龐大的優質數據。這就引出了一個新的研究方向:合成數據。
爲了讓大家對這些數據規模有更直觀的認識,我舉幾個例子:1 萬億 token 的數據量大約相當于 500 萬本書,或 20 萬張高清照片,或 500 萬篇論文。從人類曆史的角度來看,至今爲止創造的所有書籍大約包含 21 億 token,微博上有 38 億 token,而 Facebook 上約有 140T 的數據。不過社交媒體上的數據質量普遍不夠高,真正有價值的内容相對有限。
從個人維度來看,一個人讀完大學,真正學到的知識量大約是 0.00018T,相當于 1000 本書的内容。如果覺得自己還沒讀到這個量級,也許現在開始該多讀些書了。
有趣的是,ChatGPT 等 AI 模型的訓練數據主要來自互聯網。回顧互聯網發展的 40 年,人們熱衷于在網上分享信息,現在看來,似乎是在爲 GPT 的訓練做準備。AI 之所以如此智能,很大程度上得益于我們貢獻的數據。這其中還有一個值得注意的現象:無論訓練哪種語言的 AI 模型,底層的高質量數據主要是英文的。這意味着在 AI 時代,英語的重要性可能會進一步加強,就像互聯網時代一樣。
既然網上的數據已接近極限,AI 的進一步發展就需要依靠合成數據,這可能催生新的百億美元級創業機會。
與 GPT 系列主要使用互聯網文本數據不同,新一代模型(如 o1)需要更強的邏輯性,這些數據在網上往往找不到。比如在編程領域,我們需要知道具體的步驟是如何一步步完成的。在 IDEA 研究院,在郭院長的帶領下,我們開展了高質量訓練數據的項目,爲大模型持續提供新的 " 養分 "。
我們的合成數據方法并非盲目生成,而是建立在嚴謹的方法論基礎上。我們首先建立語境圖譜,在此基礎上進行數據合成。這些合成數據經過大模型預訓練後,已經展現出很好的效果。
除此之外,我們還在探索另一個維度的問題:私域數據安全孤島。由于數據安全考慮,許多私域數據無法直接共享使用。爲此,我們開發了 IDEA Data Maker,将這兩個方面結合起來,通過語境圖譜生成新的語料,解決過往文本數據合成方案的多樣性匮乏等問題。該技術爲合成數據引入 " 指導手冊 ",以圖譜爲綱,指導用于合成的語境采樣。實驗結果顯示,IDEA 團隊的方案能持續爲大模型帶來能力提升,表現超過目前的最佳實踐(SOTA)模型;從 token 消耗來看,平均節約成本 85.7%。目前,該技術内測平台已開放,通過 API 提供服務。
在讨論了 AI " 三件套 " 之後,我想分享 IDEA 研究院近一年來的思考和實踐。特别是大模型蓬勃發展給我們帶來的機遇。
講大模型之前我講一下最近的學習體會,ChatGPT 出來了以後令大家非常震撼。ChatGPT 這個産品出來,本來隻是幾個技術的演示,它出來以後兩個月的時間全球 1 億用戶,成爲了不起的現象。
這種現象打破了我們對産品發展的傳統認知。在互聯網時代,我們常說 PMF(Product-Market Fit,産品市場匹配)。對這個概念的理解,我多次請教過美團的王慧文,在清華的一堂課上,他專門講解了 PMF 的内涵。
但 ChatGPT 的成功告訴我們,它實際上跳過了 PMF 的過程,直接實現了 TMF(Technology-Market Fit,技術市場匹配)。當技術發展到一定程度,就可能實現這樣的跨越式突破。
在 IDEA,我們天天在追求一些極緻的技術,也在思考:如果有技術出來,是否可以一步到位?這當然是我們的期望,我們一直在朝這個方向努力。
順着 TMF 的思路,我想講一個最近我們特别關注的方向:計算機編程語言。作爲一個學習計算機的人,我自己就編寫過十幾種不同的編程語言,在不同的階段做不同的項目時都會用到它們。
在這裏我想提出一個重要觀點:縱觀全球,有那麽多的編程語言,包括小語言、大語言、中型語言,但基本上沒有一個被廣泛使用的語言是由中國人發明、中國人創造的。這種現象是有機會改變的。
讓我給大家舉幾個例子,說明什麽是現象級的語言。
在過去七八十年的計算機科學發展曆程中,出現過的現象級語言不超過十個。這裏的 " 現象級 " 是指至少有幾百萬、上千萬用戶在使用這個語言編程。比如早期的 Fortran,當時是和 IBM 大型機綁定的,做三角計算都要用 Fortran 語言。70 年代出現的 C 語言,是與 Unix 操作系統緊密相連的,甚至可以說 Unix 系統就是用 C 語言構建的。到了 90 年代互聯網興起時,我師兄開發的 Java 語言被大量程序員采用,主要用于開發 Web 服務器。而在過去十幾年,Python 因爲在科學計算方面的便利性,特别是在雲計算平台上的廣泛應用,成爲主流語言。如果你問問自己的孩子在學什麽編程語言,大概率會是 Python。
那麽,在今天的大模型時代,會不會出現新的現象級語言?這個問題不是隻有我一個人在思考。比如,GitHub Copilot 的創始人 Alex Graveley 就指出,AI 編程還沒有形成新的編程語言範式。編程語言是最根本的技術創新方向之一。
有了語言之後,就需要探索大模型的技術創新方向。在大模型能力已經達到新高度的今天,一個關鍵問題是:我們如何将這種能力轉化爲實際應用?在哪些場景中可以發揮其最大價值?
在所有的應用方向中,我特别要強調 AI For Science(科學智能)的重要性。可以說,在當前階段,很難想象有什麽比 AI For Science 更重要的方向。如果我們要做人工智能研究,一方面要全力推動大模型技術的落地,另一方面也要關注它在科學研究中的應用。
這讓我想起二十多年前在微軟亞洲研究院做過一個關于如何做科研、如何做學問的報告。我把科研工作分成了三個不同的層次:ARCH(确定方向)、Search(選擇課題)、Research(深入研究,一而再再而三地探索)。現在,我們希望 IDEA 的工作能爲中國的科研人員、年輕學生在做科研時提供更好的支持。
事實上,人工智能的發展正在對社會産生深遠的影響。這個問題太重要了,需要我們認真思考。我們今天要讨論的是 AI 治理問題,包括它對民衆的沖擊、對公司的沖擊、對監管的沖擊、對社會發展的沖擊。
人工智能的影響究竟是如何發生的?八年前,人們還在讨論社交媒體的影響,而今天我們必須要讨論人工智能的影響。
過去十幾年的發展令人震驚:人類引以爲傲的能力正在一個個被 AI 超越。下象棋、下圍棋就不必多說,現在 AI 在閱讀理解、圖像識别和檢測等領域的能力都已經逐步超越人類。
更令人震撼的是,這些能力的提升已經不是單點突破,而是通用人工智能整體能力的提升,這使得人工智能對社會的影響變得異常深遠。
現在,全球範圍内都在讨論 AI 治理問題。我有幸在今年上海人工智能大會上與我的導師瑞迪教授、布盧姆教授和姚期智教授一起讨論這個議題。
從社會發展的角度來看,我們習慣用 GDP 來衡量發展水平。但 GDP 這個概念其實是很新的。在農業社會之前,根本不存在 GDP 增長的概念,因爲人們連溫飽都難以解決。農業社會發展後,人們有了剩餘産能,但 GDP 年均增長仍然隻有 0.1% 至 0.2%。到了工業社會,這個數字提升到 1% 至 2%。信息社會的 GDP 年均增長達到了 3%、4%,這裏說的都是全球的大緻數字。
那麽,在接下來 AI 社會的發展,會發生什麽?一些經濟學家預測,随着人工智能數量超過人類數量,機器人數量急劇增加,生産效率将獲得巨大提升。在這樣的 AI 世界中,GDP 年均增長可能達到十幾個百分點。
這樣的增長給社會帶來的問題是什麽?我想問的一句話是 AI 的發展,從經濟最大的增長能不能轉化到人類的最大福祉?這是爲什麽在座的,在 IDEA 研究院從事技術研發的同事,産業落地這些同事在人工智能發展的道路上是必須要去思考的問題。
謝謝大家!期待明年再見。