當人們紛紛猜測,GPT-4 的參數量,将會在 GPT-3 的 1750 億參數的基礎上如何再增加時,OpenAI 選擇了不公布。這種期待也反應出了一種普遍認知:随着參數量級的增加,模型的能力會再次躍升。
「今天我們衡量一個模型能力的時候,不能夠簡單來看模型的參數量,而是在以有限的計算量的前提下,來分配資源給參數或者是訓練的數據。」4 月 10 日商湯的科技交流會上,CEO 徐立在開場給出了自己的觀點。
這場爲時長一個半小時的發布會上,大部分的時間用于實時演示。跟随着在舞台一側、連接大屏幕的電腦,觀衆看到了商湯大模型,用于多輪對話、文本和圖像生成、3D 視覺生成、以及實時互動的各項能力。
大模型是計算「暴力美學」的勝利,描述模型的能力,需要用到參數規模和訓練的數據集。商湯認爲,大模型的參數量乘以處理的數據量,就能得到模型的計算量。「未來讨論大模型,希望大家讨論的是它的計算量,這才是它的能力。」
紮進人工智能領域 9 年,見證了深度學習到大模型時代更替,商湯也以這場技術交流會,展示了自己将擁抱大模型,并提供全面服務的姿态。
這既包括在通用大模型上的持續推進,也包括結合已有的場景、數據、算力設施優勢,推進大模型的行業應用。商湯認爲,多模态大模型的下一步,将是通用人工智能,「我們也會将 AGI 作爲核心的發展目标,在未來幾年持續推動大模型和 AGI 技術的突破。」徐立說。
01 日日新大模型體系
在技術交流會上,商湯科技董事長兼 CEO 徐立發布了「日日新 SenseNova」大模型體系,分别展示了在自然語言生成、圖片視頻内容生成、3D 建模實時交互上的能力。
之所起名爲「日日新」,是寓指大模型通過數據閉環,不斷提升能力。「這代表人工智能大模型,在以周爲單位的數據輸入上,可以日日更新,能力日日增強。」
商湯 CEO 徐立介紹「日日新 sensenova」大模型體系
技術路線圖顯示,商湯在 2019 年開始探索大模型,訓練了 10 億參數級别的視覺大模型,到了 2022 年,已經訓練了 320 億參數級别的大模型。
前不久的 3 月,商湯開源了有 30 億參數的書生 2.5 多模态大模型。在架構上,運用兼容解碼的 Uni- Perceiver 架構。這是爲了将圖像、視頻、語言不同模态的信息,以同一種方式在一個空間進行編碼。這樣的設計也體現了商湯對未來模型發展的思考,希望能夠以一個更強大的底層模型,兼容不同的下遊任務。
此次的「日日新 SenseNova」大模型體系不同場景的演示,也展示了商湯較爲全面的技術積累。
自研語言大模型「商量」
作爲商湯自研的中文語言大模型應用平台,「商量」具有語言理解、生成能力,現場演示了不同場景、領域的應用。
在文字創作方面,通過多輪對話,「商量」能夠按要求生成宣傳語,并在此基礎上寫作新産品邀請函;而通過對話引導,它也能夠輔助寫作适合兒童閱讀的童話故事。此外,「商量」也具有處理長文本的能力,能夠閱讀 PDF 後,回答用戶提出的針對性問題。
除了基本的語言模型,發布會現場還展示了基于語言能力的兩個擴展場景:編碼能力、以及基于醫學專業知識的對話咨詢。徐立表示,「商量」接入了自然語言編程的能力後,80% 的代碼可以通過提示詞生成,人工手寫的部分隻剩下 20%。此外,使用某個垂直領域的公司代碼進行微調後,即能夠幫助公司内部的程序員共享編程經驗,增加開發能力。商湯内部實測顯示,使用了編程工具後,代碼的編寫效率提升了 62%。
文生圖大模型「秒畫」
AI 作畫的能力已經成爲大模型的「标配」,發布會現場展示了基于一長串的修飾詞的 Prompt 生成圖片的能力。修改 Prompt 裏的個别描述短語(比如「穿西裝」改爲「穿漢服」),模型能夠快速生成與之相匹配的圖片。
除此之外,「秒畫」還支持用戶上傳 20 張圖片,供模型學習風格。在現場的演示中,工作人員上傳了 20 張「港風」的明星圖片,幾分鍾後,學習完成,模型就能夠學會生成具有「港風」的人像。
數字人生成平台「如影」
基于「如影」平台,用戶上傳一段符合要求的視頻,即可生成自己的孿生數字人,并在此基礎上使用平台的工具,生成想要的背景圖片、文字段落、以及根據文字生成語音,最終集成爲一段數字人做演示的短視頻。
在現場展示中,工作人員讓 AI 生成一段介紹絲綢之路的文字,再分别翻譯爲英語、阿拉伯語兩種不同的文字,讓數字人分别用對應的語言進行介紹。
3D 内容生成平台「瓊宇」與「格物」
在 3D 建模的生成領域,商湯分别展示了城市空間、建築、園區的生成平台「瓊宇」,與對普通物品掃描後進行 3D 建模的「格物」。
基于這兩個平台,以及「如影」的數字人平台的綜合能力,能夠實現人、物、場的便捷編輯創作。徐立介紹,要實現便捷的編輯能力,難點在于實現實時的渲染。這一能力能夠應用到遊戲設計、空間效果的創意設計、虛拟人直播等領域。
02 從「小模型」到「大模型」,帶來研發體系變革
從 2018 年谷歌的 Bert、GPT-1 先後誕生,大模型的技術路線便初露雛形。到了 2022 年底,ChatGPT 這樣的現象級産品,正式标志了人工智能大模型的産業時代來臨。「AI2.0 時代的平台式變革」、「AI 的 IPhone 時刻」、「不亞于 PC 和互聯網的誕生」,人們用不同的方式去形容這一時刻。
大模型突破了以往深度神經網絡處理個别任務的性能天花闆。在到達了百億參數級别後,模型在處理任務的表現上出現了明顯突破;其次,一個底層的通用模型,具備了泛化能力,在不同的任務上都有出色的表現。
通用人工智能大模型帶來了人工智能範式的變化,商湯科技聯合創始人、首席科學家王曉剛表示,在這個時間點上,「也帶來商湯自身研發體系的變革」。
在過去,AI 落地的方式是「小模型 + 場景」,這種形式下,針對每個不同的場景,都會訓練一個專用的模型。這就導緻了成千上萬個模型散落在不同的長尾場景中,研發成本高,周期長,每解決一個新問題,就需要訓練新的模型。
以輔助駕駛系統的爲例,在「學校區域」指示牌前需要減速這個指令的執行,每一個環節都是一個針對子任務的專用模型進行執行。首先需要經過「物體檢測」識别指示牌;其次需要通過「文字識别」理解指示牌的文字内容;最後通過「決策模型」進行決策,确定減速。
當有了大模型的多模态和思維鏈能力後,給定圖片後,隻需要輸入「這個圖标是什麽意思?我們應該做什麽?」大模型就能夠根據已有的信息進行推理,作出将降低車速的決定。這也是 GPT-4 最新展現出的基于多模态信息的推理能力。
「大模型出現後,可以不斷的去解鎖這個模型新的功能,以極低的成本,非常高效的方式去不斷的去解決各個領域裏面新出現的各種開放性的任務。」王曉剛介紹。
除了以更高效的方式解決問題,大模型還能夠帶來系統能力的提升。商湯科技聯合創始人、大裝置事業群副總裁陳宇恒介紹,視覺大模型能夠解決小模型時代自動駕駛中 Corner Case 的痛點。以往的模型會在吸收新的 Corner Case 的時候遺忘更早期的數據,而大模型的學習能力能夠解決數據遺忘的問題。
因此,大模型可以通過數據驅動、參數規模不斷突破性能,而在實際應用中,可以通過知識蒸餾等方法,以小模型的方式,将大模型的能力部署到車輛或者其他端側,實現高性價比的方案。
商湯首席科學家王曉剛介紹數據标注服務
商湯的技術強項是計算機視覺,通過預訓練大模型,也能夠更有效地做圖像數據的預标注和篩選。「可以快速地解決原來海量的數據回流後的數據預篩選和标注的問題。」相關的标注效率能夠提升 4 倍以上。
王曉剛稱,比此前人工智能産業化面臨的問題「周期長、落地成本比較高」,而大模型的出現将爲行業帶來新的轉機,「能夠以一個模型去解決各個場景裏面的這些問題,會極大的推廣各個領域的應用。」
03 大裝置 + 大模型,AI 服務的延伸
大模型需要在多張卡上實現超大規模并行計算,這就涉及到分布式計算的工程實現和算力調配等關鍵能力。
這次的技術交流日,在上海的臨港 AI 大裝置進行。這也是 2022 年初正式啓動的「商湯人工智能計算中心」。目前是亞洲最大的智算平台之一。這也是商湯大模型體系所展示的多項能力的算力基礎。
商湯介紹,目前大裝置擁有超過 27000 張 GPU 卡,可以輸出 5000PetaFlops 的算力。大模型的基礎條件是算力資源,ChatGPT 依托微軟的智算集群,才能實現暴力計算後的優異結果。而爲了更好地服務大模型的訓練,微軟也專門爲其打造了基礎設施。「去造超級 AI 計算機去完成任務,訓練人工智能大模型,我認爲是工程的奇迹。」陳恒宇表示。
在多卡的并行計算上,商湯很早就開始探索。在 2018 年,商湯就探索了 1000 塊 GPU 的并行計算能力。目前,大裝置能夠最大以 4000 卡的規模集群進行單任務訓練,并且可以做到七天以上的不間斷穩定訓練。陳宇恒介紹,這背後有兩個方面的技術難點。
首先,要保證多卡并聯的計算效率。這需要「通過一個很好的系統架構和網絡架構設計,把這麽多 GPU 高效地連接起來去做通訊,使它們可以有非常高的并行效率」。目前,商湯在千卡級也能夠達到 90% 以上的線性度。這意味着 GPU 規模增加的情況下,單卡性能依舊發揮出色。
其次,要實現長時間、無故障的運行時間。用 100 張卡去做聯合訓練的情況下,每天會有 0.1 張卡的故障。随着集群增加,故障的卡數就會随之增長。因此,大規模的 GPU 運算需要解決硬件的可靠性、軟件的容錯度,這在分布式系統的設計上和軟件框架的設計上,提出了很大的挑戰。
「商湯得益于過去的經驗,在這兩方面也有很好的技術積累。」陳宇恒表示。
在 2022 年,大裝置除了支持自己的大模型體系訓練,商湯已經作爲算力服務方,服務了其他 8 家客戶的大模型訓練。王曉剛表示,商湯的特殊之處在于,這些年一直将自己作爲「人工智能的平台型的公司」,投入了很大的資源進行基礎設施建設。
大模型能力是在原有算力能力上新的疊加層。「商湯沒有雲,其實是個誤解。」陳恒宇表示,商湯一直對外提供 AI 原生的算力、存儲網絡、軟件等不同的服務。
生成式 AI 大火後,商湯也提供大模型的訓練、推理、數據管理,以及基于「日日新」大模型體系的 API 服務,甚至是提升生産效率的整套工具鏈,讓政府和行業客戶去高效地開發人工智能大模型。