智東西(公衆号:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西 3 月 1 日報道,昨日,北京智源人工智能研究院(簡稱 " 智源研究院 ")發布 FlagOpen(飛智)大模型技術開源體系,旨在打造全面支撐大模型技術發展的開源算法體系和一站式基礎軟件平台,支持協同創新和開放競争,共建共享大模型時代的 " 新 Linux" 開源開放生态。
智源研究院院長黃鐵軍在緻辭中分享說,移動互聯網時代隻有封閉生态 iOS 和準封閉生态安卓,在智能時代的選項已經很清楚——真正的開源開放生态,是唯一的出路。
" 智能時代需要真開源,不是安卓那樣的利用開源,不是某一企業控制的開源,而是完全在開源社區發展的大家的開源,就像 Linux、RISC-V 和 2022 年完全轉入開源社區的 PyTorch。" 他認爲," 大模型時代需要這樣的開源,也隻有這樣的開源體系,成爲哺育智能之樹蓬勃生長的大地母親。"
LF AI&DATA 基金會董事主席、華爲計算開源業務總經理堵俊平也談道,AI 研發特性建立在 " 充分協同 " 之上的創新,具有高度全球化、數據集、人才密集等特性以及周期長、投入高、風險高、落地門檻高等挑戰,因此開源可發揮關鍵作用。" 未來,大模型領域一定會出現類似 Linux 的開源生态體系,開源開放加速 AI 技術創新。"
今日發布的 FlagOpen(飛智)大模型技術開源體系,包括集大模型算法和工具爲一體的大模型算法開源項目 FlagAI、面向 AI 異構芯片的 AI 系統性能評測開源項目 FlagPerf、大模型評測開源系統 FlagEval、數據工具開源項目 FlagData、基于大模型技術的 AIGC 應用 FlagStudio、AI 應用微服務框架開源項目 FlagBoot 等。
FlagOpen 開源平台入口: https://flagopen.baai.ac.cn
GitHub 地址:https://github.com/Flag-Open/FlagAI
會上,智源研究院還宣布開放中文世界首個開放數據标注平台 OpenLabel,并與 CSDN 合作啓動 " 數據飛輪 " 開放數據互助公益計劃,旨在建設動态開放的重要大型數據集,爲大模型、AIGC 發展創建豐富權威的大模型訓練數據來源。
爲了推動優秀大模型技術人才培養,智源研究院與中國移動研究院、中科曙光、國家先進計算太原中心合作,與多所頂尖高校聯動,面向交叉學科背景學生與相關領域學者推出大模型前沿訓練營,通過舉辦系列人工智能前沿公開課、創新應用大賽與前沿講習班,爲大模型技術研究和産業發展培養具有實戰經驗的系統性人才。
FlagOpen 大模型技術開源體系已與中國移動、浪潮信息、昆侖芯科技、天數等多家知名企業達成生态合作,并将 FlagAI 開源工具部署在中國移動九天畢昇教育平台、浪潮 AI Station 等平台。
一、智力是智能時代公共産品,開源開放加速 AI 技術創新
北京市副市長于英傑和科技部高新司副司長梅建平出席工作會并緻辭。
于英傑副市長指出,智源研究院發布的 FlagOpen 大模型技術開源體系,是智源及上下遊生态合作機構聯合開展技術攻關的成果展現,爲大模型技術創新提供了 " 北京貢獻 "。
他對于大模型的發展提出了三點期望:一是要抓住大模型發展機會,保持定力,強化基礎,要聚焦源頭,創新底層技術,大力突破核心關鍵技術,搶占制高點;二是應用導向,推動大模型應用生态建設,要加快大模型創新應用開發及 API 服務開放,形成數據飛輪效應,發揮大模型的通用泛化能力,賦智經濟社會發展;三是科研機構、企業等要圍繞算法及技術研究、數據等加強協同創新,建立開源開放的合作生态。
梅建平副司長指出,面對大模型引發的人工智能技術範式變革趨勢,科技部從 2021 年開始超前布局大模型旗艦項目群,着力打造開源開放的大模型創新生态體系。" 人工智能基礎模型支撐平台與評測技術 " 旗艦項目是整個項目群的核心,由智源研究院聯合 30 多家産學研單位共同承擔。FlagOpen 大模型技術開源體系即是旗艦項目的階段性成果,将對我國大模型技術創新能力的提升提供重要支撐。
此外,他談道,爲滿足大模型發展所需的算力需求,科技部正在推動建設 " 國家公共算力平台 " 和 " 中國算力網 ",爲科技創新和産業智能化轉型提供普惠算力。科技部也将組織探索研究大模型的倫理治理問題,讓大模型技術趨利避害,更好地發揮前沿技術的賦能作用。
智源研究院院長黃鐵軍分享了關于 AI 基礎模型及應用生态的内容,AI 之争最終是生态之争,AI 生态包括基礎軟硬件、基礎模型、創新應用三個層次,而基礎模型是 AI 生态的 " 腰 ",AI 基礎模型向上支撐賦智經濟社會各類應用,向下帶動基礎軟硬件智算體系。我國智能應用具有獨特優勢,基礎軟硬件則相對薄弱。
▲智源研究院院長黃鐵軍
恰适以基礎模型爲橋梁,帶動 AI 基礎算法、雲邊端芯片和開源開放平台研發,構建自主可控的基礎軟硬件技術體系和彙融算力及數據資源的國家智算體系;打造 AI 基礎模型開源技術體系,助力産出規模和性能國際領先的模型,支撐應用創新和國際拓展。
自 18 世紀以來,每次技術革命都伴随着新的基礎設施建立和完善。在智能時代,算力和數據是生産要素,算法是工藝,智力是公共産品。在智能時代,大模型和基礎軟硬件都需要加快建立 AI 開源開放生态,走 "Linux+RISC-V" 之路。
智源研究院 2020 年搭建大模型攻關團隊,2021 年 6 月推出當時規模最大、性能領先多模态大模型 " 悟道 2.0"。爲了推動大模型方向的協同創新,在 " 科技創新 2030" 新一代人工智能重大科技項目支持下,2023 年初,智源研究院聯合 30 多家産學研單位共同承擔的旗艦項目 " 人工智能基礎模型支撐平台與評測技術 " 全面啓動。經 2 個月集中攻關,開發出 FlagOpen(飛智)大模型技術開源體系。
據介紹," 新一代人工智能 " 大模型旗艦項目采取 "1+X+Y" 項目群,"1" 即 AI 基礎模型支撐平台與評測技術,"X" 即通過 " 賽馬制 " 動态遴選一批關鍵技術項目,"Y" 即一批應用示範項目。
2023 年," 新一代人工智能 " 大模型旗艦項目立項支持了 8 項關鍵技術項目,今年将對這 8 項關鍵技術項目及所有願意參加協同創新的技術和算法組織公開公平的評測,遴選優秀算法和技術進入大模型開源體系,得到國家項目支持但貢獻小的團隊将被淘汰,未得到國家項目支持但貢獻大的團隊來年将優先得到支持。
未來三年,新一代人工智能 " 大模型旗艦項目将緻力于打造更強大的多種模态訓練及評測數據體系、最完整的大模型評測平台、領先的大模型技術開源體系(FlagOpen)。
二、FlagOpen:建設大模型領域的 "Linux"
智源研究院副院長兼總工程師林詠華在演講中談道,大模型 +AIGC 帶來了當前 AI 的可能拐點,大模型工業應用探索初見成效,AIGC 的成功需要大模型技術全棧的創新突破。
對此,智源研究院與多家企業、高校和科研機構共建的一站式、高質量的大模型開源開放軟件體系—— FlagOpen(飛智)大模型技術開源體系,包括大模型算法、模型、數據、工具、評測等重要組成部分,旨在建設大模型領域的 "Linux"。
基于 FlagOpen,國内外開發者可以快速開啓各種大模型的嘗試、開發和研究工作,企業可以低門檻進行大模型研發。同時,FlagOpen 大模型技術開源體系正逐步實現對多種深度學習框架、多種 AI 芯片的完整支持。
FlagOpen 将通過 Linux 基金會、啓智社區等開源組織,推動國内外開發者協同創新。通過開源開放方式,全球開發者可以自由探索、共同貢獻、協同創新。未來,FlagOpen 也将支撐全球 AI 企業、機構基于 FlagOpen 構建 AI 大模型軟件發行版本、平台、商業軟件等。
智源研究院發布 FlagOpen 飛智大模型技術開源體系,主要包括:
1、FlagAI:大模型算法、模型及工具一站式開源項目
FlagAI 項目提供了一站式領先、高質量的高效、易用、靈活的大模型算法與工具,旨在降低行業企業使用大模型的開發和應用門檻,提高大模型的開發效率。
該開源項目現涵蓋涉及語言、視覺、多模态等多種模态的 60 多個國内外主流開源基礎大模型,包括如語言大模型 OPT、T5,視覺大模型 ViT、Swin Transformer,多模态大模型 CLIP 等;以及大模型的各種優化工具,包括訓練并行、加速技術、高效壓縮、高效微調、推理加速等開發工具,可支撐大模型的多領域下遊任務。
智源研究院也持續将 " 悟道 " 大模型項目成果開源至 FlagAI,包括 " 悟道 2.0" 通用語言大模型 GLM," 悟道 3.0" 視覺預訓練大模型 EVA,視覺通用多任務模型 Painter,文生圖大模型 AltDiffusion(多語言),文圖表征預訓練大模型(多語言)、EVA-CLIP(英文),阿拉伯語大模型 ALM,百億語言基礎模型 CPM3 等。
目前,FlagAI 已經加入 Linux 基金會,吸引全球科研力量對大模型技術共同創新、共同貢獻。
項目地址:
https://github.com/FlagAI-Open/FlagAI
2、FlagPerf:面向多種 AI 硬件的一體化評測引擎
AI 硬件評測對 AI 生态有重要價值,但由于 AI 軟硬件技術棧異構程度高、兼容性差,應用場景複雜多變,給評測本身帶來了很多挑戰。當前業界缺少被廣泛認可的、中立的、開源開放的、針對異構芯片的評測體系。
面向 AI 異構加速系統,FlagPerf 提供了一套開箱即用的通用 Benchmark 平台,希望共同探索開源、開放、靈活、公正、客觀的 AI 硬件評測體系,建立支持多種深度學習框架、最新主流模型評測需求、易于 AI 芯片廠商插入底層支撐工具的 AI 系統評測生态,不以排名爲核心目标,而以提供行業價值、促進 AI 産業生态發展爲願景。
目前有多家單位參與共建或試用 FlagPerf,該項目已和天數智芯、百度 PaddlePaddle、昆侖芯科技、中國移動等深度合作,共同推進 AI 硬件評測建設。
項目地址:
https://github.com/FlagOpen/FlagPerf
3、FlagEval:多領域、多維度的基礎大模型評測開源項目
學術界一直缺乏能涵蓋多種模态領域、多種評測維度的統一化評測體系和項目。尤其在 AIGC 的發展浪潮下,如何對生成任務進行更高效、更客觀的評價,是阻礙大模型落地的重要制約。
智源研究院将聯合多個高校團隊,共同打造覆蓋多個模态領域、包含評測維度的評測工具 FlagEval,探索大模型自動評測技術,推動大模型技術創新和産業應用。
FlagEval 旨在打造一站式的科學、公正、開放的基礎模型評測基準及工具形成基礎模型評估新範式,首先開放近期備受關注的多模态領域 -CLIP 系列模型評測工具,支持多語言多任務、開箱即用。之後更多領域、更多維度的評測工具将陸續發布。
項目地址:
https://github.com/FlagOpen/FlagEval
4、FlagData:開箱即用、易于擴展的數據工具開源項目
随着大規模預訓練模型及相關技術不斷取得突破,在相應研究中使用高效數據處理工具提升數據質量變得日益重要。智源研究院長期投入數據建設工作,構建了全球最大 WuDaoCorpora 語料庫,同時開發了一批數據處理的高效工具。
FlagData 數據工具開源項目集成包含清洗、标注、壓縮、統計分析等功能在内的多個數據處理工具與算法,可實現從原始網頁到文本的清洗隐私、噪聲、安全性過濾,支持多種文本、圖片标注任務,助力提高數據處理效率。
項目地址:
https://github.com/FlagOpen/FlagData
5、FlagStudio:利用 AI 大模型支持藝術創作應用
FlagStudio 基于 AltDiffusion 和 AltDiffusion-m9 文生圖大模型提供中英雙語和 9 語(英語、中文、日語、法語、韓語、西班牙語、俄羅斯語、意大利語、阿拉伯語)文生圖能力,并提供微信小程序圖片快速生成入口,提供企業端 API 調用。
該開源項目提供多種預訓練模型,能夠大幅降低文生圖 prompt(提示詞)撰寫門檻,而且支持圖片局部修改,可提升文生圖算法的可控性,同時支持多模型快速切換和圖片快速生成。
爲促進人工智能與經濟社會發展深度融合,智源聯合多家單位開展大模型行業應用探索,主要有:聯合中國移動研究院建立 AI 基礎模型服務開放實驗室,面向行業應用場景的聽覺内容分析等領域進行大模型研究與應用;聯合浪潮信息建立大模型開源生态聯合實驗室,共同推動國産 AI 硬件底層軟件的完善;聯合中國電子雲建立大模型國産算力雲平台開放實驗室,探索國産 CPU 的大模型适配部署;聯合航天信息建立智慧政企人工智能開放實驗室,探索稅務、政務領域的模型能力調優、模型研發、算法研究等;聯合啓元世界建立認知決策大模型開放實驗室,探索 AI NPC、數字人 AI 等場景的大模型應用;聯合核桃科技建立國産 3D 圖形化 AI 編程平台開放實驗室,共同開展基于開源體系的國産化編程平台工具研發。
三、ChatGPT 相當于點亮一個街區,距離電服務進入千家萬戶還有很長的路
會後,智源研究院院長黃鐵軍、智源研究院副院長兼總工程師林詠華接受智東西等媒體的采訪。
林詠華告訴智東西,不同于 MLPerf 等基準測試網站,AI 硬件評測開源項目 FlagPerf 旨在解決硬件在産業落地困難的問題,降低芯片廠商和用戶企業爲建設評測體系而付出的大量成本,以促進更多芯片企業的成功。如果用戶企業想要做評測,直接下載這樣的開源軟件即可很方便地進行一體化評測。
此外,MLPerf 雖然定期公布新的評測榜單,但很少更新叠代評測集,難以跟上最新的大模型、AIGC 的系統評測需求。相比之下,FlagPerf 評測包中會第一時間将用戶企業關心的新 AI 應用,尤其是大模型應用納入其中,以對 AI 系統進行評測。
談及開源的考量,林詠華說,當前的 FlagOpen 還是處于初級階段。" 一方面,我們希望通過開源發布,讓更多企業和團隊可以更加便利、開放地進行創新合作,從現在開始,共同推進 FlagOpen 往前發展;二是幫助缺乏大模型開發經驗的團隊借助 FlagOpen,可以快速上手開展大模型的研發。"
▲智源研究院副院長兼總工程師林詠華
黃鐵軍談道,大模型不是一切,隻是露出海平面的冰山一角,ChatGPT 或大模型是将 AI 轉入全民應用的代表性産品,但遠非 AI 技術生态的全部。
他用電力打了個比方,現在 AI 相當于發展到有企業搭建了小型電網、服務一群用戶,做大模型隻是說明造出了發電機、可以發電,ChatGPT 相當于點亮了一個街區,但距離建設更大範圍的電網、讓電作爲服務進入千家萬戶還有很長的路。這個路背後就是大量的技術研究與創新合作。
他希望大家的關注焦點從海平面上的部分現象級應用或大模型産品回到底層技術體系和持續不斷的創新,從長遠考慮,打好根基,形成完整的大模型技術體系及強大的資源能力,未來才能産生更多的 "ChatGPT 級 " 的現場級應用。
FlagOpen 正是爲了建立大模型技術體系而開展的基礎性工作,通過開源開放的形式促進各類機構共創共享,形成良好生态,共同打牢大模型發展根基,未來将面向各類企業提供大模型相關技術服務,支撐各行業智能應用開發。
結語:開源開放,才能走向下一代人工智能
由于現有 AI 算法存在難以透徹理解的技術特性,開源開放方能推動 AI 基礎技術發揮最大效益,淘汰低水平重複項目,并加速成果轉化。
近年來,得益于底層基礎技術的創新突破,大模型發展成全球競争熱點,但從數據清洗到模型訓練、調參優化再到部署運營,每個環節都要消耗大量的資源和時間,高昂的開發和叠代成本,嚴重阻礙了下遊的推廣和應用,導緻大模型至今仍是少數人的 " 遊戲 "。
而 FlagOpen 大模型技術開源體系的推出,爲企業、高校團隊及科研機構提供了一個驗證大模型相關技術創新性、降低開發及應用門檻的平台,并将業界現有資源形成聚力,這将對加速構建模型技術創新體系和生态發展産生積極的影響。