北京制定通用人工智能創新措施：開展大模型創新算法及關鍵技術研究

多知網 5 月 16 日消息，據北京市政府網站消息，北京市科委、中關村管委會制定了《北京市促進通用人工智能創新發展的若幹措施 ( 2023-2025 年 ) ( 征求意見稿 ) 》，其中表示針對目前大模型訓練高質量中文語料占比過少，不利于中文語境表達及産業應用的問題，整合現有開源中文預訓練數據集和高質量互聯網中文數據并進行合規清洗。同時持續擴展高質量多模态數據來源，建設合規安全的中文、圖文對、音頻、視頻等大模型預訓練語料庫，通過北京國際大數據交易所社會數據專區進行定向有條件開放。

征求意見稿指出，将新增算力建設項目納入算力夥伴計劃，加快推動海澱區 " 北京人工智能公共算力平台 "，朝陽區 " 北京數字經濟算力中心 " 等項目建設。加快推動數據要素高水平開放的 " 國家數據基礎制度先行先試示範區 " 建設，争創國家級數據訓練基地，提升北京人工智能數據标注庫規模和質量。

在探索通用人工智能路徑方面，征求意見稿表示，圍繞大型語言模型構建、訓練、調優對齊、推理部署等全流程，支持開展創新算法及核心技術研究，形成完整高效的訓練體系并對外開源。探索多模态通用模型架構，研究大模型高效并行訓練技術，以及邏輯和知識推理、指令學習、人類意圖對齊等調優方法，研發支持百億參數模型推理的高效壓縮技術。從 " 采、存、管、研、用 " 五個方面，研發包含數據采集、清洗、标注、脫敏、存儲等功能在内的數據處理工具。

構建多模态多維度的基礎模型評測基準及評測方法。建立基礎模型評測工具集，提供适應性的工具進行評測。研發适用于模型訓練場景的新一代人工智能編譯器，實現算子自動生成和自動優化，推動人工智能芯片與框架的廣泛适配。研發人工智能芯片評測系統，實現多芯片多框架的自動化評測。

征求意見稿表示，鼓勵并組織來自不同學科的專業人員标注通用人工智能模型訓練數據及指令數據，提高訓練數據的多樣性 ; 鼓勵優先采用安全可信的軟件、工具、計算和數據資源，通過改進算法等技術手段，确保訓練數據集的規範性 ; 鼓勵生成式人工智能産品在科研等非面向公衆服務領域實現向上向善應用。

此外，爲了持續提升人工智能産業倫理治理自律自治能力，将研發并部署人工智能倫理治理公共服務平台，服務政府監管與産業自律自治，強化相關責任主體科技倫理規範意識，提升科技倫理治理能力。