多知網 3 月 15 日消息,商湯科技日前發布多模态多任務通用大模型 " 書生 ( INTERN ) 2.5"。
據介紹," 書生 " 由商湯科技、上海人工智能實驗室、清華大學、香港中文大學、上海交通大學于 2021 年 11 月首次共同發布,并持續聯合研發。
商湯科技表示," 書生 2.5" 擁有 30 億參數," 是目前全球開源模型中 ImageNet 準确度最高、規模最大,同時也是物體檢測标杆數據集 COCO 中唯一超過 65.0 mAP 的模型 "。
" 書生 2.5" 在圖文跨模态領域卓越的性能表現來自于視覺、語音及多任務建模三大模型能力的有效融合,即 InternImage-G 通用視覺大模型、用于文本理解的超大語言預訓練模型 ( LLM ) 和用于多任務的兼容解碼建模大模型 ( Uni-Perceiver ) 。
" 書生 2.5" 實現了通過文本來定義任務,從而可以靈活地定義不同場景的任務需求,并根據給定視覺圖像和任務的提示性語句,給出相應的指令或作答,進而具備通用場景下的高級感知和複雜問題處理能力,比如圖像描述、視覺問答、視覺推理和文字識别等。
" 書生 2.5" 的圖文跨模态開放任務處理能力可爲自動駕駛、機器人等通用場景任務提供精準的感知和理解能力支持。例如,在自動駕駛場景中,可以大幅提升場景感知理解能力,準确輔助車輛判斷交通信号燈狀态、道路标志牌等信息,爲車輛決策規劃提供有效信息輸入。此外,其也可解決紛繁複雜的日常生活中的常見任務,滿足各種需求。
" 書生 2.5" 同時具備 AIGC" 以文生圖 " 的能力,還可根據文本快速檢索出視覺内容。
自 3 月 14 日起," 書生 2.5" 多模态通用大模型已在商湯參與的通用視覺開源平台 OpenGVLab 開源。 ( 多知網 哆啦 )