阿裏大模型春節禮包來了：代碼可執行率超GPT-4，1.5版本全系列開源

阿裏大模型，再次開源大放送——

發布 Qwen1.5 版本，直接放出六種尺寸。

最大的 Qwen1.5-72B-Chat 模型，在 MT-Bench 和 Alpaca-Eval v2 上，超越 Claude-2.1、GPT-3.5-Turbo-0613。

甚至在部分任務中，得分已經超過前幾個版本的 GPT-4。

各地的開發者前來祝賀，其中 0.5B 的迷你版讓不少人都迫不及待想試試。

并且還順便問問，那個多模态大模型 Qwen-VL-Max 有可能開源嗎？

除此之外，還集成到了 Hugging face transformers，以及同主流的十餘個框架合作，從微調、部署、量化到本地推理一步到位。

Qwen1.5 開源

此次開源發布，主要有四個方面值得關注。

首先，模型系列很多，直接開源了 6 種尺寸（0.5B、1.8B、4B、7B、14B、72B）的基礎模型（base）、聊天模型（chat）以及量化模型（包括 Int4 和 Int8 GPTQ 模型，以及 AWQ 和 GGUF 量化模型）。

其次，更多的生态融入。

目前，Qwen1.5 的代碼合并到 Hugging Face transformers，使其 transformers>=4.37.0 而無需 trust_remote_code。

此外，還同主流的第三方框架，比如 vLLM、用于部署的 SGLang 、用于量化的 AutoAWQ、AutoGPTQ 、用于微調的 Axolotl、LLaMA-Factory 以及用于本地 LLM 推理的 llama.cpp 等進行了合作。

Qwen1.5 系列可在 Ollama、LMStudio 等平台上使用。此外，API 服務不僅在 DashScope 上提供，而且在 Together.ai 上也提供，具有全球可訪問性。

再者，性能更強。

比如在基本能力的評估上，包括 MMLU（5-shot）、C-Eval、Humaneval、GS8K、BBH 等基準測試中可以看到，Qwen1.5-72B 一些分數上已經超過了 GPT-4。

在長上下文支持上，全系列模型的能力都有一定的拓展。尤其 Chat 模型，像 Qwen1.5-7B-Chat 這樣的小模型，在 5 個任務中有 4 個表現與 GPT-3.5 相當。

而 Qwen1.5-72B-Chat 的性能，則明顯優于 GPT3.5-turbo-16k，略微落後于 GPT4-32k。

在代碼執行上，72B 聊天模型在數學以及可視化方面離 GPT-4 還有一定的差距，但代碼可執行率超過 GPT-4。不過他們表示，會在在未來的版本中得到增強。

除此之外，此次功能也得到了升級和統一。

全系列均統一支持至少 32k 的最大長度；

多語言能力全面提升并提供了更豐富的多語言評測；

全系列統一支持 system prompt;

統一具備強鏈接外部系統能力（agent/RAG/Tool-use/Code-interpreter）

One More Thing

這兩天，與阿裏大模型的進展還不少。

比如前幾天，其多模态大模型 Qwen-VL-Max 登頂 OpenCompass 榜首。

以及在通義千問 APP 上，上線了不少春節免費新應用，比如全家福、拜新年、萬物成龍等圖像生成的功能。

此外，還有網友反饋說，通義千問 2.0 版本升級之後，能力提升得很明顯。

你有感受到嗎？

項目鏈接：

https://huggingface.co/collections/Qwen/qwen15-65c0a2f577b1ecb76d786524

https://qwenlm.github.io/zh/blog/qwen1.5/

參考鏈接：

[ 1 ] https://twitter.com/JustinLin610/status/1754538215959335100

[ 2 ] https://twitter.com/huybery/status/1754537742892232972

[ 3 ] https://twitter.com/_akhaliq/status/1754545091434139732

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~