GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD

简介

我们隆重推出最新发布的Qwen2.5系列语言模型!我们共开源了7款decoder-only的稠密模型,参数规模从0.5B到72B不等。我们调研发现产品对10B至30B模型的兴趣明显增加,同时3B规模的模型也越来越适用于移动端场景。为此,Qwen2.5系列开源了Qwen2.5-3B、Qwen2.5-14B 和 Qwen2.5-32B。同时,我们还推出了Qwen-Plus与Qwen-Turbo版本,可以通过阿里云大模型服务平台的API服务进行体验。

相比Qwen2系列,Qwen2.5带来了以下全新升级:

  1. 全面开源:考虑到用户对10B至30B范围模型的需求和移动端对3B模型的兴趣,此次除了继续开源Qwen2系列中的0.5B/1.5B/7B/72B四款模型外,Qwen2.5系列还增加了两个高性价比的中等规模模型—— Qwen2.5-14BQwen2.5-32B,以及一款适合移动端的 Qwen2.5-3B。所有模型在同类开源产品中均具有很强的竞争力,例如Qwen2.5-32B的整体表现超越了Qwen2-72B,Qwen2.5-14B则领先于Qwen2-57B-A14B。

  2. 更大规模、更高质量的预数据训练集:我们的预训练数据集规模从 7T tokens 扩展到了 18T tokens。

  3. 知识储备升级:Qwen2.5的知识涵盖更广。在MMLU基准中,Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到 74.2,和从84.2提升到 86.1。此外,Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-c 等多个基准测试中有了明显提升。

  4. 代码能力增强:得益于Qwen2.5-Coder的突破,Qwen2.5在代码生成能力上也大幅提升。Qwen2.5-72B-Instruct在LiveCodeBench(2305-2409)、MultiPL-E和MBPP中的分别得分 55.575.188.2,优于Qwen2-72B-Instruct的32.2、69.2和80.2。

  5. 数学能力提升:引入了Qwen2-math的技术后,Qwen2.5的数学推理表现也有了快速提升。在MATH基准测试中,Qwen2.5-7B/72B-Instruct得分从Qwen2-7B/72B-Instruct的52.9/69.0上升到了 75.5/83.1

  6. 更符合人类偏好:Qwen2.5生成的内容更加贴近人类的偏好。具体来看,Qwen2.5-72B-Instruct的Arena-Hard得分从 48.1 大幅提升至 81.2,MT-Bench得分也从 9.12 提升到了 9.35,与之前的Qwen2-72B相比提升显著。

  7. 其他核心能力提升:Qwen2.5在 指令跟随、生成 长文本(从1K升级到 8K tokens)、理解 结构化数据(如表格),以及生成 结构化输出(尤其是JSON)上都有非常明显的进步。此外,Qwen2.5能够更好响应多样化的 系统提示,用户可以给模型设置 特定角色自定义条件

模型基础信息

本次发布的 Qwen2.5 语言模型系列包括七个开源模型,规模从 0.5B 到 72B 不等。大多数模型支持 128K(131,072)个 token 的上下文长度,并能生成 8K token 的文本,支持长篇内容创作。除部分特殊版本外,模型主要采用 Apache 2.0 开源许可协议,而 Qwen2.5-3B 和 Qwen2.5-72B 分别使用 Qwen Research 许可协议 和 Qwen 许可协议。

模型参数量非Embedding参数量层数头数 (KV)Tie Embedding长下文长度生成长度许可协议
Qwen2.5-0.5B0.49B0.36B2414 / 2Yes32K8KApache 2.0
Qwen2.5-1.5B1.54B1.31B2812 / 2Yes32K8KApache 2.0
Qwen2.5-3B3.09B2.77B3616 / 2Yes32K8KQwen Research
Qwen2.5-7B7.61B6.53B2828 / 4No128K8KApache 2.0
Qwen2.5-14B14.7B13.1B4840 / 8No128K8KApache 2.0
Qwen2.5-32B32.5B31.0B6440 / 8No128K8KApache 2.0
Qwen2.5-72B72.7B70.0B8064 / 8No128K8KQwen

模型表现

在这一部分,我们将通过大量的基准测试来评估 Qwen2.5 基础语言模型和指令调优模型的表现。

Qwen2.5 基础语言模型评估

评估主要考察基础模型在自然语言理解、通用问答、代码、数学、科学知识、推理及多语言能力等方面的表现。

涉及的评估数据集包括:

通用任务:MMLU (5-shot)、MMLU-Pro (5-shot)、MMLU-redux (5-shot)、BBH (3-shot)、ARC-C (25-shot)、TruthfulQA (0-shot)、Winogrande (5-shot)、HellaSwag (10-shot)

数学与科学任务:GPQA (5-shot)、Theorem QA (5-shot)、GSM8K (4-shot)、MATH (4-shot)

代码任务:HumanEval (0-shot)、HumanEval+ (0-shot)、MBPP (0-shot)、MBPP+ (0-shot)、MultiPL-E (0-shot) (Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript)

多语言任务:Multi-Exam (M3Exam 5-shot、IndoMMLU 3-shot、ruMMLU 5-shot、mMMLU 5-shot)、Multi-Understanding (BELEBELE 5-shot、XCOPA 5-shot、XWinograd 5-shot、XStoryCloze 0-shot、PAWS-X 5-shot)、Multi-Mathematics (MGSM 8-shot)、Multi-Translation (Flores-101 5-shot)

Qwen2.5-72B 表现

数据集Llama-3-70BMixtral-8x22BLlama-3-405BQwen2-72BQwen2.5-72B
通用任务
MMLU79.577.885.284.286.1
MMLU-Pro52.851.661.655.758.1
MMLU-redux75.072.9-80.583.9
BBH81.078.985.982.486.3
ARC-C68.870.7-68.972.4
TruthfulQA45.651.0-54.860.4
WindoGrande85.385.086.785.183.9
HellaSwag88.088.7-87.387.6
数学与科学任务
GPQA36.334.3-37.445.9
Theoremqa32.335.9-42.842.4
MATH42.541.753.850.962.1
MMLU-stem73.771.7-79.682.7
GSM8K77.683.789.089.091.5
代码任务
HumanEval48.246.361.064.659.1
HumanEval+42.140.2-56.151.2
MBPP70.471.773.076.984.7
MBPP+58.458.1-63.969.2
MultiPL-E46.346.7-59.660.5
多语言任务
Multi-Exam70.063.5-76.678.7
Multi-Understanding79.977.7-80.789.6
Multi-Mathematics67.162.9-76.076.7
Multi-Translation38.023.3-37.839.0

Qwen2.5-72B 基础模型在各类任务上明显超过同类模型,以不到 1/5 的参数达到了与 Llama-3-405B 相当的表现。相比它的前身 Qwen2-72B,Qwen2.5-72B 几乎在所有基准评测上都有显著提升,尤其在通用任务、数学和代码竞赛中。

Qwen2.5-14/32B 表现

数据集Qwen1.5-32BGemma2-27BYi-1.5-34BQwen2-57B-A14BQwen2.5-14BQwen2.5-32B
通用任务
MMLU74.375.277.276.579.783.3
MMLU-pro44.149.148.343.051.255.1
MMLU-redux69.0-74.172.476.682.0
BBH66.874.976.467.078.284.5
ARC-C63.671.465.664.167.370.4
Truthfulqa57.440.153.957.758.457.8
Winogrande81.559.784.979.5-82.0
Hellaswag85.086.485.985.2-85.2
数学与科学任务
GPQA30.834.937.434.332.848.0
Theoremqa28.835.840.033.543.044.1
MATH36.142.741.743.055.657.7
MMLU-stem66.571.072.669.876.480.9
GSM8K78.581.181.780.790.292.9
代码任务
HumanEval43.354.946.353.056.758.5
HumanEval+40.246.340.246.351.252.4
MBPP64.275.765.571.976.784.5
MBPP+53.960.255.457.463.267.2
MultiPL-E38.548.039.549.853.559.4
多语言任务
Multi-Exam61.665.858.365.570.675.4
Multi-Understanding76.582.273.977.085.988.4
Multi-Mathematics56.161.649.362.368.573.7
Multi-Translation33.538.730.034.536.237.3

Qwen2.5-14B 模型在多项任务中表现稳健,尤其是在像MMLU和BBH这样的通用任务上,分别取得了 79.7 分和 78.2 分,超越了许多规模更大的竞争对手。Qwen2.5-32B 表现尤为出色,甚至优于参数更大的同类模型。特别是在数学和代码等挑战性任务中,Qwen2.5-32B 大幅领先其前身 Qwen1.5-32B,在 MATH 中获得 57.7分,在MBPP中获得 84.5 分。

Qwen2.5-7B 表现

数据集Mistral-7BLlama3-8BGemma2-9BQwen2-7BQwen2.5-7B
#Non-emb Params7.0B7.0B8.2B6.5B6.5B
通用任务
MMLU64.266.671.370.374.2
MMLU-pro30.935.444.740.145.0
MMLU-redux58.161.667.968.171.1
BBH56.157.768.262.370.4
ARC-C60.059.368.260.663.7
Trurhfulqa42.244.045.354.256.4
Winogrande78.477.479.577.075.9
Hellaswag83.382.181.980.780.2
数学与科学任务
GPQA24.725.832.830.836.4
Theoremqa19.222.128.929.636.0
MATH10.220.537.743.549.8
MMLU-stem50.155.365.164.272.3
GSM8K36.255.370.780.285.4
代码任务
HumanEval29.333.537.851.257.9
HumanEval+24.429.330.543.350.6
MBPP51.153.962.264.274.9
MBPP+40.944.450.651.962.9
MultiPL-E29.422.634.941.050.3
多语言任务
Multi-Exam47.152.361.259.259.4
Multi-Understanding63.368.678.372.079.3
Multi-Mathematics26.336.353.057.557.8
Multi-Translation23.331.936.531.532.4

Qwen2.5-7B在多个基准测试中超越了它的前代和同类竞争者。尽管它的非嵌入参数更少,但能够在各类任务中的表现更加出色。例如,Qwen2.5-7B 在 MMLU 通用基准测试中得分 74.2,在数学测试MATH中的得分为 49.8,而在代码任务HumanEval中取得了 57.9 分。

Qwen2.5-0.5B/1.5B/3B 表现

数据集Qwen2-0.5BQwen2.5-0.5BQwen2-1.5BQwen2.5-1.5BGemma2-2.6BQwen2.5-3B
通用任务
MMLU44.347.555.960.952.265.6
MMLU-pro14.715.721.628.523.034.6
MMLU-redux40.745.151.858.550.963.7
BBH18.220.336.545.141.956.3
ARC-C31.035.643.754.755.756.5
Trurhfulqa39.740.245.946.636.248.9
Winogrande56.956.365.065.071.571.1
Hellaswag49.152.167.067.974.674.6
数学与科学任务
GPQA29.824.820.724.225.326.3
Theoremqa9.616.014.822.115.927.4
MATH11.219.521.635.018.342.6
MMLU-stem27.539.842.754.845.862.5
GSM8K36.441.646.968.530.379.1
代码任务
HumanEval22.630.534.837.219.542.1
HumanEval+18.926.829.932.915.936.0
MBPP33.139.346.960.242.157.1
MBPP+27.633.837.649.633.649.4
MultiPL-E16.318.927.933.117.641.2
多语言任务
Multi-Exam29.430.843.147.938.154.6
Multi-Understanding40.441.050.765.146.876.6
Multi-Mathematics7.813.521.337.518.248.9
Multi-Translation14.115.323.825.026.929.3

对于移动端模型,Qwen2.5-0.5B、1.5B 和 3B 在几乎所有评测中都表现了强劲的性能。值得一提的是,Qwen2.5-0.5B 模型,在一些数学和编程任务中甚至超过了Gemma2-2.6B。

指令微调模型评估

评估主要考察指令微调模型在自然语言理解、通用问答、推理、代码、数学、指令遵循及人类对齐等方面的表现。

涉及的评估数据集包括:

通用任务:MMLU-Pro、MMLU-redux

数学与科学任务:GPQA、GSM8K、MATH

代码任务:HumanEval、MBPP、MultiPL-E、LiveCodeBench 2305-2409、LiveBench 0831

指令和对齐任务:IFeval strict-prompt、Arena-Hard、AlignBench v1.1、MTbench

Qwen2.5-72B-Instruct 表现·

数据集Mistral-Large2 InstructLlama-3.1-70B-InstructLlama-3.1-405B-InstructQwen2-72B-InstructQwen2.5-72B-Instruct
MMLU-Pro69.466.473.364.471.1
MMLU-redux83.083.086.281.686.8
GPQA52.046.751.142.449.0
MATH69.968.073.869.083.1
GSM8K92.795.196.893.295.8
HumanEval92.180.589.086.086.6
MBPP80.084.284.580.288.2
MultiPL-E76.968.273.569.275.1
LiveCodeBench 2305-240942.232.141.632.255.5
LiveBench 083148.546.653.241.552.3
IFeval strict-prompt64.183.686.077.684.1
Arena-Hard73.155.769.348.181.2
AlignBench v1.17.695.945.958.158.16
MTbench8.618.799.089.129.35

Qwen2.5-72B-Instruct 模型展现出了极为优异的表现,甚至在多个核心任务上超越了参数量巨大的 Llama-3.1-405B,在数学(MATH: 83.1)、代码(LiveCodeBench: 55.5)以及对话任务(Arena-Hard: 81.2)中表现尤为突出。与基础模型 Qwen2.5-72B 及前身 Qwen2-72B-Instruct 相比,Qwen2.5-72B-Instruct 在各项任务上的表现都有显著提升。

Qwen2.5-Turbo & Qwen2.5-14B-Instruct & Qwen2.5-32B-Instruct 表现

数据集Qwen2-57B-A14B-InstructGemma2-27B-ITGPT4o-miniQwen-TurboQwen2.5-14B-InstructQwen2.5-32B-Instruct
MMLU-Pro52.855.563.164.863.769.0
MMLU-redux72.675.781.580.480.083.9
GPQA34.338.440.244.445.549.5
MATH49.154.470.281.080.083.1
GSM8K85.390.493.293.694.895.9
HumanEval79.978.788.486.683.588.4
MBPP70.981.085.780.282.084.0
MultiPL-E66.467.475.073.072.875.4
LiveCodeBench 2305-240922.5-40.743.142.651.2
LiveBench 083131.139.643.341.644.450.7
IFeval strict-prompt59.977.180.474.981.079.5
Arena-Hard17.857.574.968.468.374.5
AlignBench v1.17.027.227.817.997.947.93
MTbench8.559.10-8.868.889.20

Qwen2.5-32B-Instruct 在大多数任务中表现优于同类规模的模型。与 GPT-4o-mini 相比,我们的开源模型 Qwen2.5-14B-Instruct 与 API 模型 Qwen-Turbo也在所有任务都中展现出了相当的竞争力。

Qwen2.5-7B-Instruct 表现

数据集Gemma2-9b-ITLlama3.1-8B-InstructQwen2-7B-InstructQwen2.5-7B-Instruct
MMLU-Pro52.148.344.156.3
MMLU-redux72.867.267.375.4
GPQA32.832.834.336.4
MATH44.351.952.975.5
GSM8K76.784.585.791.6
HumanEval68.972.679.984.8
MBPP74.969.667.279.2
MultiPL-E53.450.759.170.4
LiveCodeBench 2305-240918.98.323.928.7
LiveBench 083130.626.729.235.9
IFeval strict-prompt70.175.954.771.2
Arena-Hard41.627.825.052.0
AlignBench v1.17.054.757.137.33
MTbench8.498.238.268.75

Qwen2.5-7B-Instruct 在除了 IFeval 的所有任务中表现均优于竞争对手 Gemma2-9b-IT 和 Llama3.1-8B-Instruct,尤其是在数学(MATH: 75.5)和代码(HumanEval: 84.8)任务上优势明显。

Qwen2.5-3B-Instruct 表现

数据集Gemma2-2B-ITPhi3.5-mini-InstructMiniCPM3-4BQwen2.5-3B-Instruct
Non-Emb Params2.0B3.6B4.0B2.8B
MMLU-Pro26.747.543.043.7
MMLU-redux51.967.759.964.4
GPQA29.327.231.330.3
MATH26.648.546.665.9
GSM8K63.286.281.186.7
HumanEval68.972.674.474.4
MBPP74.963.272.572.7
MultiPL-E30.547.249.160.2
LiveCodeBench 2305-24095.815.823.819.9
LiveBench 083120.127.427.626.8
IFeval strict-prompt51.052.168.458.2

在适用移动端的指令模型中,Qwen2.5-3B-Instruct 的参数量虽然少于 Phi3.5-mini-Instruct 和 MiniCPM3-4B,但在数学和编程任务上仍然具有优势,同时在语言理解方面也展现出不错的实力。

Qwen2.5-0.5B/1.5B-Instruct 表现

数据集Qwen2-0.5B-InstructQwen2.5-0.5B-InstructQwen2-1.5B-InstructQwen2.5-1.5B-Instruct
MMLU-Pro14.415.022.932.4
MMLU-redux12.924.141.250.7
GPQA23.729.821.229.8
MATH13.934.425.355.2
GSM8K40.149.661.673.2
HumanEval31.135.442.161.6
MBPP39.749.644.263.2
MultiPL-E20.828.538.550.4
LiveCodeBench 2305-24091.65.14.514.8
LiveBench 08317.412.612.418.8
IFeval strict-prompt14.627.929.042.5

Qwen2.5-1.5B-Instruct 及 Qwen2.5-0.5B-Instruct 的性能相比前代大幅提升,使它们尤其适合在资源极度受限的端侧场景下应用。

多语言表现

为了更好地评估指令微调模型的多语言表现,我们收集并扩展了以下基准测试:

  • IFEval(多语言):我们将IFEval进行翻译,构建了多语言版本的 IFEval。在此过程中,我们移除了语言特定(例如“以字母A开头”)的测试用例。每种语言我们都收集了100个测试用例,包括阿拉伯语(ar)、西班牙语(es)、法语(fr)、印尼语(in)、日语(ja)、韩语(ko)、葡萄牙语(pt)和越南语(vi)。所有用例都由付费标注人员进行检查,并在必要时进行修改。

  • 知识能力测试:我们选用了五个类似 MMLU 的多选题基准测试来验证 Qwen2.5 系列模型的多语言知识掌握情况,包括:AMMLU(阿拉伯语)、JMMLU(日语)、KMMLU(韩语)、IndoMMLU(印尼语)和 TurkishMMLU(土耳其语)。此外,我们还展示了翻译版MMLU(即 okapi_MMLU,将英文MMLU翻译为多种语言)的性能表现。

  • MGSM8K(扩展版):在原版 MGSM8K 包含的语言外,我们还增加了阿拉伯语(ar)、韩语(ko)、葡萄牙语(pt)和越南语(vi)的支持。我们将 250 个测试用例翻译成这四种语言,保持与其他 MGSM8K 支持语言测试数量一致。所有示例也由付费标注人员进行了检查和必要的修改。

  • 文化差异:我们还使用了 BLEnD 基准测试,旨在评估大模型对于文化差异的处理能力,以进一步验证 Qwen2.5 系列模型的表现。

数据集Qwen2-72B-InstructLlama3.1-70B-InstructQwen2.5-32B-InstructMistral-Large-Instruct-2407 (123B)GPT4o-miniQwen2.5-72B-Instruct
指令遵循任务
IFEval(多语言)79.6980.4782.6882.6985.0386.98
知识任务
AMMLU(阿拉伯语)68.8570.0870.4469.2469.7372.44
JMMLU(日语)77.3773.8976.5575.7773.7480.56
KMMLU(韩语)57.0453.2360.7556.4256.7761.96
IndoMMLU(印尼语)66.3167.5066.4263.2167.7569.25
TurkishMMLU(土耳其语)69.2266.8972.4164.7871.1976.12
okapi MMLU(翻译)77.8476.4977.1678.3773.4479.97
数学任务
MGSM8K(扩展版)82.7273.3187.1589.0187.3688.16
文化差异任务
BLEnD25.9030.4927.8833.4735.9132.48
数据集Qwen2-7B-InstructLlama3.1-8B-InstructQwen2.5-7B-InstructGemma-2-9B-InstructMistral-Nemo-Instruct-2407 (12B)Qwen2.5-14B-Instruct
指令遵循任务
IFEval(多语言)51.4360.6874.8777.4764.5977.08
知识任务
AMMLU(阿拉伯语)54.8754.2859.7860.2653.9266.81
JMMLU(日语)57.7153.2661.8864.5955.1772.78
KMMLU(韩语)43.9642.2846.5946.2442.2259.71
IndoMMLU(印尼语)54.0553.9256.4261.7350.7665.09
TurkishMMLU(土耳其语)49.2745.6154.2855.4434.4466.85
okapi MMLU(翻译)60.4755.1866.9846.7259.6572.12
数学任务
MGSM8K(扩展版)56.1366.0566.1178.3754.7582.27
文化差异任务
BLEnD22.4919.4723.6628.3126.6126.99

实例演示

我们准备了一些实例演示,来体现 Qwen2.5 的新特性和改进之处,涵盖了生成JSON格式输出、撰写长篇内容以及理解结构化数据等能力。

Example: Generating JSON Output Next
JSON Output