Qwen1.5-32B:Qwen1.5语言模型系列的最后一块拼图
GITHUB HUGGING FACE MODELSCOPE DEMO WeChat 简介 开源社区长期以来一直在寻求一种能在性能、效率和内存占用之间达到理想平衡的模型。尽管出现了诸如Qwen1.5-72B和DBRX这样的SOTA模型,但这些模型持续面临诸如内存消耗巨大、推理速度缓慢以及显著的微调成本等问题。当前,参数量约30B的模型往往在这方面被看好,得到很多用户的青睐。顺应这一趋势,我们推出Qwen1.5语言模型系列的最新成员:Qwen1.5-32B和Qwen1.5-32B-Chat。 过去数月中,我们精心研发了Qwen1.5-32B基础模型,旨在对标甚至超越当前最先进的30B模型所设定的性能基准。同时,我们在对齐方面取得了进展,特别是在RLHF方面,以提升Qwen1.5-32B-Chat的对话能力。 模型效果 Qwen1.5-32B 是 Qwen1.5 语言模型系列的最新成员,除了模型大小外,其在模型架构上除了GQA几乎无其他差异。GQA能让该模型在模型服务时具有更高的推理效率潜力。 以下我们将对比展示其与参数量约为30B或更大的当前最优(SOTA)模型在基础能力评估、chat评估以及多语言评估方面的性能。以下是对于基础语言模型能力的评估结果: Model MMLU C-Eval GSM8K MATH HumanEval MBPP BBH CMMLU Llama2-34B 62.6 - 42.2 6.2 22.6 33.0 44.1 - Yi-34B 76.3 81.4 67.2 14.4 23.2 41.0 54.3 83.7 Mixtral-8x7B 70.6 - 74.4 28.4 40.2 60.7 - - Qwen1.5-72B 77.5 84.1 79.5 34.1 41.5 53.4 65.5 83.5 Qwen1.5-32B 73.4 83.5 77.4 36.1 37.2 49.4 66.8 82.3 我们的32B模型在多种任务上展现出颇具竞争力的表现,涵盖MMLU、GSM8K、HumanEval以及BBH等。相较于72B参数模型,Qwen1.5-32B虽在性能上有轻微下降,但在多数任务中仍优于其他30B级别模型,如Llama2-34B和Mixtral-8x7B。...