Qwen

Qwen2.5-Coder 全系列: 强大、多样、实用。

GITHUB HUGGING FACE MODELSCOPE KAGGLE DEMO DISCORD 简介 今天,我们很高兴开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列模型,致力于持续推动 Open CodeLLMs 的发展。 强大:Qwen2.5-Coder-32B-Instruct 成为目前 SOTA 的开源代码模型,代码能力追平 GPT-4o,展现出强大且全面的代码能力,同时具备良好的通用和数学能力。 多样:上个月我们开源了 1.5B、7B 两个尺寸,本次开源又带来 0.5B、3B、14B、32B 四个尺寸,截至目前, Qwen2.5-Coder 已经覆盖了主流的六个模型尺寸,以满足不同开发者的需要。 实用:我们探索了 Qwen2.5-Coder 在代码助手和 Artifacts 两种场景下的实用性,并用一些样例来展示 Qwen2.5-Coder 在实际场景中的应用潜力。 强大:代码能力达到开源模型 SOTA 代码生成:Qwen2.5-Coder-32B-Instruct 作为本次开源的旗舰模型,在多个流行的代码生成基准(如EvalPlus、LiveCodeBench、BigCodeBench)上都取得了开源模型中的最佳表现,并且达到和 GPT-4o 有竞争力的表现。 代码修复:代码修复是一个重要的编程能力。Qwen2.5-Coder-32B-Instruct 可以帮助用户修复代码中的错误,让编程更加高效。Aider 是流行的代码修复的基准,Qwen2.5-Coder-32B-Instruct 达到 73.7 分,在 Aider 上的表现与 GPT-4o 相当。 代码推理:代码推理是指模型能否学习代码执行的过程,准确地预测模型的输入与输出。上个月发布的 Qwen2.5-Coder-7B-Instruct 已经在代码推理能力上展现出了不俗的表现,32B 模型的表现更进一步。 多编程语言:智能编程助手应该熟悉所有编程语言,Qwen2.5-Coder-32B-Instruct 在 40 多种编程语言上表现出色,在 McEval 上取得了 65.9 分,其中 Haskell、Racket 等语言表现令人印象深刻,这得益于我们在预训练阶段独特的数据清洗和配比。 另外,Qwen2.5-Coder-32B-Instruct 的多编程语言代码修复能力同样令人惊喜,这将有助于用户理解和修改自己熟悉的编程语言,极大缓解陌生语言的学习成本。 与 McEval 类似,MdEval 是多编程语言的代码修复基准,Qwen2.5-Coder-32B-Instruct 在 MdEval 上取得了 75....

2024年11月12日 · 2 分钟 · 406 字 · Qwen Team

Qwen2.5: 基础模型大派对!

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 简介 在 Qwen2 发布后的过去三个月里,许多开发者基于 Qwen2 语言模型构建了新的模型,并为我们提供了宝贵的反馈。在这段时间里,我们专注于创建更智能、更博学的语言模型。今天,我们很高兴地向大家介绍 Qwen 家族的最新成员:Qwen2.5。 我们将要宣布的可能是历史上最大的开源发布!让我们开始这场盛会吧! 我们的最新发布包括了语言模型 Qwen2.5,以及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型。所有开放权重的模型都是稠密的、decoder-only的语言模型,提供多种不同规模的版本,包括: Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B; Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B; Qwen2.5-Math: 1.5B, 7B, 以及72B。 除了3B和72B的版本外,我们所有的开源模型都采用了 Apache 2.0 许可证。您可以在相应的 Hugging Face 仓库中找到许可证文件。除此之外,我们还通过 Model Studio 提供了旗舰语言模型 Qwen-Plus 和 Qwen-Turbo 的 API,诚邀您来体验和使用!此外,我们还开源了相比上个月发布的版本有性能提升的 Qwen2-VL-72B。 如需了解更多关于 Qwen2.5、Qwen2.5-Coder 和 Qwen2.5-Math 的详细信息,请随时访问以下链接: Qwen2.5 LLM Qwen2.5-Coder Qwen2.5-Math 准备好迎接我们全面的模型系列所带来的无限可能吧!我们非常高兴能够与您分享这些前沿模型,并期待看到您使用它们所取得的非凡成就! 要点总结 就 Qwen2.5 语言模型而言,所有模型都在我们最新的大规模数据集上进行了预训练,该数据集包含多达 18T tokens。相较于 Qwen2,Qwen2....

2024年9月19日 · 3 分钟 · 621 字 · Qwen Team

Qwen2.5-LLM:扩展大型语言模型的边界

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 简介 我们隆重推出最新发布的Qwen2.5系列语言模型!我们共开源了7款decoder-only的稠密模型,参数规模从0.5B到72B不等。我们调研发现产品对10B至30B模型的兴趣明显增加,同时3B规模的模型也越来越适用于移动端场景。为此,Qwen2.5系列开源了Qwen2.5-3B、Qwen2.5-14B 和 Qwen2.5-32B。同时,我们还推出了Qwen-Plus与Qwen-Turbo版本,可以通过阿里云大模型服务平台的API服务进行体验。 相比Qwen2系列,Qwen2.5带来了以下全新升级: 全面开源:考虑到用户对10B至30B范围模型的需求和移动端对3B模型的兴趣,此次除了继续开源Qwen2系列中的0.5B/1.5B/7B/72B四款模型外,Qwen2.5系列还增加了两个高性价比的中等规模模型—— Qwen2.5-14B 和 Qwen2.5-32B,以及一款适合移动端的 Qwen2.5-3B。所有模型在同类开源产品中均具有很强的竞争力,例如Qwen2.5-32B的整体表现超越了Qwen2-72B,Qwen2.5-14B则领先于Qwen2-57B-A14B。 更大规模、更高质量的预数据训练集:我们的预训练数据集规模从 7T tokens 扩展到了 18T tokens。 知识储备升级:Qwen2.5的知识涵盖更广。在MMLU基准中,Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到 74.2,和从84.2提升到 86.1。此外,Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-c 等多个基准测试中有了明显提升。 代码能力增强:得益于Qwen2.5-Coder的突破,Qwen2.5在代码生成能力上也大幅提升。Qwen2.5-72B-Instruct在LiveCodeBench(2305-2409)、MultiPL-E和MBPP中的分别得分 55.5、75.1 和 88.2,优于Qwen2-72B-Instruct的32.2、69.2和80.2。 数学能力提升:引入了Qwen2-math的技术后,Qwen2.5的数学推理表现也有了快速提升。在MATH基准测试中,Qwen2.5-7B/72B-Instruct得分从Qwen2-7B/72B-Instruct的52.9/69.0上升到了 75.5/83.1。 更符合人类偏好:Qwen2.5生成的内容更加贴近人类的偏好。具体来看,Qwen2.5-72B-Instruct的Arena-Hard得分从 48.1 大幅提升至 81.2,MT-Bench得分也从 9.12 提升到了 9.35,与之前的Qwen2-72B相比提升显著。 其他核心能力提升:Qwen2.5在 指令跟随、生成 长文本(从1K升级到 8K tokens)、理解 结构化数据(如表格),以及生成 结构化输出(尤其是JSON)上都有非常明显的进步。此外,Qwen2.5能够更好响应多样化的 系统提示,用户可以给模型设置 特定角色 或 自定义条件。 模型基础信息 本次发布的 Qwen2.5 语言模型系列包括七个开源模型,规模从 0.5B 到 72B 不等。大多数模型支持 128K(131,072)个 token 的上下文长度,并能生成 8K token 的文本,支持长篇内容创作。除部分特殊版本外,模型主要采用 Apache 2....

2024年9月19日 · 8 分钟 · 1564 字 · Qwen Team

Qwen2.5-Coder: 码无止境,学无止境!

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 简介 四月初,我们发布了 CodeQwen1.5, 得到了社区广泛的关注与喜爱。自那以后,我们一直在继续努力提升代码模型。今天,我们很高兴地宣布新一代的开放代码模型 Qwen2.5-Coder 的发布。并正式将 CodeQwen 的命名改为 Qwen-Coder,我们认为 Coder 更加拟人、灵动,期待其可以在未来真正与人类结对编程。Qwen2.5-Coder 是我们 Qwen2.5 开源家族的一员,共包括三个尺寸的模型:1.5B、 7B 和 32B(在路上)。 本次更新的两大核心包括代码训练数据的进一步 scaling,以及探索在提升代码能力的同时保持数学和通用能力。 码无止境:Qwen2.5-Coder 基于强大的 Qwen2.5 初始化,扩增了更大规模的代码训练数据持续训练,包括源代码、文本代码混合数据、合成数据等共计 5.5T tokens。使得 Qwen2.5-Coder 在代码生成、代码推理、代码修复等任务上都有了显著提升。 学无止境:我们希望 Qwen2.5-Coder 在提升代码能力的同时,也能保持在数学、通用能力等方面的优势。因此,我们在 Qwen2.5-Coder 中加入了更多的数学、通用能力数据,为未来的真实应用提供更为全面的基座。 Qwen2.5-Coder: Base Models Qwen2.5-Coder 最多 128K tokens 上下文,支持 92 种编程语言,并在多个代码相关的评估任务中都取得了显著的提升,包括代码生成、多编程语言代码生成、代码补全、代码修复等。值得注意的是,本次开源的 7B 版本 Qwen2.5-Coder,甚至打败了更大尺寸的 DeepSeek-Coder-V2-Lite 和 CodeStral-22B,成为当前最强大的基础代码模型之一。除了代码任务外,Qwen2.5-Coder 也具备极具竞争力的数学能力。面向通用任务,我们评估了 MMLU 和 ARC,结果表明 Qwen2.5-Coder 很好的保持了 Qwen2.5 的通用能力。 Qwen2.5-Coder-Instruct: Instruction-Tuned Models 我们在 Qwen2.5-Coder 的基础上,通过指令微调,得到了 Qwen2.5-Coder-Instruct。Qwen2.5-Coder-Instruct 除了进一步提升了多个任务上的性能外,还在更多的评估中体现出了卓越的泛化性。...

2024年9月19日 · 2 分钟 · 233 字 · Qwen Team

Qwen2.5-Math: 世界领先的数学开源大语言模型

GITHUB HUGGING FACE MODELSCOPE DISCORD 🚨 Qwen2.5-Math主要被设计用于通过CoT或TIR的方式解中英数学题,我们不推荐在其他任务上使用该系列模型。 简介 一个月前,我们开源了 Qwen 家族的第一款数学专项大语言模型- Qwen2-Math。 今天,我们将它再度升级并开源 Qwen2.5-Math 系列,包括基础模型 Qwen2.5-Math-1.5B/7B/72B,指令微调模型Qwen2.5-Math-1.5B/7B/72B-Instruct和数学奖励模型 Qwen2.5-Math-RM-72B。 相较于 Qwen2-Math 只支持使用思维链(CoT)解答英文数学题目,Qwen2.5 系列扩展为同时支持使用思维链和工具集成推理(TIR) 解决中英双语的数学题。Qwen2.5-Math系列相比上一代Qwen2.5-Math在中文和英文的数学解题能力上均实现了显著提升。 虽然 CoT 在增强 LLM 的推理能力方面发挥着重要作用,但它在实现计算精度和处理复杂的数学或算法推理任务方面依然面临挑战,例如寻找二次方程的根或计算矩阵的特征值等等。而 TIR(如使用python解释器)可以进一步提高模型在精确计算、符号操作和算法操作方面的能力。Qwen2.5-Math-1.5B/7B/72B-Instruct 使用 TIR 在 MATH 基准测试中分别达到 79.7、85.3 和 87.8的高分。 Qwen2.5-Math: 基础模型 Qwen2-Math 和 Qwen2.5-Math 的整体训练流程如上图所示。在训练完 Qwen2-Math 基础模型后,我们通过三个主要途径将其进一步升级为 Qwen2.5-Math 模型: 1)利用 Qwen2-Math-72B-Instruct 模型合成更多高质量的数学预训练数据。 2)通过多轮召回从网络资源、书籍和代码中获取更多高质量的数学数据,尤其是中文数学数据。 3)利用 Qwen2.5 系列基础模型进行参数初始化,它们相比Qwen2有更强大的语言理解、代码生成和文本推理能力。 最终,我们为 Qwen2.5-Math-1.5B/7B/72B 构建了名为 Qwen Math Corpus v2 的预训练数据集,并保持上下文长度为4K。与用于 Qwen2-Math 预训练的 Qwen Math Corpus v1 相比,Qwen Math Corpus v2 的总 token 数量从 700B 增加到超过 1T。...

2024年9月19日 · 2 分钟 · 341 字 · Qwen Team