Blog  []

Qwen2.5-LLM:扩展大型语言模型的边界

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 简介 我们隆重推出最新发布的Qwen2.5系列语言模型!我们共开源了7款decoder-only的稠密模型,参数规模从0.5B到72B不等。我们调研发现产品对10B至30B模型的兴趣明显增加,同时3B规模的模型也越来越适用于移动端场景。为此,Qwen2.5系列开源了Qwen2.5-3B、Qwen2.5-14B 和 Qwen2.5-32B。同时,我们还推出了Qwen-Plus与Qwen-Turbo版本,可以通过阿里云大模型服务平台的API服务进行体验。 相比Qwen2系列,Qwen2.5带来了以下全新升级: 全面开源:考虑到用户对10B至30B范围模型的需求和移动端对3B模型的兴趣,此次除了继续开源Qwen2系列中的0.5B/1.5B/7B/72B四款模型外,Qwen2.5系列还增加了两个高性价比的中等规模模型—— Qwen2.5-14B 和 Qwen2.5-32B,以及一款适合移动端的 Qwen2.5-3B。所有模型在同类开源产品中均具有很强的竞争力,例如Qwen2.5-32B的整体表现超越了Qwen2-72B,Qwen2.5-14B则领先于Qwen2-57B-A14B。 更大规模、更高质量的预数据训练集:我们的预训练数据集规模从 7T tokens 扩展到了 18T tokens。 知识储备升级:Qwen2.5的知识涵盖更广。在MMLU基准中,Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到 74.2,和从84.2提升到 86.1。此外,Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-c 等多个基准测试中有了明显提升。 代码能力增强:得益于Qwen2.5-Coder的突破,Qwen2.5在代码生成能力上也大幅提升。Qwen2.5-72B-Instruct在LiveCodeBench(2305-2409)、MultiPL-E和MBPP中的分别得分 55.5、75.1 和 88.2,优于Qwen2-72B-Instruct的32.2、69.2和80.2。 数学能力提升:引入了Qwen2-math的技术后,Qwen2.5的数学推理表现也有了快速提升。在MATH基准测试中,Qwen2.5-7B/72B-Instruct得分从Qwen2-7B/72B-Instruct的52.9/69.0上升到了 75.5/83.1。 更符合人类偏好:Qwen2.5生成的内容更加贴近人类的偏好。具体来看,Qwen2.5-72B-Instruct的Arena-Hard得分从 48.1 大幅提升至 81.2,MT-Bench得分也从 9.12 提升到了 9.35,与之前的Qwen2-72B相比提升显著。 其他核心能力提升:Qwen2.5在 指令跟随、生成 长文本(从1K升级到 8K tokens)、理解 结构化数据(如表格),以及生成 结构化输出(尤其是JSON)上都有非常明显的进步。此外,Qwen2.5能够更好响应多样化的 系统提示,用户可以给模型设置 特定角色 或 自定义条件。 模型基础信息 本次发布的 Qwen2.5 语言模型系列包括七个开源模型,规模从 0.5B 到 72B 不等。大多数模型支持 128K(131,072)个 token 的上下文长度,并能生成 8K token 的文本,支持长篇内容创作。除部分特殊版本外,模型主要采用 Apache 2....

2024年9月19日 · 8 分钟 · 1564 字 · Qwen Team

Qwen2.5-Coder: 码无止境,学无止境!

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 简介 四月初,我们发布了 CodeQwen1.5, 得到了社区广泛的关注与喜爱。自那以后,我们一直在继续努力提升代码模型。今天,我们很高兴地宣布新一代的开放代码模型 Qwen2.5-Coder 的发布。并正式将 CodeQwen 的命名改为 Qwen-Coder,我们认为 Coder 更加拟人、灵动,期待其可以在未来真正与人类结对编程。Qwen2.5-Coder 是我们 Qwen2.5 开源家族的一员,共包括三个尺寸的模型:1.5B、 7B 和 32B(在路上)。 本次更新的两大核心包括代码训练数据的进一步 scaling,以及探索在提升代码能力的同时保持数学和通用能力。 码无止境:Qwen2.5-Coder 基于强大的 Qwen2.5 初始化,扩增了更大规模的代码训练数据持续训练,包括源代码、文本代码混合数据、合成数据等共计 5.5T tokens。使得 Qwen2.5-Coder 在代码生成、代码推理、代码修复等任务上都有了显著提升。 学无止境:我们希望 Qwen2.5-Coder 在提升代码能力的同时,也能保持在数学、通用能力等方面的优势。因此,我们在 Qwen2.5-Coder 中加入了更多的数学、通用能力数据,为未来的真实应用提供更为全面的基座。 Qwen2.5-Coder: Base Models Qwen2.5-Coder 最多 128K tokens 上下文,支持 92 种编程语言,并在多个代码相关的评估任务中都取得了显著的提升,包括代码生成、多编程语言代码生成、代码补全、代码修复等。值得注意的是,本次开源的 7B 版本 Qwen2.5-Coder,甚至打败了更大尺寸的 DeepSeek-Coder-V2-Lite 和 CodeStral-22B,成为当前最强大的基础代码模型之一。除了代码任务外,Qwen2.5-Coder 也具备极具竞争力的数学能力。面向通用任务,我们评估了 MMLU 和 ARC,结果表明 Qwen2.5-Coder 很好的保持了 Qwen2.5 的通用能力。 Qwen2.5-Coder-Instruct: Instruction-Tuned Models 我们在 Qwen2.5-Coder 的基础上,通过指令微调,得到了 Qwen2.5-Coder-Instruct。Qwen2.5-Coder-Instruct 除了进一步提升了多个任务上的性能外,还在更多的评估中体现出了卓越的泛化性。...

2024年9月19日 · 2 分钟 · 233 字 · Qwen Team

Qwen2.5-Math: 世界领先的数学开源大语言模型

GITHUB HUGGING FACE MODELSCOPE DISCORD 🚨 Qwen2.5-Math主要被设计用于通过CoT或TIR的方式解中英数学题,我们不推荐在其他任务上使用该系列模型。 简介 一个月前,我们开源了 Qwen 家族的第一款数学专项大语言模型- Qwen2-Math。 今天,我们将它再度升级并开源 Qwen2.5-Math 系列,包括基础模型 Qwen2.5-Math-1.5B/7B/72B,指令微调模型Qwen2.5-Math-1.5B/7B/72B-Instruct和数学奖励模型 Qwen2.5-Math-RM-72B。 相较于 Qwen2-Math 只支持使用思维链(CoT)解答英文数学题目,Qwen2.5 系列扩展为同时支持使用思维链和工具集成推理(TIR) 解决中英双语的数学题。Qwen2.5-Math系列相比上一代Qwen2.5-Math在中文和英文的数学解题能力上均实现了显著提升。 虽然 CoT 在增强 LLM 的推理能力方面发挥着重要作用,但它在实现计算精度和处理复杂的数学或算法推理任务方面依然面临挑战,例如寻找二次方程的根或计算矩阵的特征值等等。而 TIR(如使用python解释器)可以进一步提高模型在精确计算、符号操作和算法操作方面的能力。Qwen2.5-Math-1.5B/7B/72B-Instruct 使用 TIR 在 MATH 基准测试中分别达到 79.7、85.3 和 87.8的高分。 Qwen2.5-Math: 基础模型 Qwen2-Math 和 Qwen2.5-Math 的整体训练流程如上图所示。在训练完 Qwen2-Math 基础模型后,我们通过三个主要途径将其进一步升级为 Qwen2.5-Math 模型: 1)利用 Qwen2-Math-72B-Instruct 模型合成更多高质量的数学预训练数据。 2)通过多轮召回从网络资源、书籍和代码中获取更多高质量的数学数据,尤其是中文数学数据。 3)利用 Qwen2.5 系列基础模型进行参数初始化,它们相比Qwen2有更强大的语言理解、代码生成和文本推理能力。 最终,我们为 Qwen2.5-Math-1.5B/7B/72B 构建了名为 Qwen Math Corpus v2 的预训练数据集,并保持上下文长度为4K。与用于 Qwen2-Math 预训练的 Qwen Math Corpus v1 相比,Qwen Math Corpus v2 的总 token 数量从 700B 增加到超过 1T。...

2024年9月19日 · 2 分钟 · 341 字 · Qwen Team

Qwen2-VL: 更清晰地看世界

DEMO GITHUB HUGGING FACE MODELSCOPE API DISCORD 经历了接近一年时间的持续努力,今天我们很高兴地宣布我们最新一代的视觉语言模型:Qwen2-VL !Qwen2-VL 基于 Qwen2 打造,相比 Qwen-VL,它具有以下特点: 读懂不同分辨率和不同长宽比的图片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。 理解20分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。 能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。 多语言支持:为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。 我们以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,并发布了 Qwen2-VL-72B 的 API!开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。希望能为您提供便捷的开发体验! 模型性能 我们从六个方面来评估我们模型的视觉能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。整体来看,我们 72B 规模的模型在大部分的指标上都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,特别是在文档理解方面优势明显,仅在对综合的大学题目上和 GPT-4o 还有差距。同时 Qwen2-VL 72B 也刷新了开源多模态模型的最好表现。 在 7B 规模上,我们同样支持图像、多图、视频的输入,在更经济的规模上也实现了有竞争力的性能表现,特别是像 DocVQA 之类的文档理解能力和 MTVQA 考察的图片中多语言文字理解能力都处于 SOTA 水平。 除此之外,我们还提供了一个更小的 2B 规模的模型,以此支持移动端的丰富应用。它具备完整图像视频多语言的理解能力,性能强劲,特别在视频文档和通用场景问答相较同规模模型优势明显。 模型能力案例 1. 更细节的识别理解 Qwen2-VL 不仅能识别植物和地标,而且能理解场景中多个对象间的关系。我们还特别增强了对手写文字及图像中多种语言的识别能力,令其在全球范围内更加易用。 Example: Multi-object Recognition Next User Output the color and number of each box....

2024年8月29日 · 12 分钟 · 2549 字 · Qwen Team

Qwen2-Audio:开启语音对话!

DEMO PAPER GITHUB HUGGING FACE MODELSCOPE DISCORD 在一个通用的AI系统中,核心模型应该能够理解不同模态的信息。当前的大语言模型现在已经能够理解语言并进行推理,并且已经扩展到了更多的模态,包括视觉和音频。此前我们陆续发布了多个 Qwen 语言模型系列以及 Qwen-VL 和 Qwen-Audio 等多模态模型。今天,我们正式发布 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。Qwen2-Audio 具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。 音频分析:该模型能够根据文本指令分析音频信息,包括语音、声音、音乐等。 多语言支持:该模型支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。 我们在 Hugging Face 和 ModelScope 上开源了 Qwen2-Audio-7B 以及 Qwen2-Audio-7B-Instruct,并且我们搭建了一个 demo 供用户互动。下面是一些具体例子: 语音交互 语音交互:基础交互 Next User Your browser does not support the audio element. Qwen2-Audio 这种情况可能会让人感到沮丧和困惑,但是你需要记住的是,你不能强迫任何人去喜欢你。如果你真的喜欢这个女孩,那么最好的办法就是尊重她的感受,不去打扰她,同时也要保持自己的尊严。 以下是一些建议:   1. 尊重她的决定:如果她明确表示不喜欢你,那么你应该尊重她的决定,不要试图改变她的想法。 2. 不要过于干涉:避免过多地干涉她的生活,也不要试图通过各种方式来接近她。 3. 保持距离:尽量避免与她有太多的接触,尤其是在她不希望的情况下。 4. 寻求支持:如果你感到很难过或者困惑,可以向你的朋友或家人寻求支持和建议。   最重要的是,你要保持自己的尊严和自信,不要因为别人的喜好而失去自我。 Your browser does not support the audio element. User Your browser does not support the audio element....

2024年8月9日 · 5 分钟 · 1058 字 · Qwen Team