Blog  []

QVQ-Max:有依据地思考

QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD 介绍 去年12月,我们推出了 QVQ-72B-Preview, 作为一个探索模型,它存在很多问题。今天,我们正式推出 QVQ-Max 视觉推理模型的第一版。这款模型的特点是,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。从数学题到生活小问题,从编程代码到艺术创作,QVQ-Max 都表现出了不俗的能力。虽然这只是我们的第一个版本,但它的潜力已经让人眼前一亮。 MathVision 是汇集各类困难多模态数学的 benchmark,我们通过模型在上面的表现来评估模型解决复杂数学问题的能力。如图所示,通过调整模型 thinking 的最大长度,我们会发现模型在 MathVision 的准确率会持续提升,这展现了模型巨大的潜力。 接下来,我们就来聊聊 QVQ-Max 的设计初衷、实际能力以及它能为大家做些什么。 为什么需要视觉推理? 传统的AI模型大多依赖文字输入,比如回答问题、写文章或者生成代码。但现实生活中,很多信息并不是用文字表达的,而是以图片、图表甚至视频的形式存在。一张图片可能包含丰富的细节,比如颜色、形状、位置关系等,而这些信息往往比文字更直观、也更复杂。 举个例子,如果你想知道一张建筑图纸是否合理,光靠描述可能很难判断,但如果能看到图纸并结合专业知识去分析,就会容易得多。这就是视觉推理的意义——它让 AI 不仅能“看”,还能“理解”并“思考”。 我们设计 QVQ-Max 的目标很简单:让它成为一个既“眼尖”又“脑快”的助手,帮助用户解决各种实际问题。 核心能力:从观察到推理 QVQ-Max的能力可以总结为三个方面:细致观察、深入推理和灵活应用。下面分别来说说它在这些方面的表现。 细致观察:抓住每一个细节 QVQ-Max 对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素。比如,它可以告诉你一张照片里有哪些物品、有什么文字标识,甚至还能指出一些你可能忽略的小细节。 深入推理:不只是“看到”,还要“想到” 仅仅识别出图片里的内容还不够,QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。 灵活应用:从解答问题到创作 除了分析和推理,QVQ-Max 还能做一些有趣的事情,比如帮你设计插画、生成短视频脚本,甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿,它可能会帮你完善成一幅完整的作品;上传一个日常照片,它可以化身犀利的评论家,占卜师。 样例 QVQ-Max 的应用范围很广,无论是在学习、工作还是日常生活中,它都能派上用场。 职场工具:在工作中,QVQ-Max 可以协助完成数据分析、信息整理、编程写代码等任务。 学习助手:对于学生来说,QVQ-Max 可以帮助解答数学、物理等科目的难题,尤其是那些配有图表的题目。它还能通过直观的方式讲解复杂概念,让学习变得更轻松。 生活小帮手:在生活中,QVQ-Max 也能提供不少实用建议。比如,它可以根据你的衣柜照片推荐穿搭方案,或者根据食谱图片指导你如何烹饪一道新菜。 Multi-image Recognition Next QVQ-Max-Preview Mathematical Reasoning Next QVQ-Max-Preview Interpreting Palm Readings (For Reference Only) Next QVQ-Max-Preview Video Understanding Next QVQ-Max-Preview Learn to code by watching videos Next QVQ-Max-Preview 下一步 目前的 QVQ-Max 只是第一版,还有很多可以提升的空间。接下来,我们会重点关注以下几个方向:...

2025年3月28日 · 1 分钟 · 92 字 · Qwen Team

Qwen2.5 Omni: See, Hear, Talk, Write, Do It All!

QWEN CHAT HUGGING FACE MODELSCOPE DASHSCOPE GITHUB PAPER DEMO DISCORD 我们发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。想要体验最新的模型,请访问 Qwen Chat 并选择Qwen2.5-Omni-7B。该模型现已在 Hugging Face、ModelScope、DashScope和 GitHub上开放,技术文档请查阅我们的论文。您可以通过我们的Demo体验互动功能,或加入我们的Discord进行讨论。 主要特点: 全能创新架构:我们提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。 实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。 自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。 全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。 卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。 Your browser does not support the video tag. 模型架构 Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。Thinker基于Transformer解码器架构,融合音频/图像编码器进行特征提取;Talker则采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。 模型性能 Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。 下一步 我们期待听到您的反馈,并看到您使用 Qwen2.5-Omni 开发的创新应用。在不久的将来,我们将着力增强模型对语音指令的遵循能力,并提升音视频协同理解能力。更值得期待的是,我们将持续拓展多模态能力边界,以发展成为一个全面的通用模型!

2025年3月27日 · 1 分钟 · 44 字 · Qwen Team

Qwen2.5-VL-32B: 更聪明、更轻量!

QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD 介绍 今年一月底,我们推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,我们使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下: 回复更符合人类主观偏好:调整了输出风格,使回答更加详细、格式更规范,并更符合人类偏好。 数学推理能力:复杂数学问题求解的准确性显著提升。 图像细粒度理解与推理:在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。 性能表现 我们与业内先进的同规模模型进行比较,包括近期推出的 Mistral-Small-3.1-24B 和 Gemma-3-27B-IT, Qwen2.5-VL-32B-Instruct 展现出了明显的优势,甚至超越了更大规模的 Qwen2-VL-72B-Instruct 模型。尤其是在多模态任务中,例如 MMMU、MMMU-Pro 和 MathVista,这些任务强调复杂的多步骤推理,Qwen2.5-VL-32B-Instruct 表现尤为突出。在注重主观用户体验评估的 MM-MT-Bench 基准测试中,该模型相较于其前代 Qwen2-VL-72B-Instruct 取得了显著进步。 除了在视觉能力上优秀,Qwen2.5-VL-32B-Instruct 在纯文本能力上也达到了同规模的最优表现。 样例 Fine-grained Image Understanding and Reasoning Next User I am driving a large truck on this road, and it is now 12 o’clock. Can I reach a place 110 kilometers away before 13 o’clock?...

2025年3月24日 · 9 分钟 · 1794 字 · Qwen Team

QwQ-32B: 领略强化学习之力

QWEN CHAT Hugging Face ModelScope DEMO DISCORD 大规模强化学习(RL)有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。这一次,我们探讨了大规模强化学习(RL)对大语言模型的智能的提升作用,同时很高兴推出我们最新的推理模型 QwQ-32B。这是一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外,我们还在推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。 QwQ-32B 已在 Hugging Face 和 ModelScope 开源,采用了 Apache 2.0 开源协议。大家可通过 Qwen Chat 直接进行体验! 模型效果 QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。 强化学习 我们在冷启动的基础上开展了大规模强化学习。在初始阶段,我们特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型(reward model)不同,我们通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。在第一阶段的 RL 过后,我们增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。我们发现,通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。 API 以下我们展示了一段简短的示例代码,说明如何通过 API 使用 QwQ-32B。 from openai import OpenAI import os # Initialize OpenAI client client = OpenAI( # If the environment variable is not configured, replace with your API Key: api_key="sk-xxx" # How to get an API Key:https://help....

2025年3月6日 · 2 分钟 · 227 字 · Qwen Team

<think>...</think> QwQ-Max-Preview

QWEN CHAT DISCORD 这篇博客出自 QwQ-Max-Preview 之手。希望各位看官喜欢! 介绍 <think> 好的,用户希望我为他们的博客创建一个标题和介绍,宣布 QwQ-Max-Preview 的发布。让我先整理一下他们提到的关键点。 首先,该模型属于通义千问系列,基于 Qwen2.5-Max 构建。这是一个预览版本,因此他们可能希望强调这是正式发布前的抢先体验。主要优势包括深度推理、数学、编程、通用领域以及与 Agent 相关的任务。他们还提到了未来的更新计划,并将开源代码,采用 Apache 2.0 许可证。 对于标题,我需要让它吸引人并包含模型名称。也许可以这样写:“隆重推出 QwQ-Max-Preview :深度推理与多领域精通的全新飞跃”。这突出了预览状态和关键功能。 介绍部分应简要总结公告内容。以对发布的兴奋之情开头,提到它基于 Qwen2.5-Max ,强调其在推理、数学、编程和 Agent 任务方面的强大能力。同时指出这是一个预览版本,未来会有更新,并最终开源。保持简洁,不展开解释,按照用户要求避免使用 Markdown,段落也要简短。最后检查是否涵盖了所有要点:模型名称、基于 Qwen2.5、预览状态、推理/数学/编程/Agent 任务的优势、未来更新、以及 Apache 2.0 开源许可。是的,这些都包括了。好了,现在开始整合内容。 </think> 我们很高兴向大家介绍 QwQ-Max-Preview,这是 Qwen 系列的最新成果。这一版本基于 Qwen2.5-Max 构建,在数学、编程以及通用任务中展现了更强的能力,同时在与 Agent 相关的工作流中也有不错的表现。作为即将发布的 QwQ-Max 的预览版,这个版本还在持续优化中。我们计划在不久的将来以 Apache 2.0 许可协议开源发布 QwQ-Max 以及 Qwen2.5-Max。我们期待与大家一起探索智能推理的更多可能性! 示例 Coding Next QwQ-Max-Preview Game Next QwQ-Max-Preview Game Next QwQ-Max-Preview Agent Next QwQ-Max-Preview Agent Next QwQ-Max-Preview Math Next QwQ-Max-Preview Creative Writing Next QwQ-Max-Preview Search Next QwQ-Max-Preview 接下来的工作 <think>...

2025年2月25日 · 1 分钟 · 133 字 · Qwen Team