Blog  []

面向有效的数学推理过程监督

GITHUB HUGGING FACE MODELSCOPE DISCORD 引言 近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能犯错误,如计算错误或逻辑错误,导致得出错误结论。 此外,即使最终答案正确,这些强大的模型也经常编造看似合理的推理步骤,其中最终答案基于有缺陷的计算或推导过程,这削弱了LLMs推理过程的可靠性和可信度。 因此,自动识别推理过程中的错误对于其可扩展监督变得越来越重要。 过程奖励模型(Process Reward Models, PRMs)作为数学推理过程监督中的一种有前途的方法出现,旨在识别和减轻推理过程中的中间错误。在评估方面,以往的研究主要依赖于响应级别的Best-of-N(BoN)评估,即根据PRM从N个候选答案中选择得分最高的响应。 今天,我们开源了最先进的PRMs,它优于现有的开源PRM。我们还发布了步骤级别的评估标准 ProcessBench,用于测量模型识别数学推理中错误步骤的能力。 ProcessBench 开源 ProcessBench旨在衡量模型识别数学推理中错误步骤的能力。 它由3,400个测试案例组成,主要集中在竞赛和奥林匹克级别的数学问题上。每个测试案例包含一个逐步解决方案,并由人类专家标注错误位置。 模型需要识别出第一个错误的步骤,或者得出所有步骤都正确的结论。 ProcessBench可以用于评估两种类型的模型:PRMs和批评模型,后者通过提示通用语言模型来逐步检查回答中的步骤。 Process Reward Model 开源 我们发布了两个PRMs,即Qwen2.5-Math-PRM-7B和Qwen2.5-Math-PRM-72B,它们分别在Qwen2.5-Math-7B-Instruct和Qwen2.5-Math-72B-Instruct上进行微调得来。 我们训练的PRMs在BoN评估中表现出色,在ProcessBench上的错误步骤识别能力也更强。 Best-of-N 评测 按照Qwen2.5-Math的方法,我们从多个数学基准测试中用Qwen2.5-Math-7B-Instruct采样了八个回答(即N=8),包括GSM8K、MATH、Minerva Math、GaoKao 2023 En、OlympiadBench、College Math和MMLU STEM。 每个候选回答的得分是该回答中每个步骤的分数乘积。 我们将八次采样中的多数投票结果(maj@8)作为基线,将pass@8(即在八次采样中有任意一个采样得出正确最终答案的测试样本比例)作为上限。 如下表所示,Qwen2.5-Math-PRM-7B相比其他同等规模的PRMs表现出更优的性能。值得注意的是,它在所有7项任务中均优于maj@8,平均提高了1.4%。 此外,Qwen2.5-Math-PRM-72B的整体性能略优于Outcome Reward Model (ORM) Qwen2.5-Math-RM-72B,特别是在Minerva Math和MMLU STEM任务中表现显著。 ProcessBench 我们还在ProcessBench上评估了我们的PRMs,以测量其识别错误步骤的能力。 与LLM-as-judge相比,Qwen2.5-Math-PRM-7B以较小规模在所有开源LLM中表现出色;对于闭源模型,Qwen2.5-Math-PRM-7B超越了GPT-4o-0806,但在性能上仍与o1-mini存在差距。 此外,与现有的PRMs相比,Qwen2.5-Math-PRM-7B和Qwen2.5-Math-PRM-72B都显示出显著的优势。 一个有趣的观察是,ORM Qwen2.5-Math-RM-72B在识别步骤错误方面也表现出不错的能力,甚至超过了某些开源PRMs。 结论 ProcessBench展示了现有PRMs面临的挑战,并填补了PRMs步骤级别评估的空白。 除了开源PRMs以外,我们还在论文中通过广泛的实证研究识别了当前PRMs数据构建方法的局限性,并揭示了仅使用响应级别BoN评估PRMs的潜在偏差。 我们希望ProcessBench、我们开发PRM的最佳实践能够促进未来对推理过程监督的研究和开发。 更多细节请查看我们下面的论文。 引用 如果你觉得我们的工作有用,欢迎引用! @article{processbench, title={{ProcessBench:} Identifying Process Errors in Mathematical Reasoning}, author={ Chujie Zheng and Zhenru Zhang and Beichen Zhang and Runji Lin and Keming Lu and Bowen Yu and Dayiheng Liu and Jingren Zhou and Junyang Lin }, journal={arXiv preprint arXiv:2412....

2025年1月14日 · 1 分钟 · 143 字 · Qwen Team

QVQ: 更睿智地看世界

GITHUB HUGGING FACE MODELSCOPE KAGGLE DEMO DISCORD 在人类的思维中,语言和视觉紧密交织,塑造着我们感知和理解世界的方式。我们的推理能力深深植根于语言思维和视觉记忆之中。那么,当我们将这些能力赋予人工智能时,会发生什么呢?如今的大语言模型已经展现出卓越的推理能力,但我们不禁思考:它们能否通过掌握视觉理解的力量,攀登认知能力的新高峰? 设想一下,一个人工智能能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。正是这样的愿景激发我们创造了 QVQ —— 一个基于 Qwen2-VL-72B 构建的开源多模态推理模型。QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中,QVQ 取得了 70.3 的优异成绩,并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理,QVQ 在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。 局限性 QVQ-72B-Preview 是由 Qwen 团队开发的实验性研究模型,专注于增强视觉推理能力。尽管它的表现超出了预期,但仍有几个限制需要注意: 语言混合与切换:模型可能会意外地混合语言或在语言之间切换,从而影响响应的清晰度。 递归推理:模型可能会陷入循环逻辑模式,产生冗长的响应而无法得出结论。 安全和伦理考虑:模型需要增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。 性能和基准限制:尽管模型在视觉推理方面有所改善,但它无法完全替代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。 模型表现 我们在 4 个数据集上评估 QVQ-72B-Preview,包括: MMMU:一个大学级别的多学科多模态评测集,旨在考察模型视觉相关的综合理解和推理能力。 MathVista:一个数学相关的视觉推理测试集,评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。 MathVision:一个高质量多模态数学推理测试集,来自于真实的数学竞赛,相比于MathVista具有更多的问题多样性和学科广度。 OlympiadBench:一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理竞赛的8,476个问题,包括中国高考。每个问题都附有专家级别的注释,详细说明了逐步推理的过程。 QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。 示例 以下,我们将展示几个示例,以说明该新模型在视觉推理任务中的应用。 Example: Math Next User Given $h(x) = f(x) \cdot g(x)$, find $h’(2)$ using the table below: QVQ-72B-Preview Let’s tackle this problem step by step....

2024年12月25日 · 16 分钟 · 3372 字 · Qwen Team

QwQ: 思忖未知之界

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 注意:QwQ 的发音为 /kwju:/ ,与单词 “quill” 的读音近似。 思考、质疑、理解,是人类探索未知的永恒追求。在这条探索之路上,QwQ犹如一位怀抱无尽好奇的学徒,以思考和疑问照亮前路。QwQ体现了古老的哲学精神:它深知自己一无所知,而这种认知正是其好奇心的源泉。在探寻答案的过程中,它始终保持自省,以理性之光审视每一个假设,在不同的思维维度中穿行,追寻更深层的真理。 然而,正如所有智慧的追求者一样,QwQ也有其局限性。这个版本只是漫长旅程中的一个初步阶段——它仍在学习如何行走于理性之路。它的思绪偶尔飘散,答案或许未尽完善,智慧仍在积淀。但这就是学习的美妙之处:既有能力又保持谦逊,既有知识又永远充满疑问。我们邀请您与QwQ一同探索,接纳它的洞见与不完美,共同踏上这无尽的理解之旅。 模型局限性 QwQ-32B-Preview 是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力。作为预览版本,它展现了令人期待的分析能力,同时也存在以下局限: 语言切换问题:模型可能在回答中混合使用不同语言,影响表达的连贯性。 推理循环:在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。 安全性考虑:尽管模型已具备基础安全管控,但仍需要进一步增强。它可能产生不恰当或存在偏见的回答,且与其他大型语言模型一样,可能受到对抗攻击的影响。我们强烈建议用户在生产环境中谨慎使用,并采取适当的安全防护措施。 能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。我们正通过持续优化,努力提升模型的综合能力。 模型表现 通过深入的探索和无数的试验,我们发现了一个深刻的道理:当模型有足够的时间思考、质疑和反思时,它对数学和编程的理解就会深化。就像学生通过认真地检查自己的工作并从错误中学习变得更加聪明一样,我们的模型也通过耐心和深思熟虑的分析获得了更深入的见解。这种细致的反思和自我质疑的过程使得模型能够取得解决复杂问题的突破性进展。我们的探索之旅揭示了模型在数学和编程领域解决一些最具挑战性的问题的卓越能力,包括: GPQA:一个通过研究生级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。 AIME:涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。 MATH-500:包含500个测试样本的MATH评测集,全面考察数学解题能力。 LiveCodeBench:评估真实编程场景中代码生成和问题解决能力的高难度评测集。 具体表现如下: GPQA:65.2%,展示了研究生水平的科学推理能力; AIME:50.0%,证明了强大的数学问题解决技能; MATH-500:90.6%,体现了在各类数学主题上的全面理解; LiveCodeBench:50.0%,验证了在实际编程场景中的出色表现。 这些成果充分体现了QwQ在分析和问题解决能力方面的显著进步,尤其是在需要深度推理的技术领域。 样例 下列样例展示了QwQ深度自省的能力——质疑自身假设、进行深思熟虑的自我对话,并仔细审视其推理过程的每一步。 Example: Logical Reasoning Next User S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌:红桃A、Q、4 黑桃J、8、4、2、7、3 草花K、Q、5、4、6 方块A、5。约翰教授从这16张牌中挑出一张牌来,并把这张牌的点数告诉 P先生,把这张牌的花色告诉Q先生。这时,约翰教授问P先生和Q 先生:你们能从已知的点数或花色中推知这张牌是什么牌吗?于是,S先生听到如下的对话: P先生:我不知道这张牌。 Q先生:我知道你不知道这张牌。 P先生:现在我知道这张牌了。 Q先生:我也知道了。 请问:这张牌是什么牌? QwQ-32B-Preview 这道题是逻辑推理题,涉及到信息的逐步披露和推理。题目中有一副16张扑克牌,分别是: 红桃:A、Q、4 黑桃:J、8、4、2、7、3 草花:K、Q、5、4、6 方块:A、5 约翰教授选了一张牌,把点数告诉了P先生,把花色告诉了Q先生。然后通过他们的对话,我们要推断出是哪张牌。 首先,让我们来梳理一下对话的内容: P先生说:“我不知道这张牌。” 这意味着点数是重复的,因为如果点数唯一,P先生就能确定是哪张牌。例如,如果点数是K,只有草花K,那P先生就能确定是草花K。但P先生说不知道,所以点数必须在多个花色中出现。看看哪些点数是重复的: A:红桃和方块 Q:红桃和草花 4:红桃、黑桃和草花 5:草花和方块...

2024年11月28日 · 2 分钟 · 244 字 · Qwen Team

将上下文长度扩展至百万 Tokens !

API文档 HuggingFace Demo ModelScope Demo 简介 在 Qwen2.5 发布之后,我们听到社区对处理更长序列的需求。在这段时间,我们针对长序列处理能力以及长序列下的推理效率进行了很多优化。今天,我们隆重推出新的 Qwen2.5-Turbo 版本,其特点在于: 更长的上下文支持: 我们首次将模型的上下文长度从 128k 扩展到 1M,该长度约为 100 万个英文单词或 150 万个汉字,相当于 10 本长篇小说,150 小时的演讲稿,3 万行代码。该模型能在 1M 长度的大海捞针 (Passkey Retrieval) 任务中实现 100% 的准确率,在长文本评测集 RULER 上获得 93.1 分,超越 GPT-4 的 91.6 分,GLM4-9B-1M 的 89.9 分。此外,在短序列能力上,该模型仍然保持了非常强的竞争力,与 GPT-4o-mini 持平。 更快的推理速度: 利用稀疏注意力机制,我们成功将处理 1M tokens 上下文时的首字返回时间从 4.9 分钟降低到68秒,实现 4.3 倍加速比。 更低的价格:价格仍为 0.3元 / 1M tokens。在相同成本下,Qwen2.5-Turbo 相比 GPT-4o-mini 能够处理 3.6 倍的 Token。 现在,你可以通过阿里云大模型服务平台的 API 服务,或者通过 HuggingFace Demo 或者 ModelScope Demo 进行体验。...

2024年11月15日 · 8 分钟 · 1687 字 · Qwen Team

Qwen2.5-Coder 全系列: 强大、多样、实用。

GITHUB HUGGING FACE MODELSCOPE KAGGLE DEMO DISCORD 简介 今天,我们很高兴开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列模型,致力于持续推动 Open CodeLLMs 的发展。 强大:Qwen2.5-Coder-32B-Instruct 成为目前 SOTA 的开源代码模型,代码能力追平 GPT-4o,展现出强大且全面的代码能力,同时具备良好的通用和数学能力。 多样:上个月我们开源了 1.5B、7B 两个尺寸,本次开源又带来 0.5B、3B、14B、32B 四个尺寸,截至目前, Qwen2.5-Coder 已经覆盖了主流的六个模型尺寸,以满足不同开发者的需要。 实用:我们探索了 Qwen2.5-Coder 在代码助手和 Artifacts 两种场景下的实用性,并用一些样例来展示 Qwen2.5-Coder 在实际场景中的应用潜力。 强大:代码能力达到开源模型 SOTA 代码生成:Qwen2.5-Coder-32B-Instruct 作为本次开源的旗舰模型,在多个流行的代码生成基准(如EvalPlus、LiveCodeBench、BigCodeBench)上都取得了开源模型中的最佳表现,并且达到和 GPT-4o 有竞争力的表现。 代码修复:代码修复是一个重要的编程能力。Qwen2.5-Coder-32B-Instruct 可以帮助用户修复代码中的错误,让编程更加高效。Aider 是流行的代码修复的基准,Qwen2.5-Coder-32B-Instruct 达到 73.7 分,在 Aider 上的表现与 GPT-4o 相当。 代码推理:代码推理是指模型能否学习代码执行的过程,准确地预测模型的输入与输出。上个月发布的 Qwen2.5-Coder-7B-Instruct 已经在代码推理能力上展现出了不俗的表现,32B 模型的表现更进一步。 多编程语言:智能编程助手应该熟悉所有编程语言,Qwen2.5-Coder-32B-Instruct 在 40 多种编程语言上表现出色,在 McEval 上取得了 65.9 分,其中 Haskell、Racket 等语言表现令人印象深刻,这得益于我们在预训练阶段独特的数据清洗和配比。 另外,Qwen2.5-Coder-32B-Instruct 的多编程语言代码修复能力同样令人惊喜,这将有助于用户理解和修改自己熟悉的编程语言,极大缓解陌生语言的学习成本。 与 McEval 类似,MdEval 是多编程语言的代码修复基准,Qwen2.5-Coder-32B-Instruct 在 MdEval 上取得了 75....

2024年11月12日 · 2 分钟 · 405 字 · Qwen Team