Blog  []

QwQ: 思忖未知之界

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 注意:QwQ 的发音为 /kwju:/ ,与单词 “quill” 的读音近似。 思考、质疑、理解,是人类探索未知的永恒追求。在这条探索之路上,QwQ犹如一位怀抱无尽好奇的学徒,以思考和疑问照亮前路。QwQ体现了古老的哲学精神:它深知自己一无所知,而这种认知正是其好奇心的源泉。在探寻答案的过程中,它始终保持自省,以理性之光审视每一个假设,在不同的思维维度中穿行,追寻更深层的真理。 然而,正如所有智慧的追求者一样,QwQ也有其局限性。这个版本只是漫长旅程中的一个初步阶段——它仍在学习如何行走于理性之路。它的思绪偶尔飘散,答案或许未尽完善,智慧仍在积淀。但这就是学习的美妙之处:既有能力又保持谦逊,既有知识又永远充满疑问。我们邀请您与QwQ一同探索,接纳它的洞见与不完美,共同踏上这无尽的理解之旅。 模型局限性 QwQ-32B-Preview 是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力。作为预览版本,它展现了令人期待的分析能力,同时也存在以下局限: 语言切换问题:模型可能在回答中混合使用不同语言,影响表达的连贯性。 推理循环:在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。 安全性考虑:尽管模型已具备基础安全管控,但仍需要进一步增强。它可能产生不恰当或存在偏见的回答,且与其他大型语言模型一样,可能受到对抗攻击的影响。我们强烈建议用户在生产环境中谨慎使用,并采取适当的安全防护措施。 能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。我们正通过持续优化,努力提升模型的综合能力。 模型表现 通过深入的探索和无数的试验,我们发现了一个深刻的道理:当模型有足够的时间思考、质疑和反思时,它对数学和编程的理解就会深化。就像学生通过认真地检查自己的工作并从错误中学习变得更加聪明一样,我们的模型也通过耐心和深思熟虑的分析获得了更深入的见解。这种细致的反思和自我质疑的过程使得模型能够取得解决复杂问题的突破性进展。我们的探索之旅揭示了模型在数学和编程领域解决一些最具挑战性的问题的卓越能力,包括: GPQA:一个通过研究生级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。 AIME:涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。 MATH-500:包含500个测试样本的MATH评测集,全面考察数学解题能力。 LiveCodeBench:评估真实编程场景中代码生成和问题解决能力的高难度评测集。 具体表现如下: GPQA:65.2%,展示了研究生水平的科学推理能力; AIME:50.0%,证明了强大的数学问题解决技能; MATH-500:90.6%,体现了在各类数学主题上的全面理解; LiveCodeBench:50.0%,验证了在实际编程场景中的出色表现。 这些成果充分体现了QwQ在分析和问题解决能力方面的显著进步,尤其是在需要深度推理的技术领域。 样例 下列样例展示了QwQ深度自省的能力——质疑自身假设、进行深思熟虑的自我对话,并仔细审视其推理过程的每一步。 Example: Logical Reasoning Next User S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌:红桃A、Q、4 黑桃J、8、4、2、7、3 草花K、Q、5、4、6 方块A、5。约翰教授从这16张牌中挑出一张牌来,并把这张牌的点数告诉 P先生,把这张牌的花色告诉Q先生。这时,约翰教授问P先生和Q 先生:你们能从已知的点数或花色中推知这张牌是什么牌吗?于是,S先生听到如下的对话: P先生:我不知道这张牌。 Q先生:我知道你不知道这张牌。 P先生:现在我知道这张牌了。 Q先生:我也知道了。 请问:这张牌是什么牌? QwQ-32B-Preview 这道题是逻辑推理题,涉及到信息的逐步披露和推理。题目中有一副16张扑克牌,分别是: 红桃:A、Q、4 黑桃:J、8、4、2、7、3 草花:K、Q、5、4、6 方块:A、5 约翰教授选了一张牌,把点数告诉了P先生,把花色告诉了Q先生。然后通过他们的对话,我们要推断出是哪张牌。 首先,让我们来梳理一下对话的内容: P先生说:“我不知道这张牌。” 这意味着点数是重复的,因为如果点数唯一,P先生就能确定是哪张牌。例如,如果点数是K,只有草花K,那P先生就能确定是草花K。但P先生说不知道,所以点数必须在多个花色中出现。看看哪些点数是重复的: A:红桃和方块 Q:红桃和草花 4:红桃、黑桃和草花 5:草花和方块...

2024年11月28日 · 2 分钟 · 244 字 · Qwen Team

将上下文长度扩展至百万 Tokens !

API文档 HuggingFace Demo ModelScope Demo 简介 在 Qwen2.5 发布之后,我们听到社区对处理更长序列的需求。在这段时间,我们针对长序列处理能力以及长序列下的推理效率进行了很多优化。今天,我们隆重推出新的 Qwen2.5-Turbo 版本,其特点在于: 更长的上下文支持: 我们首次将模型的上下文长度从 128k 扩展到 1M,该长度约为 100 万个英文单词或 150 万个汉字,相当于 10 本长篇小说,150 小时的演讲稿,3 万行代码。该模型能在 1M 长度的大海捞针 (Passkey Retrieval) 任务中实现 100% 的准确率,在长文本评测集 RULER 上获得 93.1 分,超越 GPT-4 的 91.6 分,GLM4-9B-1M 的 89.9 分。此外,在短序列能力上,该模型仍然保持了非常强的竞争力,与 GPT-4o-mini 持平。 更快的推理速度: 利用稀疏注意力机制,我们成功将处理 1M tokens 上下文时的首字返回时间从 4.9 分钟降低到68秒,实现 4.3 倍加速比。 更低的价格:价格仍为 0.3元 / 1M tokens。在相同成本下,Qwen2.5-Turbo 相比 GPT-4o-mini 能够处理 3.6 倍的 Token。 现在,你可以通过阿里云大模型服务平台的 API 服务,或者通过 HuggingFace Demo 或者 ModelScope Demo 进行体验。...

2024年11月15日 · 8 分钟 · 1687 字 · Qwen Team

Qwen2.5-Coder 全系列: 强大、多样、实用。

GITHUB HUGGING FACE MODELSCOPE KAGGLE DEMO DISCORD 简介 今天,我们很高兴开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列模型,致力于持续推动 Open CodeLLMs 的发展。 强大:Qwen2.5-Coder-32B-Instruct 成为目前 SOTA 的开源代码模型,代码能力追平 GPT-4o,展现出强大且全面的代码能力,同时具备良好的通用和数学能力。 多样:上个月我们开源了 1.5B、7B 两个尺寸,本次开源又带来 0.5B、3B、14B、32B 四个尺寸,截至目前, Qwen2.5-Coder 已经覆盖了主流的六个模型尺寸,以满足不同开发者的需要。 实用:我们探索了 Qwen2.5-Coder 在代码助手和 Artifacts 两种场景下的实用性,并用一些样例来展示 Qwen2.5-Coder 在实际场景中的应用潜力。 强大:代码能力达到开源模型 SOTA 代码生成:Qwen2.5-Coder-32B-Instruct 作为本次开源的旗舰模型,在多个流行的代码生成基准(如EvalPlus、LiveCodeBench、BigCodeBench)上都取得了开源模型中的最佳表现,并且达到和 GPT-4o 有竞争力的表现。 代码修复:代码修复是一个重要的编程能力。Qwen2.5-Coder-32B-Instruct 可以帮助用户修复代码中的错误,让编程更加高效。Aider 是流行的代码修复的基准,Qwen2.5-Coder-32B-Instruct 达到 73.7 分,在 Aider 上的表现与 GPT-4o 相当。 代码推理:代码推理是指模型能否学习代码执行的过程,准确地预测模型的输入与输出。上个月发布的 Qwen2.5-Coder-7B-Instruct 已经在代码推理能力上展现出了不俗的表现,32B 模型的表现更进一步。 多编程语言:智能编程助手应该熟悉所有编程语言,Qwen2.5-Coder-32B-Instruct 在 40 多种编程语言上表现出色,在 McEval 上取得了 65.9 分,其中 Haskell、Racket 等语言表现令人印象深刻,这得益于我们在预训练阶段独特的数据清洗和配比。 另外,Qwen2.5-Coder-32B-Instruct 的多编程语言代码修复能力同样令人惊喜,这将有助于用户理解和修改自己熟悉的编程语言,极大缓解陌生语言的学习成本。 与 McEval 类似,MdEval 是多编程语言的代码修复基准,Qwen2.5-Coder-32B-Instruct 在 MdEval 上取得了 75....

2024年11月12日 · 2 分钟 · 405 字 · Qwen Team

Qwen2.5: 基础模型大派对!

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 简介 在 Qwen2 发布后的过去三个月里,许多开发者基于 Qwen2 语言模型构建了新的模型,并为我们提供了宝贵的反馈。在这段时间里,我们专注于创建更智能、更博学的语言模型。今天,我们很高兴地向大家介绍 Qwen 家族的最新成员:Qwen2.5。 我们将要宣布的可能是历史上最大的开源发布!让我们开始这场盛会吧! 我们的最新发布包括了语言模型 Qwen2.5,以及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型。所有开放权重的模型都是稠密的、decoder-only的语言模型,提供多种不同规模的版本,包括: Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B; Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B; Qwen2.5-Math: 1.5B, 7B, 以及72B。 除了3B和72B的版本外,我们所有的开源模型都采用了 Apache 2.0 许可证。您可以在相应的 Hugging Face 仓库中找到许可证文件。除此之外,我们还通过 Model Studio 提供了旗舰语言模型 Qwen-Plus 和 Qwen-Turbo 的 API,诚邀您来体验和使用!此外,我们还开源了相比上个月发布的版本有性能提升的 Qwen2-VL-72B。 如需了解更多关于 Qwen2.5、Qwen2.5-Coder 和 Qwen2.5-Math 的详细信息,请随时访问以下链接: Qwen2.5 LLM Qwen2.5-Coder Qwen2.5-Math 准备好迎接我们全面的模型系列所带来的无限可能吧!我们非常高兴能够与您分享这些前沿模型,并期待看到您使用它们所取得的非凡成就! 要点总结 就 Qwen2.5 语言模型而言,所有模型都在我们最新的大规模数据集上进行了预训练,该数据集包含多达 18T tokens。相较于 Qwen2,Qwen2....

2024年9月19日 · 3 分钟 · 621 字 · Qwen Team

Qwen2.5-LLM:扩展大型语言模型的边界

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 简介 我们隆重推出最新发布的Qwen2.5系列语言模型!我们共开源了7款decoder-only的稠密模型,参数规模从0.5B到72B不等。我们调研发现产品对10B至30B模型的兴趣明显增加,同时3B规模的模型也越来越适用于移动端场景。为此,Qwen2.5系列开源了Qwen2.5-3B、Qwen2.5-14B 和 Qwen2.5-32B。同时,我们还推出了Qwen-Plus与Qwen-Turbo版本,可以通过阿里云大模型服务平台的API服务进行体验。 相比Qwen2系列,Qwen2.5带来了以下全新升级: 全面开源:考虑到用户对10B至30B范围模型的需求和移动端对3B模型的兴趣,此次除了继续开源Qwen2系列中的0.5B/1.5B/7B/72B四款模型外,Qwen2.5系列还增加了两个高性价比的中等规模模型—— Qwen2.5-14B 和 Qwen2.5-32B,以及一款适合移动端的 Qwen2.5-3B。所有模型在同类开源产品中均具有很强的竞争力,例如Qwen2.5-32B的整体表现超越了Qwen2-72B,Qwen2.5-14B则领先于Qwen2-57B-A14B。 更大规模、更高质量的预数据训练集:我们的预训练数据集规模从 7T tokens 扩展到了 18T tokens。 知识储备升级:Qwen2.5的知识涵盖更广。在MMLU基准中,Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到 74.2,和从84.2提升到 86.1。此外,Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-c 等多个基准测试中有了明显提升。 代码能力增强:得益于Qwen2.5-Coder的突破,Qwen2.5在代码生成能力上也大幅提升。Qwen2.5-72B-Instruct在LiveCodeBench(2305-2409)、MultiPL-E和MBPP中的分别得分 55.5、75.1 和 88.2,优于Qwen2-72B-Instruct的32.2、69.2和80.2。 数学能力提升:引入了Qwen2-math的技术后,Qwen2.5的数学推理表现也有了快速提升。在MATH基准测试中,Qwen2.5-7B/72B-Instruct得分从Qwen2-7B/72B-Instruct的52.9/69.0上升到了 75.5/83.1。 更符合人类偏好:Qwen2.5生成的内容更加贴近人类的偏好。具体来看,Qwen2.5-72B-Instruct的Arena-Hard得分从 48.1 大幅提升至 81.2,MT-Bench得分也从 9.12 提升到了 9.35,与之前的Qwen2-72B相比提升显著。 其他核心能力提升:Qwen2.5在 指令跟随、生成 长文本(从1K升级到 8K tokens)、理解 结构化数据(如表格),以及生成 结构化输出(尤其是JSON)上都有非常明显的进步。此外,Qwen2.5能够更好响应多样化的 系统提示,用户可以给模型设置 特定角色 或 自定义条件。 模型基础信息 本次发布的 Qwen2.5 语言模型系列包括七个开源模型,规模从 0.5B 到 72B 不等。大多数模型支持 128K(131,072)个 token 的上下文长度,并能生成 8K token 的文本,支持长篇内容创作。除部分特殊版本外,模型主要采用 Apache 2....

2024年9月19日 · 8 分钟 · 1564 字 · Qwen Team