Blog  []

Qwen-Image-Edit: 全能图像编辑,驱动内容创作提质增效

QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD 我们很高兴推出 Qwen-Image-Edit,Qwen-Image的图像编辑版本。Qwen-Image-Edit基于我们20B的 Qwen-Image 模型进一步训练,成功将Qwen-Image的独特的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。此外,Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能力。如需体验最新模型,欢迎访问 Qwen Chat 并选择“图像编辑”功能。 主要特性包括: 语义与外观双重编辑:Qwen-Image-Edit 既支持 low-level 的视觉外观编辑(如元素的添加、删除、修改等,要求图片其他区域完全不变),也支持 high-level 的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致)。 精准文字编辑:Qwen-Image-Edit 支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。 强大的基准性能: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在图像编辑任务上具备SOTA性能,是一个强大的图像编辑基础模型。 示例展示 Qwen-Image-Edit的一大亮点在于其强大的语义与外观双重编辑能力。所谓语义编辑,是指在保持原始图像视觉语义不变的前提下,对图像内容进行修改。我们以Qwen的吉祥物——卡皮巴拉为例,来直观展示这一能力: 可以看到,虽然编辑后的图像大多数像素与输入图像(最左侧的图)都不一样,但依然完美地保持了卡皮巴拉的角色一致性。Qwen-Image的强大的语义编辑能力使其能够轻松的进行原创IP的多样化创作。 更进一步的,我们在Qwen Chat上围绕MBTI十六型人格,设计了一系列编辑prompt,成功地基于吉祥物卡皮巴拉,完成了MBTI表情包的制作,轻松地拓展了IP。 此外,视角转换同样是语义编辑中的一个重要应用场景。如下方两张示例图所示,Qwen-Image-Edit不仅能够实现物体的90度旋转,还可以完成180度旋转,让我们直接看到物体的背面: 语义编辑的另一个典型应用是风格迁移。例如,输入一张人物头像,Qwen-Image-Edit可以轻松将其转换为吉卜力等多种风格,这在虚拟形象创作等场景中极具价值: 除了语义编辑,外观编辑也是常见的图像编辑需求。外观编辑强调在编辑过程中保持图像的部分区域完全不变,实现元素的增、删、改。下图展示了在图片中添加指示牌的案例,可以看到Qwen-Image-Edit不仅成功添加了指示牌,还生成了相应的倒影,细节处理十分到位。 下方是另一个有趣的例子,展示了如何在图片中删除细小的头发丝等微小物体。 此外,还可以对图像中指定的字母“n”进行颜色修改,将其变为蓝色,实现对特定元素的修改。 外观编辑在人物背景调整、服装更换等场景中同样有着广泛的应用,下面三张图片分别展示了这些实际应用场景。 Qwen-Image-Edit的另一大亮点在于其准确的的文字编辑能力,这得益于Qwen-Image在文字渲染方面的深厚积累。如下所示,以下两个案例直观展示了Qwen-Image-Edit在英文文字编辑上的强大表现: Qwen-Image-Edit同样能够直接对中文海报进行编辑,不仅可以修改海报中的大字,连细小的文字也能精准调整。 最后,让我们通过一个具体的图像编辑案例,演示如何利用链式编辑的方式,逐步修正Qwen-Image生成的书法作品中的错误: 在这幅作品中,有不少汉字存在生成错误。我们可以借助Qwen-Image-Edit,逐步修复它们。例如,可以在原图中用方框标注出需要修改的区域,指示Qwen-Image-Edit针对这些部分进行修正。这里,我们希望红框内正确地写出“稽”字,蓝色区域正确地写出“亭”字。 但实际操作中,“稽”字较为生僻,模型未能一次性完成修改。“稽”的右下角应为“旨”而非“日”。此时,我们可以进一步用红框圈出“日”的部分,让Qwen-Image-Edit对该细节进行微调,将其改为“旨”。 是不是很神奇?通过这种链式、逐步的编辑方式,我们可以持续修正错字,直至获得理想的最终效果。 最终,我们成功获得了完全正确的兰亭集序书法版本! 综上,我们希望Qwen-Image-Edit能够进一步推动在图像生成领域的发展,真正降低视觉内容创作的技术门槛,激发更多创新应用的可能。

2025年8月19日 · 1 分钟 · 48 字 · Qwen Team

Qwen-Image:擅长文字渲染的创作利器

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 我们很高兴推出 Qwen-Image,一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。如需体验最新模型,欢迎访问 Qwen Chat 并选择“图像生成”功能。 主要特性包括: 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。 一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。 性能表现 我们在多个公开基准上对Qwen-Image进行了全面评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。Qwen-Image在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。这凸显了Qwen-Image作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。 示例展示 Qwen-Image的突出能力之一是能够在不同场景中实现高保真的文本渲染。我们来看下面这个中文渲染的case: 宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。 模型不仅仅准确展示了宫崎骏的动漫风格,店铺的牌匾“云存储”,“云计算”,“云模型”,包括酒缸上的“千问”,都随着构图的景深,被真实准确的渲染。并且保留了人物姿势、神态刻画。 让我们再看一个中文渲染的case: 一副典雅庄重的对联悬挂于厅堂之中,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”, 横批“智启通义”,字体飘逸,中间挂在一着一副中国风的画作,内容是岳阳楼。 模型准确了绘制了左右联和横批,并且使用了书法效果,并在中间准确的生成了岳阳楼。桌子上放着的青花瓷也看着非常真实。 那么,模型在英文上的能力如何呢? 让我们来看一个英文渲染的case: Bookstore window display. A sign displays “New Arrivals This Week”. Below, a shelf tag with the text “Best-Selling Novels Here”. To the side, a colorful poster advertises “Author Meet And Greet on Saturday” with a central portrait of the author....

2025年8月4日 · 3 分钟 · 564 字 · Qwen Team

GSPO:迈向持续拓展的语言模型强化学习

PAPER DISCORD 引言 强化学习 (Reinforcement Learning,RL)已成为拓展语言模型、增强其深度推理与问题求解能力的关键技术范式。为了持续拓展 RL,首要前提是确保稳定、鲁棒的训练过程。然而,我们观察到现有的 RL 算法(如 GRPO)在长期训练中会暴露出严重的不稳定性问题并招致不可逆转的模型崩溃,阻碍了通过增加计算以获得进一步的性能提升。 为了能够持续拓展 RL,我们提出了 Group Sequence Policy Optimization (GSPO) 算法。不同于过去的 RL 算法,GSPO 定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。相较于 GRPO,GSPO 在以下方面展现出突出优势: 强大高效:GSPO 具备显著更高的训练效率,并且能够通过增加计算获得持续的性能提升; 稳定性出色:GSPO 能够保持稳定的训练过程,并且根本地解决了混合专家(Mixture-of-Experts,MoE)模型的 RL 训练稳定性问题; 基础设施友好:由于在序列层面执行优化,GSPO 原则上对精度容忍度更高,具有简化 RL 基础设施的诱人前景。 以上优点促成了最新的 Qwen3 模型(Instruct、Coder、Thinking)的卓越性能。 序列级别的优化目标 设 $x$ 为查询,$\pi_{\theta_\mathrm{old}}$ 为用于采样回复的策略,$\{y_i\}_{i=1}^G$ 为采样得到的回复组,$\widehat{A}_{i}$ 为各个回复的组内相对优势,$\pi_\theta$ 为需优化的当前策略。GSPO 采用以下优化目标: $$ \mathcal{J}_\text{GSPO} (\theta) = \mathbb{E}_{ x \sim \mathcal{D},\, \{y_i\}_{i=1}^G \sim \pi_{\theta_\text{old}}( \cdot | x) } \left[ \frac{1}{G} \sum_{i=1}^{G} \min \left( s_{i}(\theta) \widehat{A}_{i}, \, \mathrm{clip} \left( s_{i}(\theta), 1 - {\varepsilon}, 1 + {\varepsilon} \right) \widehat{A}_{i} \right) \right], $$ 其中...

2025年7月27日 · 2 分钟 · 298 字 · Qwen Team

Qwen-MT:速度与智能翻译的完美融合

DEMO API DISCORD 简介 我们通过Qwen API 推出了 Qwen-MT(qwen-mt-turbo)的最新升级版本。本次更新基于强大的 Qwen3 模型,进一步使用超大规模多语言和翻译数据对模型进行训练,全面增强其多语言理解与翻译能力,并结合强化学习技术,显著提升了翻译结果的准确性与语言流畅度。 核心亮点包括: 92 种语言互译:支持超过92种主流官方语言及重要方言之间的高质量互译,覆盖全球 95% 以上的人口,满足广泛的语言交流需求。 高度可控性:提供术语干预、领域提示、记忆库等专业翻译功能,并支持用户自定义提示,有效提升模型在复杂、专业或特定应用场景下的翻译表现。 低延迟、低成本:采用轻量级 MoE(Mixture of Experts)架构,在保证卓越性能的同时实现更快的响应速度和更低的 API 调用价格(每百万输出token低至2元),更适合高并发、实时性要求高的应用场景。 自动评估 在中英、英德多领域翻译以及 WMT24 多语言翻译任务中,Qwen-MT 显著优于同规模模型,如 GPT-4.1-mini、Gemini-2.5-Flash 和 Qwen3-8B。甚至与 GPT-4.1、Gemini-2.5-Pro、Qwen3-235B-A22B 等顶级大模型相比,翻译效果依然毫不逊色,凭借轻量化的模型架构设计带来快速的翻译体验。 人工评估 翻译自动评测存在一定的局限性。为更准确地评估翻译质量,我们针对中文、英语、日语、韩语、泰语、阿拉伯语、意大利语、俄语、西班牙语、法语等主要语言,开展了基于真实场景翻译数据的人工评测。每条测试样本均由三名专业译员独立评分并进行交叉校准,确保评估结果的客观性与可靠性。在合格率、优良率上,Qwen-MT 均展现出显著优势,体现出其在实际应用中的卓越翻译能力。 以下是一些翻译样例: 原文 Qwen-MT译文 Make your cubicle neat, tidy and make it a homey charm. 让你的隔间整洁有序,营造出温馨舒适的氛围。 Little study hack for y’all… do your homework/assignments the first day it was given to you… NO PROCRASTINATING!!! the day it was assigned 给大家一个学习小技巧……拿到作业/任务的第一天就完成它……千万别拖延!就在布置的当天完成! Kim also attended her ex’s first Donda listening party at Atlanta’s Mercedes-Benz Stadium on July 22....

2025年7月24日 · 4 分钟 · 650 字 · Qwen Team

Qwen3-Coder: 在世界中自主编程

GITHUB HUGGING FACE MODELSCOPE DISCORD 今天我们正式发布 Qwen3-Coder,这是我们迄今为止最具代理能力的代码模型。Qwen3-Coder 拥有多个尺寸,但我们迫不及待地给大家提供当前最强大的版本,Qwen3-Coder-480B-A35B-Instruct。这是一个总参数量 480B,激活 35B 的 MoE 模型,原生支持 256K token 的上下文并可通过 YaRN 扩展到 1M token,拥有卓越的代码和 Agent 能力。Qwen3-Coder-480B-A35B-Instruct 在 Agentic Coding、Agentic Browser-Use 和 Agentic Tool-Use 上取得了开源模型的 SOTA 效果,可以与 Claude Sonnet4 媲美。 与此同时,我们还推出并开源了一款用于代理式编程的命令行工具:Qwen Code。Qwen Code 基于 Gemini Code 进行二次开发,但我们进行了 prompt 和工具调用协议适配,使得 Qwen Code 可以最大程度激发 Qwen3-Coder 在 Agentic Coding 任务上的表现。另外,Qwen3-Coder 可以和社区优秀的编程工具结合,如 Claude Code、Cline 等,作为一款基础模型,我们期待在数字世界的任何角落都可以使用它,Agentic Coding in the World! Qwen3-Coder Pre-Training 我们在预训练阶段上仍然在努力,这次 Qwen3-Coder 我们从不同角度进行 Scaling,以提升模型的代码能力: 数据扩展:总计 7.5T(代码占比 70%),在保持通用与数学能力的同时,具备卓越的编程能力; 上下文扩展:原生支持 256K 上下文,借助 YaRN 可拓展至 1M,专为仓库级和动态数据(如 Pull Request)优化,助力 Agentic Coding; 合成数据扩展:利用 Qwen2....

2025年7月22日 · 2 分钟 · 424 字 · Qwen Team