Blog  []

Qwen3Guard: 实时安全,逐词响应

Tech Report GitHub Hugging Face ModelScope DISCORD 介绍 我们隆重推出 Qwen3Guard —— Qwen 家族中首款专为安全防护设计的护栏模型。该模型基于强大的 Qwen3 基础架构打造,并针对安全分类任务进行了专项微调,旨在为人工智能交互提供精准、可靠的安全保障。无论是用户输入的提示,还是模型生成的回复,Qwen3Guard 均可高效识别潜在风险,输出细粒度的风险等级与分类标签,助力实现更负责任的 AI 应用。 在多项主流安全评测基准上,Qwen3Guard 表现卓越,稳居行业领先水平,全面覆盖英语、中文及多语言场景下的提示与回复安全检测任务。 Qwen3Guard 提供两大专业版本,满足不同应用场景需求: Qwen3Guard-Gen(生成式版) 支持对完整用户输入与模型输出进行安全分类,适用于离线数据集的安全标注、过滤,亦可作为强化学习中基于安全性的奖励信号源,是构建高质量训练数据的理想工具。 Qwen3Guard-Stream(流式检测版) 突破了传统的护栏模型架构,首次实现模型生成过程中的实时、流式安全检测,显著提升在线服务的安全响应效率与部署灵活性。 为适配多样化的部署环境与算力资源,两大版本均提供 0.6B、4B、8B 三种参数规模,兼顾性能与效率,满足从边缘设备到云端服务的全场景需求。 开源模型现已上线 Hugging Face 与 ModelScope 平台;您也可通过 阿里云 AI 安全护栏服务 一键接入企业级安全能力,享受由 Qwen3Guard 驱动的智能防护解决方案。 核心亮点 实时流式检测 Qwen3Guard-Stream 专为低延迟设计,可在模型逐词生成回复的过程中实时进行内容审核,确保安全性的同时不牺牲响应速度。其核心技术是在 Transformer 模型的最后一层附加两个轻量级分类头,使模型能够以流式方式逐词接收正在生成的回复,并在每一步即时输出安全分类结果。 三级风险等级分类 除传统的“安全”与“不安全”标签外,我们新增了 “争议性” 标签,以支持根据不同应用场景灵活调整安全策略。具体而言,用户可根据实际需求,动态将“争议性”内容重新归类为“安全”或“不安全”,从而按需调节审核的严格程度。 如下方评估所示,现有护栏模型受限于二元标签体系,难以同时适配不同数据集的标准。而 Qwen3Guard 凭借三级风险分类设计,可在“严格模式”与“宽松模式”间灵活切换,在多个数据集上均保持稳健的高性能表现。 多语言支持 Qwen3Guard 支持 119 种语言及方言,适用于全球部署与跨语言应用场景,并在各类语言中均能提供稳定、高质量的安全检测能力。 语系 语种&方言 印欧语系 英语、法语、葡萄牙语、德语、罗马尼亚语、瑞典语、丹麦语、保加利亚语、俄语、捷克语、希腊语、乌克兰语、西班牙语、荷兰语、斯洛伐克语、克罗地亚语、波兰语、立陶宛语、挪威语(博克马尔语)、挪威尼诺斯克语、波斯语、斯洛文尼亚语、古吉拉特语、拉脱维亚语、意大利语、奥克语、尼泊尔语、马拉地语、白俄罗斯语、塞尔维亚语、卢森堡语、威尼斯语、阿萨姆语、威尔士语、西里西亚语、阿斯图里亚语、恰蒂斯加尔语、阿瓦德语、迈蒂利语、博杰普尔语、信德语、爱尔兰语、法罗语、印地语、旁遮普语、孟加拉语、奥里雅语、塔吉克语、东意第绪语、伦巴第语、利古里亚语、西西里语、弗留利语、撒丁岛语、加利西亚语、加泰罗尼亚语、冰岛语、托斯克语、阿尔巴尼亚语、林堡语、罗马尼亚语、达里语、南非荷兰语、马其顿语僧伽罗语、乌尔都语、马加希语、波斯尼亚语、亚美尼亚语 汉藏语系 中文(简体中文、繁体中文、粤语)、缅甸语 亚非语系 阿拉伯语(标准语、内志语、黎凡特语、埃及语、摩洛哥语、美索不达米亚语、塔伊兹-阿德尼语、突尼斯语)、希伯来语、马耳他语 南岛语系 印度尼西亚语、马来语、他加禄语、宿务语、爪哇语、巽他语、米南加保语、巴厘岛语、班加语、邦阿西楠语、伊洛科语、瓦雷语(菲律宾) 德拉威语 泰米尔语、泰卢固语、卡纳达语、马拉雅拉姆语 突厥语系 土耳其语、北阿塞拜疆语、北乌兹别克语、哈萨克语、巴什基尔语、鞑靼语 壮侗语系 泰语、老挝语 乌拉尔语系 芬兰语、爱沙尼亚语、匈牙利语 南亚语系 越南语、高棉语 其他 日语、韩语、格鲁吉亚语、巴斯克语、海地语、帕皮阿门托语、卡布维尔迪亚努语、托克皮辛语、斯瓦希里语 更多应用场景 我们还展示了以下两种典型应用:...

2025年9月23日 · 4 分钟 · 778 字 · Qwen Team

Qwen-Image-Edit: 全能图像编辑,驱动内容创作提质增效

QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD 我们很高兴推出 Qwen-Image-Edit,Qwen-Image的图像编辑版本。Qwen-Image-Edit基于我们20B的 Qwen-Image 模型进一步训练,成功将Qwen-Image的独特的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。此外,Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能力。如需体验最新模型,欢迎访问 Qwen Chat 并选择“图像编辑”功能。 主要特性包括: 语义与外观双重编辑:Qwen-Image-Edit 既支持 low-level 的视觉外观编辑(如元素的添加、删除、修改等,要求图片其他区域完全不变),也支持 high-level 的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致)。 精准文字编辑:Qwen-Image-Edit 支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。 强大的基准性能: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在图像编辑任务上具备SOTA性能,是一个强大的图像编辑基础模型。 示例展示 Qwen-Image-Edit的一大亮点在于其强大的语义与外观双重编辑能力。所谓语义编辑,是指在保持原始图像视觉语义不变的前提下,对图像内容进行修改。我们以Qwen的吉祥物——卡皮巴拉为例,来直观展示这一能力: 可以看到,虽然编辑后的图像大多数像素与输入图像(最左侧的图)都不一样,但依然完美地保持了卡皮巴拉的角色一致性。Qwen-Image的强大的语义编辑能力使其能够轻松的进行原创IP的多样化创作。 更进一步的,我们在Qwen Chat上围绕MBTI十六型人格,设计了一系列编辑prompt,成功地基于吉祥物卡皮巴拉,完成了MBTI表情包的制作,轻松地拓展了IP。 此外,视角转换同样是语义编辑中的一个重要应用场景。如下方两张示例图所示,Qwen-Image-Edit不仅能够实现物体的90度旋转,还可以完成180度旋转,让我们直接看到物体的背面: 语义编辑的另一个典型应用是风格迁移。例如,输入一张人物头像,Qwen-Image-Edit可以轻松将其转换为吉卜力等多种风格,这在虚拟形象创作等场景中极具价值: 除了语义编辑,外观编辑也是常见的图像编辑需求。外观编辑强调在编辑过程中保持图像的部分区域完全不变,实现元素的增、删、改。下图展示了在图片中添加指示牌的案例,可以看到Qwen-Image-Edit不仅成功添加了指示牌,还生成了相应的倒影,细节处理十分到位。 下方是另一个有趣的例子,展示了如何在图片中删除细小的头发丝等微小物体。 此外,还可以对图像中指定的字母“n”进行颜色修改,将其变为蓝色,实现对特定元素的修改。 外观编辑在人物背景调整、服装更换等场景中同样有着广泛的应用,下面三张图片分别展示了这些实际应用场景。 Qwen-Image-Edit的另一大亮点在于其准确的的文字编辑能力,这得益于Qwen-Image在文字渲染方面的深厚积累。如下所示,以下两个案例直观展示了Qwen-Image-Edit在英文文字编辑上的强大表现: Qwen-Image-Edit同样能够直接对中文海报进行编辑,不仅可以修改海报中的大字,连细小的文字也能精准调整。 最后,让我们通过一个具体的图像编辑案例,演示如何利用链式编辑的方式,逐步修正Qwen-Image生成的书法作品中的错误: 在这幅作品中,有不少汉字存在生成错误。我们可以借助Qwen-Image-Edit,逐步修复它们。例如,可以在原图中用方框标注出需要修改的区域,指示Qwen-Image-Edit针对这些部分进行修正。这里,我们希望红框内正确地写出“稽”字,蓝色区域正确地写出“亭”字。 但实际操作中,“稽”字较为生僻,模型未能一次性完成修改。“稽”的右下角应为“旨”而非“日”。此时,我们可以进一步用红框圈出“日”的部分,让Qwen-Image-Edit对该细节进行微调,将其改为“旨”。 是不是很神奇?通过这种链式、逐步的编辑方式,我们可以持续修正错字,直至获得理想的最终效果。 最终,我们成功获得了完全正确的兰亭集序书法版本! 综上,我们希望Qwen-Image-Edit能够进一步推动在图像生成领域的发展,真正降低视觉内容创作的技术门槛,激发更多创新应用的可能。

2025年8月19日 · 1 分钟 · 48 字 · Qwen Team

Qwen-Image:擅长文字渲染的创作利器

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 我们很高兴推出 Qwen-Image,一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。如需体验最新模型,欢迎访问 Qwen Chat 并选择“图像生成”功能。 主要特性包括: 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。 一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。 性能表现 我们在多个公开基准上对Qwen-Image进行了全面评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。Qwen-Image在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。这凸显了Qwen-Image作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。 示例展示 Qwen-Image的突出能力之一是能够在不同场景中实现高保真的文本渲染。我们来看下面这个中文渲染的case: 宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。 模型不仅仅准确展示了宫崎骏的动漫风格,店铺的牌匾“云存储”,“云计算”,“云模型”,包括酒缸上的“千问”,都随着构图的景深,被真实准确的渲染。并且保留了人物姿势、神态刻画。 让我们再看一个中文渲染的case: 一副典雅庄重的对联悬挂于厅堂之中,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”, 横批“智启通义”,字体飘逸,中间挂在一着一副中国风的画作,内容是岳阳楼。 模型准确了绘制了左右联和横批,并且使用了书法效果,并在中间准确的生成了岳阳楼。桌子上放着的青花瓷也看着非常真实。 那么,模型在英文上的能力如何呢? 让我们来看一个英文渲染的case: Bookstore window display. A sign displays “New Arrivals This Week”. Below, a shelf tag with the text “Best-Selling Novels Here”. To the side, a colorful poster advertises “Author Meet And Greet on Saturday” with a central portrait of the author....

2025年8月4日 · 3 分钟 · 564 字 · Qwen Team

GSPO:迈向持续拓展的语言模型强化学习

PAPER DISCORD 引言 强化学习 (Reinforcement Learning,RL)已成为拓展语言模型、增强其深度推理与问题求解能力的关键技术范式。为了持续拓展 RL,首要前提是确保稳定、鲁棒的训练过程。然而,我们观察到现有的 RL 算法(如 GRPO)在长期训练中会暴露出严重的不稳定性问题并招致不可逆转的模型崩溃,阻碍了通过增加计算以获得进一步的性能提升。 为了能够持续拓展 RL,我们提出了 Group Sequence Policy Optimization (GSPO) 算法。不同于过去的 RL 算法,GSPO 定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。相较于 GRPO,GSPO 在以下方面展现出突出优势: 强大高效:GSPO 具备显著更高的训练效率,并且能够通过增加计算获得持续的性能提升; 稳定性出色:GSPO 能够保持稳定的训练过程,并且根本地解决了混合专家(Mixture-of-Experts,MoE)模型的 RL 训练稳定性问题; 基础设施友好:由于在序列层面执行优化,GSPO 原则上对精度容忍度更高,具有简化 RL 基础设施的诱人前景。 以上优点促成了最新的 Qwen3 模型(Instruct、Coder、Thinking)的卓越性能。 序列级别的优化目标 设 $x$ 为查询,$\pi_{\theta_\mathrm{old}}$ 为用于采样回复的策略,$\{y_i\}_{i=1}^G$ 为采样得到的回复组,$\widehat{A}_{i}$ 为各个回复的组内相对优势,$\pi_\theta$ 为需优化的当前策略。GSPO 采用以下优化目标: $$ \mathcal{J}_\text{GSPO} (\theta) = \mathbb{E}_{ x \sim \mathcal{D},\, \{y_i\}_{i=1}^G \sim \pi_{\theta_\text{old}}( \cdot | x) } \left[ \frac{1}{G} \sum_{i=1}^{G} \min \left( s_{i}(\theta) \widehat{A}_{i}, \, \mathrm{clip} \left( s_{i}(\theta), 1 - {\varepsilon}, 1 + {\varepsilon} \right) \widehat{A}_{i} \right) \right], $$ 其中...

2025年7月27日 · 2 分钟 · 298 字 · Qwen Team

Qwen-MT:速度与智能翻译的完美融合

DEMO API DISCORD 简介 我们通过Qwen API 推出了 Qwen-MT(qwen-mt-turbo)的最新升级版本。本次更新基于强大的 Qwen3 模型,进一步使用超大规模多语言和翻译数据对模型进行训练,全面增强其多语言理解与翻译能力,并结合强化学习技术,显著提升了翻译结果的准确性与语言流畅度。 核心亮点包括: 92 种语言互译:支持超过92种主流官方语言及重要方言之间的高质量互译,覆盖全球 95% 以上的人口,满足广泛的语言交流需求。 高度可控性:提供术语干预、领域提示、记忆库等专业翻译功能,并支持用户自定义提示,有效提升模型在复杂、专业或特定应用场景下的翻译表现。 低延迟、低成本:采用轻量级 MoE(Mixture of Experts)架构,在保证卓越性能的同时实现更快的响应速度和更低的 API 调用价格(每百万输出token低至2元),更适合高并发、实时性要求高的应用场景。 自动评估 在中英、英德多领域翻译以及 WMT24 多语言翻译任务中,Qwen-MT 显著优于同规模模型,如 GPT-4.1-mini、Gemini-2.5-Flash 和 Qwen3-8B。甚至与 GPT-4.1、Gemini-2.5-Pro、Qwen3-235B-A22B 等顶级大模型相比,翻译效果依然毫不逊色,凭借轻量化的模型架构设计带来快速的翻译体验。 人工评估 翻译自动评测存在一定的局限性。为更准确地评估翻译质量,我们针对中文、英语、日语、韩语、泰语、阿拉伯语、意大利语、俄语、西班牙语、法语等主要语言,开展了基于真实场景翻译数据的人工评测。每条测试样本均由三名专业译员独立评分并进行交叉校准,确保评估结果的客观性与可靠性。在合格率、优良率上,Qwen-MT 均展现出显著优势,体现出其在实际应用中的卓越翻译能力。 以下是一些翻译样例: 原文 Qwen-MT译文 Make your cubicle neat, tidy and make it a homey charm. 让你的隔间整洁有序,营造出温馨舒适的氛围。 Little study hack for y’all… do your homework/assignments the first day it was given to you… NO PROCRASTINATING!!! the day it was assigned 给大家一个学习小技巧……拿到作业/任务的第一天就完成它……千万别拖延!就在布置的当天完成! Kim also attended her ex’s first Donda listening party at Atlanta’s Mercedes-Benz Stadium on July 22....

2025年7月24日 · 4 分钟 · 650 字 · Qwen Team