Qwen3Guard: 实时安全,逐词响应
Tech Report GitHub Hugging Face ModelScope DISCORD 介绍 我们隆重推出 Qwen3Guard —— Qwen 家族中首款专为安全防护设计的护栏模型。该模型基于强大的 Qwen3 基础架构打造,并针对安全分类任务进行了专项微调,旨在为人工智能交互提供精准、可靠的安全保障。无论是用户输入的提示,还是模型生成的回复,Qwen3Guard 均可高效识别潜在风险,输出细粒度的风险等级与分类标签,助力实现更负责任的 AI 应用。 在多项主流安全评测基准上,Qwen3Guard 表现卓越,稳居行业领先水平,全面覆盖英语、中文及多语言场景下的提示与回复安全检测任务。 Qwen3Guard 提供两大专业版本,满足不同应用场景需求: Qwen3Guard-Gen(生成式版) 支持对完整用户输入与模型输出进行安全分类,适用于离线数据集的安全标注、过滤,亦可作为强化学习中基于安全性的奖励信号源,是构建高质量训练数据的理想工具。 Qwen3Guard-Stream(流式检测版) 突破了传统的护栏模型架构,首次实现模型生成过程中的实时、流式安全检测,显著提升在线服务的安全响应效率与部署灵活性。 为适配多样化的部署环境与算力资源,两大版本均提供 0.6B、4B、8B 三种参数规模,兼顾性能与效率,满足从边缘设备到云端服务的全场景需求。 开源模型现已上线 Hugging Face 与 ModelScope 平台;您也可通过 阿里云 AI 安全护栏服务 一键接入企业级安全能力,享受由 Qwen3Guard 驱动的智能防护解决方案。 核心亮点 实时流式检测 Qwen3Guard-Stream 专为低延迟设计,可在模型逐词生成回复的过程中实时进行内容审核,确保安全性的同时不牺牲响应速度。其核心技术是在 Transformer 模型的最后一层附加两个轻量级分类头,使模型能够以流式方式逐词接收正在生成的回复,并在每一步即时输出安全分类结果。 三级风险等级分类 除传统的“安全”与“不安全”标签外,我们新增了 “争议性” 标签,以支持根据不同应用场景灵活调整安全策略。具体而言,用户可根据实际需求,动态将“争议性”内容重新归类为“安全”或“不安全”,从而按需调节审核的严格程度。 如下方评估所示,现有护栏模型受限于二元标签体系,难以同时适配不同数据集的标准。而 Qwen3Guard 凭借三级风险分类设计,可在“严格模式”与“宽松模式”间灵活切换,在多个数据集上均保持稳健的高性能表现。 多语言支持 Qwen3Guard 支持 119 种语言及方言,适用于全球部署与跨语言应用场景,并在各类语言中均能提供稳定、高质量的安全检测能力。 语系 语种&方言 印欧语系 英语、法语、葡萄牙语、德语、罗马尼亚语、瑞典语、丹麦语、保加利亚语、俄语、捷克语、希腊语、乌克兰语、西班牙语、荷兰语、斯洛伐克语、克罗地亚语、波兰语、立陶宛语、挪威语(博克马尔语)、挪威尼诺斯克语、波斯语、斯洛文尼亚语、古吉拉特语、拉脱维亚语、意大利语、奥克语、尼泊尔语、马拉地语、白俄罗斯语、塞尔维亚语、卢森堡语、威尼斯语、阿萨姆语、威尔士语、西里西亚语、阿斯图里亚语、恰蒂斯加尔语、阿瓦德语、迈蒂利语、博杰普尔语、信德语、爱尔兰语、法罗语、印地语、旁遮普语、孟加拉语、奥里雅语、塔吉克语、东意第绪语、伦巴第语、利古里亚语、西西里语、弗留利语、撒丁岛语、加利西亚语、加泰罗尼亚语、冰岛语、托斯克语、阿尔巴尼亚语、林堡语、罗马尼亚语、达里语、南非荷兰语、马其顿语僧伽罗语、乌尔都语、马加希语、波斯尼亚语、亚美尼亚语 汉藏语系 中文(简体中文、繁体中文、粤语)、缅甸语 亚非语系 阿拉伯语(标准语、内志语、黎凡特语、埃及语、摩洛哥语、美索不达米亚语、塔伊兹-阿德尼语、突尼斯语)、希伯来语、马耳他语 南岛语系 印度尼西亚语、马来语、他加禄语、宿务语、爪哇语、巽他语、米南加保语、巴厘岛语、班加语、邦阿西楠语、伊洛科语、瓦雷语(菲律宾) 德拉威语 泰米尔语、泰卢固语、卡纳达语、马拉雅拉姆语 突厥语系 土耳其语、北阿塞拜疆语、北乌兹别克语、哈萨克语、巴什基尔语、鞑靼语 壮侗语系 泰语、老挝语 乌拉尔语系 芬兰语、爱沙尼亚语、匈牙利语 南亚语系 越南语、高棉语 其他 日语、韩语、格鲁吉亚语、巴斯克语、海地语、帕皮阿门托语、卡布维尔迪亚努语、托克皮辛语、斯瓦希里语 更多应用场景 我们还展示了以下两种典型应用:...