Qwen介绍
四个月前,我们首次发布Qwen-7B大型语言模型(LLM),正式开启了我们的开源之旅。今天,我们介绍Qwen开源家族,更全面的展示我们的工作和目标。下面是开源项目和社区的重要链接。 PAPER GITHUB HUGGING FACE MODELSCOPE DISCORD Additionally, we have WeChat groups for chatting and we invite you to join the groups through the provided link in our GitHub readme. 总览 整体上,Qwen不仅仅是一个语言模型,而是一个致力于实现通用人工智能(AGI)的项目,目前包含了大型语言模型(LLM)和大型多模态模型(LMM)。下图展示了Qwen的主要组成部分: 在这里,“Qwen” 指的是基础语言模型,而 “Qwen-Chat” 则指的是通过后训练技术如SFT(有监督微调)和RLHF(强化学习人类反馈)训练的聊天模型。我们还有提供了专门针对特定领域和任务的模型,例如用于编程的 “Code-Qwen” 和用于数学的 “Math-Qwen”。大型语言模型(LLM)可以通过模态对齐扩展到多模态,因此我们有视觉-语言模型 “Qwen-VL” 以及音频-语言模型 “Qwen-Audio” 。值得注意的是,本篇博客仅介绍语言模型,至于多模态模型(LMM),例如Qwen-VL和Qwen-Audio,请参阅其各自的博客。 基础模型:对齐的良好起点 构建助手模型的一般流程包括预训练和后训练,后者主要由SFT(有监督微调)和RLHF(强化学习人类反馈)组成。至于预训练,与之前的大语言模型GPT-3、Llama类似,Qwen是一个基于Transformer的语言模型,通过预测下一个词的任务进行预训练。为了简化和稳定性,我们没有为语言模型引入更多的任务,而是专注于模型规模的扩展和数据的扩展。目前,我们已经开发了5种不同大小的模型,其中4种已开源,包括 1.8B、Qwen-7B、Qwen-14B和Qwen-72B。 Model Release Date Max Length System Prompt Enhancement # of Pretrained Tokens Minimum GPU Memory Usage of Finetuning (Q-Lora) Minimum GPU Usage of Generating 2048 Tokens (Int4) Tool Usage Qwen-1....