我们在Qwen语言模型的基础上,结合此前我们提出的多模态多任务训练,以解决多模态模型在泛化能力上的局限性,并于2023年9月开源了多模态模型Qwen-VL。最近,Qwen-VL系列有了重大升级,推出了两个增强版本:Qwen-VL-Plus和Qwen-VL-Max。这两个版本的关键提升包括:

  • 显著提升与图像相关的推理能力;
  • 在识别、提取和分析图像及其内含文本中的细节方面有明显增强;
  • 支持百万像素以上的高清晰度图像以及各种宽高比的图像。
Model Name模型描述
qwen-vl-plusQwen的增强型大规模视觉语言模型。该模型针对细节识别能力和文本识别能力进行了显著升级,支持高达数百万像素的超高清分辨率及任意图像输入的宽高比。它在各类视觉任务上都展现出卓越的性能表现。
qwen-vl-maxQwen的最强大视觉语言模型。相较于增强版本,该模型在视觉推理和指令执行能力上做出了进一步提升,提供了更高级别的视觉感知与认知理解力,在更广泛复杂的任务上都能实现最优性能。

相比于开源版本的Qwen-VL,这两个模型在多个文本-图像多模态任务中与Gemini Ultra和GPT-4V的表现相当,显著超越了之前开源模型的最佳结果。值得一提的是,Qwen-VL-Max在中文问题回答和中文文本理解任务上超越了OpenAI的GPT-4V以及谷歌的Gemini。下文展示了实验结果及真实用例。

ModelDocVQA
Document understanding
ChartQA
Chart understanding
AI2D
Science diagrams
TextVQA
Text reading
MMMU
College-level problems
MathVista
Mathematical reasoning
MM-Bench-CN
Natural image QA in Chinese
Other Best
Open-source LVLM
81.6%
(CogAgent)
68.4%
(CogAgent)
73.7%
(Fuyu-Medium)
76.1%
(CogAgent)
45.9%
(Yi-VL-34B)
36.7%
(SPHINX-V2)
72.4%
(InternLM-XComposer-VL)
Gemini Pro88.1%74.1%73.9%74.6%47.9%45.2%74.3%
Gemini Ultra90.9%80.8% 179.5% 182.3% 159.4% 153.0% 1-
GPT-4V88.4%78.5%78.2%78.0%56.8%49.9%73.9%
Qwen-VL-Plus91.4%78.1%75.9%78.9%45.2%43.3%68.0%
Qwen-VL-Max93.1% 179.8% 279.3% 279.5% 251.4% 351.0% 275.1% 1

最新版本的Qwen-VL-Plus和Qwen-VL-Max模型不仅在基准测试性能上表现出色,而且在解决实际场景中的问题方面也展现了显著的进步。这些先进的模型能够轻松进行对话互动、识别名人和地标、生成文本,并且它们在描述和解读视觉内容的能力上有了显著提升。

以下是一些实际应用示例:

1. 基础识别能力

最新的Qwen-VL模型在准确描述和识别图像中的复杂信息以及提供详尽背景和回答相关问题方面表现出更高的能力。例如,Qwen-VL不仅能识别常见的物体,还能识别名人和地标。此外,Qwen-VL还能根据视觉输入创作各种语言的诗歌,并能对日常截图进行分析解读。

Example: celebrity recognition Next
User
who are they? image
Qwen-VL

These are some of the most famous and highest-paid celebrities in the world. From left to right, top to bottom:

  • Justin Bieber (Canadian singer)
  • Lionel Messi (Argentine soccer player)
  • Cristiano Ronaldo (Portuguese soccer player)
  • Elon Musk (South African-born American entrepreneur and businessman)
  • Kylie Jenner (American media personality and socialite)
  • Taylor Swift (American singer-songwriter)
  • Robert Downey Jr. (American actor)
  • Scarlett Johansson (American actress)

It’s worth noting that this is just a small sample of the many talented and successful celebrities out there, and that fame and wealth are not the only measures of success or importance.

User
their chinese name?
Qwen-VL

Here are the Chinese names of the celebrities mentioned:

  • Justin Bieber: 贾斯汀·比伯
  • Lionel Messi: 莱昂内尔·梅西
  • Cristiano Ronaldo: 克里斯蒂亚诺·罗纳尔多
  • Elon Musk: 埃隆·马斯克
  • Kylie Jenner: 凯莉·詹娜
  • Taylor Swift: 泰勒·斯威夫特
  • Robert Downey Jr.: 小罗伯特·唐尼
  • Scarlett Johansson: 斯嘉丽·约翰逊

Note that these are just one possible translation of their names into Chinese, and there may be other variations used in different contexts or regions.

2. 视觉Agent能力

除了在描述和识别方面的基本功能外,Qwen-VL还具有强大的定位和检索特定元素的能力。例如,它能够精准地在图像中标识出黑色的汽车。此外,Qwen-VL还具备根据场景的当前上下文进行判断、推理和决策的能力。

Example: Locate Whatever You Desire Next
User
Locate the red car image
Qwen-VL
The red car is located in the bottom right corner of the image. image

3. 视觉推理能力

最新的Qwen-VL的一项重大突破在于其基于视觉输入进行复杂推理的能力。这项增强的视觉推理功能超越了简单的内容描述,能够理解和解读诸如流程图、图表和其他符号系统等复杂的表达形式。在问题解决和推理领域,Qwen-VL-Plus/Max不仅擅长数学问题求解和信息组织,还在对图表和图形进行深度诠释与分析方面表现出色。

Example: Math Next
User
read the image and solve it step by step image
Qwen-VL

The image shows two geometric figures, a rectangular prism and a cube, with their dimensions labeled. The problem asks to calculate the surface area and volume of these figures.

  1. For the rectangular prism:
  • Length (l) = 4 cm
  • Width (w) = 2 cm
  • Height (h) = 3 cm

Surface Area (SA) of a rectangular prism = 2lw + 2lh + 2wh Volume (V) of a rectangular prism = lwh

Substituting the given values: SA = 2(4cm)(2cm) + 2(4cm)(3cm) + 2(2cm)(3cm) SA = 16cm² + 24cm² + 12cm² SA = 52cm²

V = (4cm)(2cm)(3cm) V = 24cm³

  1. For the cube:
  • Side length (a) = 3 dm

Surface Area (SA) of a cube = 6a² Volume (V) of a cube = a³

Substituting the given value: SA = 6(3dm)² SA = 6(9dm²) SA = 54dm²

V = (3dm)³ V = 27dm³

So, the surface area and volume for each figure are as follows:

For the rectangular prism:

  • Surface Area = 52 cm²
  • Volume = 24 cm³

For the cube:

  • Surface Area = 54 dm²
  • Volume = 27 dm³

4. 文字识别及处理

在识别中文和英文文本方面。Qwen-VL-Plus/Max现在能够高效地从表格和文档中提取信息,并根据自定义输出需求重新格式化这些信息。此外,它还具备一种高效的密集文本识别与转换机制,在处理包含大量信息的文档时表现非常出色。该技术支持各种极端纵横比的图像,确保了对多样视觉内容进行处理的灵活性。

Example: Information Retrieval Next
User
Please read the text in this image and return the information in the following JSON format (note xxx is placeholder, if the information is not available in the image, put “N/A” instead). {“class”: xxx, “DLN”: xxx, “DOB”: xxx, “Name”: xxx, “Address”: xxx, “EXP”: xxx, “ISS”: xxX, “SEX”: xxx, “HGT”: xxx, “WGT”: xxx, “EYES”: xxx, “HAIR”: xxX, “DONOR”: xxx} image
Qwen-VL
{“class”: “C”, “DLN”: “I1234568”, “DOB”: “08/31/1977”, “Name”: “IMA CARDHOLDER”, “Address”: “2570 24TH STREET ANYTOWN, CA 95818”, “EXP”: “08/31/2014”, “ISS”: “08/31/2009”, “SEX”: “F”, “HGT”: “5’-05"”, “WGT”: “125 lb”, “EYES”: “BRN”, “HAIR”: “BRN”, “DONOR”: “YES”}

如何使用

当前,用户可以通过Huggingface Spaces、通义千问官方网站以及Dashscope APIs来使用Qwen-VL-Plus和Qwen-VL-Max模型。

总结

Qwen-VL-Plus和Qwen-VL-Max在提升高分辨率识别、文本分析和图像推理能力方面取得了重大突破。这些模型现在已经达到了GPT4-V和Gemini的性能水平,在诸如MMMU、CMMMU和MathVista等众多任务上超越了所有其他开源及专有模型。它们在文档分析(DocVQA)和中文相关的图像理解(MM-Bench-CN)等领域取得了领先的表现。

我们的目标是持续挖掘并提升Qwen-VL的潜力,使其能够在更广泛的应用场景中发挥作用。我们可以设想一个具备超人视觉和语言理解能力的Qwen-VL助手,无论是在日常对话中,还是在复杂的驾驶环境和编程场景下,都能提供强有力的支持。

尽管我们还有很长的路要走,但我们坚信通过持续优化和扩展,Qwen-VL将逐步进化到能够像人类认知一样感知和理解世界!