阿里云开源通义千问多模态视觉模型Qwen-VL 可商用

8月25日,阿里云在魔搭社区开源了,通义千问多模态视觉模型Qwen-VL。Qwen-VL支持多图输入和比较,指定图片问答,多图文学创作,在图片里中英双语的长文本识别等功能。同时Qwen-VL是首个开源448分辨率的LVLM模型,更高的分辨率有助于提升细粒度的文字识别、文档问答和检测框标注。

开源地址:https://modelscope.cn/models/qwen/Qwen-VL-Chat/files

Qwen-VL

目前,Qwen-VL提供了Qwen-VL和Qwen-VL-Chat两个模型。

Qwen-VL:以Qwen-7B的预训练模型为语言模型的基础,OpenclipViT-bigG为视觉编码器的初始化,中间加入单层随机初始化的cross-attention,经过约1.5B的图文数据进行训练,使得图像输入分辨率扩大至448。

Qwen-VL-Chat:在Qwen-VL的基础上,使用对齐机制打造了基于大语言模型的视觉AI助手Qwen-VL-Chat。训练数据涵盖了QWen-7B的纯文本SFT数据、开源LVLM的SFT数据、数据合成和人工标注的图文对齐数据。

阿里云从两个角度评测了两个模型的能力:

1、在英文标准Benchmark上评测模型的基础任务能力。目前评测了四大类多模态任务:Zero-shotCaption、GeneralVQA、Text-basedVQA、Referring Expression Compression。

2、试金石(TouchStone):为了评测模型整体的图文对话能力和人类对齐水平。为此构建了一个基于GPT4打分来评测LVLM模型的Benchmark:TouchStone。

在TouchStone-v0.1中,评测基准总计涵盖300+张图片、800+道题目、27个类别。包括基础属性问答、人物地标问答、影视作品问答、视觉推理、反事实推理、诗歌创作、故事写作,商品比较、图片解题等尽可能广泛的类别。

为了弥补目前GPT4无法直接读取图片的缺陷,给所有的带评测图片提供了人工标注的充分详细描述,并且将图片的详细描述、问题和模型的输出结果一起交给GPT4打分。评测同时包含英文和中文版本。

Qwen-VL

测试结果显示:在Zero-shotCaption中,Qwen-VL在Flickr30K数据集上取得了SOTA的结果,并在Nocaps数据集上取得了和InstructBlip可竞争的结果。

在GeneralVQA中,Qwen-VL取得了LVLM模型同等量级和设定下SOTA的结果。

在文字相关的识别/问答评测上,取得了当前规模下通用LVLM达到的最好结果。

Qwen-VL将分辨率提升到448,可以直接以端到端的方式进行以上评测。Qwen-VL在很多任务上甚至超过了1024分辨率的Pic2Struct-Large模型。

在定位任务上,Qwen-VL全面超过Shikra-13B,取得了目前GeneralistLVLM模型上在Refcoco上的SOTA。

Qwen-VL并没有在任何中文定位数据上训练过,但通过中文Caption数据和英文Grounding数据的训练,可以Zero-shot泛化出中文Grounding能力。Qwen-VL-Chat模型在中英文的对齐评测中均取得当前LVLM模型下的最好结果。

AI俱乐部,致力于打造最专业的AI交流社群。

星球将分享:

1、ChatGPT的使用方法,最新资讯,商业价。

2、邀请顶尖行业大佬,每周给大家发现一个商业落地案例。

3、组织星球小伙伴一起参与实战项目,亲身感受AI浪潮。

4、系列课程和训练营,手把手带着大家去实操ChatGPT。

5、一些副业思考、创业案例、落地案例分享。

6、最早期、专业的AI交流社群。探讨未来关于ChatGPT的机遇,帮助大家解决遇到的问题。

如果有小伙伴感兴趣的话,可以一起加入星球哦!

AI俱乐部

服务商动态

孟子GPT正式发布 已开启邀测

2023-8-28 9:52:42

服务商动态

国内首个专为数学打造的大模型MathGPT 开启内测

2023-8-28 10:26:19

相关推荐