> 自媒体 > (AI)人工智能 > MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
来源:机器之心Pro
2023-11-01 11:57:53
609
管理

机器之心专栏

机器之心编辑部

MiniGPT-v2 将大语言模型作为视觉语言多任务学习的统一接口。

几个月前,来自 KAUST(沙特阿卜杜拉国王科技大学)的几位研究者提出了一个名为 MiniGPT-4 的项目,它能提供类似 GPT-4 的图像理解与对话能力。

例如 MiniGPT-4 能够回答下图中出现的景象:「图片描述的是生长在冰冻湖上的一株仙人掌。仙人掌周围有巨大的冰晶,远处还有白雪皑皑的山峰……」假如你接着询问这种景象能够发生在现实世界中吗?MiniGPT-4 给出的回答是这张图片在现实世界中并不常见,并给出了原因。

论文地址:https://arxiv.org/pdf/2310.09478.pdf

论文主页:https://minigpt-v2.github.io/

Demo: https://minigpt-v2.github.io/

具体而言,MiniGPT-v2 可以作为一个统一的接口来更好地处理各种视觉 - 语言任务。同时,本文建议在训练模型时对不同的任务使用唯一的识别符号,这些识别符号有利于模型轻松的区分每个任务指令,并提高每个任务模型的学习效率。

为了评估 MiniGPT-v2 模型的性能,研究者对不同的视觉 - 语言任务进行了广泛的实验。结果表明,与之前的视觉 - 语言通用模型(例如 MiniGPT-4、InstructBLIP、 LLaVA 和 Shikra)相比,MiniGPT-v2 在各种基准上实现了 SOTA 或相当的性能。例如 MiniGPT-v2 在 VSR 基准上比 MiniGPT-4 高出 21.3%,比 InstructBLIP 高出 11.3%,比 LLaVA 高出 11.7%。

模型的空间感知也变得更强,可以直接问模型谁出现在图片的左面,中间和右面:

阶段 1:预训练。本文对弱标记数据集给出了高采样率,以获得更多样化的知识。

阶段 2:多任务训练。为了提高 MiniGPT-v2 在每个任务上的性能,现阶段只专注于使用细粒度数据集来训练模型。研究者从 stage-1 中排除 GRIT-20M 和 LAION 等弱监督数据集,并根据每个任务的频率更新数据采样比。该策略使本文模型能够优先考虑高质量对齐的图像文本数据,从而在各种任务中获得卓越的性能。

阶段 3:多模态指令调优。随后,本文专注于使用更多多模态指令数据集来微调模型,并增强其作为聊天机器人的对话能力。

最后,官方也提供了 Demo 供读者测试,例如,下图中左边我们上传一张照片,然后选择 [Detection] ,接着输入「red balloon」,模型就能识别出图中红色的气球:

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
查对方有没有小号,先看手机这个设置,一查一个准
很多人找对方的小号,都只盯着 APP 里的功能找,却忽略了最关键的一个入..
“亲友”视频可能是AI伪造 网警提醒:牢记“四不一核实”..
假期里,一通“亲友”视频电话、一条“紧急转账”语音消息、一段看似真实..
可以登录别人的微信,不让对方知道吗
网络上一直流传着不少说法,声称能够在对方毫无察觉的情况下,登录他人的..
亲测 5折拿下ChatGPT Plus ,国内银联卡+86手机号【2026最新亲测版】..
最近薅土区低价ChatGPT会员的人明显多了起来。先推荐一个撸羊毛必备工具..
三角洲账号出售平台 TOP5 实测|星铭代售稳坐榜首,安全出号不踩坑..
作为玩了两年《三角洲行动》的老玩家,前前后后卖过3个账号,踩过私下交..
Codex 宠物上线,一键即可唤醒
Codex 今天上线了一个新功能:养宠物。没错,就是字面意思。你的编程工具..
ChatGPT悄悄换“芯”,用户还没反应过来,对话已经变聪明了..
最近几天,不少用户在和ChatGPT聊天时,突然发现它说话没那么绕了,回答..
ChatGPT 隐私防护全攻略!避开数据泄露大坑,安心用 AI 不踩雷..
如今 AI 早已走进普通人的生活,不管是上班族写方案、学生写论文、宝妈做..
实测可用:ChatGPT 5.4 官网镜像国内直连指南
国内用户若想高效体验 5.4的强大功能,目前最推荐的方式是通过聚合镜像平..
关于作者
司机(普通会员)
文章
2054
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体107794

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索