> 自媒体 > (AI)人工智能 > 中科院发布多模态ChatGPT,图片、语言、视频都可以Chat?中文多模态大模型力作
中科院发布多模态ChatGPT,图片、语言、视频都可以Chat?中文多模态大模型力作
来源:大数据文摘
2023-11-14 15:14:19
644
管理

从性能来看,作者团队使用了 30 张模型未见过的图像,每张图像都与相关于对话、详细描述以及推理三类的问题,从而形成了 90 个指令-图像对以测试 X-LLM 与 GPT-4 的表现。可以看到,通过使用 ChatGPT 从 1 到 10 为模型回复进行评分,与 GPT-4 相比 X-LLM 取得了 84.5% 的相对分数,表明了模型在多模态的环境中是有效的。

具体而言,多模态信息转换的三个接口设计如下:

图像接口:图像接口由 Q-Formers 和 I-Adapter 模块组成。Q-Formers的目标是将图像转换为语言,将从图像编码器获得的图像特征转换为长度为 L 的准语言嵌入的序列。I-Adapter 模块旨在对齐准语言嵌入的维数和 LLM 的嵌入维数;

视频接口:视频接口与图像接口采用相同的结构,并且均匀采样使用 T 帧表示每个视频,再将每帧视频视为图像,构建长度为 T x L 的准语言嵌入序列;

语言接口:语音接口由两部分组成,即 C-Former 和 S-Adaptor。C-Former 是 CIF 模块和 12 层 Transformer 模块的组合。CIF 模块通过变长下采样将语音编码器的语音特征序列压缩为相同长度的令牌级语音嵌入序列,而 Transformer 结构为令牌级语音嵌入提供了更强的上下文建模。S-Adaptor 用于将 Transformer 结构的输出投影到 LLM 的输入向量空间,从而进一步缩小了语音与语言之间的差距。

而在第二阶段,Q-Former 的参数来源于 BLIP2 中的 Q-Former 的参数。为了使得 Q-Former 适应中文 LLM,作者们使用了一个总共包括约 1400 万个中文图片-文本对的数据集进行训练,并使用图片中训练好的接口初始化视频中的 Q-Former 和 V-Adapter,最后,使用 ASR 数据训练语音接口,使语音界面的输出与 LLM 对齐。在整个过程中,Encoder 部分与 LLM 部分都不参与训练,只有接口部分进行训练。

而最后第三阶段,论文使用多模态联合训练增强 X-LLM 的多模态能力,但是可以看到,在没有进行联合训练时,X-LLM 已经具有了识别多模态的能力,这种能力很有可能是来自于 LLM。而为了进行联合训练,作者构建了一个多模态指令数据集对接口进行微调,包含(1) 图像-文本指令数据,(2)语音-文本指令数据,(3) 视频-文本指令数据以及 (4) 图像-文本-语音指令数据。整个数据集主要来源于 MiniGPT-4(图像,3.5k)、AISHELL-2(语音,2k)以及 ActivityNet(视频,1k)。

而在实验方面,论文作者开发了一个聊天界面,用以与其他开源的多模态大规模语言模型( LLaVA 与 MiniGPT-4)做对比,整体而言,X-LLM 具备了相当不错的阅读和理解图片的能力,并且可以更好的捕捉其中具有“中国特色”的预料,如下图问答所示,当输入天安门的图片时,X-LLM 准确的识别出了它是北京的故宫,并且给出了一些历史的介绍,而相应 LLaVA 与 MiniGPT-4 仅仅识别出来了中国的宫殿和旗帜,但是并没有提到 Forbidden City。

同时,X-LLM 也能准确的识别和理解语音信息,这里的“详细描述一下这个“照片”是以语音形式进行的输入,可以看到 X-LLM 也能给出相当不错的回答,并且可以进行延申交流。

对于敏感信息,X-LLM 也能做到识别

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
亚马逊已在 AWS 上架多款全新 OpenAI 产品
来源:环球市场播报就在 OpenAI 宣布,其主要投资方兼云端合作方微软不再..
美国AI神话破灭!OpenAI 连续多月未达销售目标,ChatGPT 增长失速..
曾以 ChatGPT 引爆全球 AI 浪潮、估值高达 8520 亿美元的 OpenAI,如今陷..
马斯克怒怼 OpenAI 庭审实录:一场关于理想、金钱与背叛的科技大戏..
一个被自己养大的孩子咬了一口2015年冬天,旧金山一间小会议室里,几个男..
OpenAI :未来几年我们将取得相当于几十年理论物理学进展的成果..
"未来几年,我们将取得相当于几十年理论物理学进展的成果。"这句话出自一..
OpenAI 硬件负责人的闭门分享,向我们揭示了为什么硬件「终点」仍是智能手..
「你必须为模型将要去的方向设计硬件,而不是为今天的模型。」作者|张勇..
OpenAI 也打算进军手机市场?最快2028 年量产
去年OpenAI收购由前苹果传奇设计师Jony Ive 共同创办的新创公司,目的是..
微信这个地方要尽快删除,不然别人登录了你微信,你可能都不知道..
天天抱着手机刷微信,聊天、支付、办公全靠它,九成用户都没留意过微信里..
iOS微信8.0.72新版发布!朋友圈改版与多项灰测功能解析..
不过目前来看,这次界面调整针对的是自己或好友的「朋友圈」个人主页,朋..
紧急提醒!拍照不要比这个手势!
你在拍照时是否也喜欢比“剪刀手”但你可能想不到这个看似平常的姿势其实..
关于作者
冰冷的开会..(普通会员)
文章
1907
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106479

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索