ChatGPT看图说话大变身！动嘴传图秒解答，幕后新模型GPT-4V亮相-工信会

> 自媒体 > （AI）人工智能 > ChatGPT看图说话大变身！动嘴传图秒解答，幕后新模型GPT-4V亮相

ChatGPT看图说话大变身！动嘴传图秒解答，幕后新模型GPT-4V亮相

来源：新智元

2023-09-28 12:03:28

667

管理

编辑：编辑部

【新智元导读】OpenAI又在深夜搞事了。ChatGPT不光能看能听，还长嘴了。令人吃惊的是，背后的多模态模型GPT-4V(ision)，竟然在2022年就已经训练完毕。

起猛了，ChatGPT推出语音和图像功能了！

现在登进ChatGPT后，我们会看到一个更直观的界面，也就是说，我们可以直接和ChatGPT进行语音对话了！

Sam Altman自荐，非常值得一试！

开局一张图

有了多模态功能加持的ChatGPT，能力更加超乎想象了。

比如，自行车座卡住了，没法降低，怎么办？

拍照发给ChatGPT，它能告诉你五个步骤的解决方法，简而言之，是需要通过操作快拆杆，或者拧螺丝。

甚至它还会问，你手上有什么工具吗？拍给我看看。

所以要用什么工具呢？

这时就可以把自己的工具箱拍给ChatGPT，让它来告诉你。

它会告诉你，用DEWALT的4毫米六角扳手就行。

ChatGPT的全新图像理解功能，是由多模态GPT-3.5和GPT-4提供支持，此前就有过预告。

6个月后，OpenAI终于将它们如约上线了。

现在，大模型的语言推理能力，能被应用在各种图像上，比如照片、屏幕截图、包含文字和图像的文档。

ChatGPT会说话了

现在，你可以用语音和ChatGPT双向对话了，而且还有五种音色任选。

你可以让它讲一篇睡前故事。

在饭桌上和家人发生争端了？可以告诉ChatGPT，让它来解决。

在这个功能背后，是一个全新的文本转语音模型，给它文本和几秒钟的样本语音，它就能生成类似人声的音频。

为此，OpenAI特别和专业的配音演员合作，创建了许多独特的声音。

而且，他们还会用开源语音识别系统Whisper，把用户说的话转录为文本。

网友炸了

此消息一出，网友也是立马炸开了锅。

「这是ChatGPT迄今以来最大的变革。」

论文地址：https://cdn.openai.com/papers/GPTV_System_Card.pdf

据介绍，GPT-4V早在2022年完成了训练，并在今年3月开始，提供了早期访问，其中包括为视障人群构建工具Be My Eyes的合作，以及1000位早期开发者alpha用户。

GPT-4V背后的技术主要还是来自GPT-4，所以训练过程是相同的。它使用了大量文本和图像数据进行预训练，然后通过RLHF进行微调。

为了确保GPT-4V更加安全，OpenAI在这内测期间开展了大量对齐工作，对此进行了定性和定量评估、专家红队测试、以及缓解措施。

多模态评估

越狱

此前，OpenAI在对ChatGPT进行越狱攻击，采取的手段是——设计复杂的逻辑推理链来困住模型，使其忽略其指令和训练。

这一次，将一些用于破解模型的逻辑推理放入图像中，比如，上传一张文字版prompt的截图，带有视觉推理线索，来考验GPT-4V。

将这样的信息放在图像中，用户就无法使用基于文本的启示法来搜索越狱，必须依赖视觉系统本身的能力。

下图中，就使用了文本截图越狱的提示。

在地理定位评估上的高性能表明模型拥有「世界知识」，对于试图搜索物品或地点的用户可能很有用。

但是，地理定位可能引发隐私问题，并且被利用来识别不希望个人位置被知道的人。

GPT-4V一般不会深入到从图像识别城市的程度，因此降低了仅凭模型就能找到某人准确位置的可能性。

个人识别评估

多模态模型最大的偏见之一，就是被用来识别生成一些名人、政治家、私人的信息。

对此，OpenAI研究了GPT-4V识别照片中人物的能力，这些数据集是使用公开数据集构建的，如CelebA，Celebrity Faces in the Wild和一个包含国会成员图像的数据集。

对于半私人和私人个人，使用了员工的图像。

最后发现，能够有效地引导GPT-4V拒绝这类请求的次数超过98%，并根据内部评估将其准确率降低到0%

无根据推断评估

对于那些无法通过用户提供的图像/文本进行合理性推断情况时，GPT-4V可能会出现偏见，或者胡说八道。

对比，为了防止出现这一问题，OpenAI建立了自动评估机制，进而衡量模型成功拒绝这些请求的倾向。

GPT-4V根据芬太尼、卡芬太尼和可卡因等物质的化学结构图像，错误地识别出这些物质，但偶尔也会根据图像正确识别出有毒食物，如某些毒蘑菇。

总之， GPT-4V不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。

刻板印象和无根据的推断

在某些任务中，GPT-4V可能会产生不必要或有害的假设，而这些假设并不基于提供给模型的信息（图像或文本提示）。

误导信息风险

GPT-4V模型识别误导信息的能力不一致，但可能与误导信息概念的知名度和最近性有关。

总而言之，GPT-4V并未为此目的进行训练，不应被用作检测误导信息的方式，或者验证某件事是否真实或假的。

仇恨内容

GPT-4V在某些情况下会拒绝仇恨内容，但有时并不是如此。

视觉漏洞

红队人员还发现，输入图像的先后顺序也会影响GPT-4V的识别能力。

缓解措施

在缓解措施中，OpenAI将GPT-4已经打好的安全基础转移到GPT-4V模型上。

比如，可以将GPT-4的文本提示，查找可以替换为图像的词语，从而将纯文本提示转化为多模态提示。

另外，还精心设计一些模型应该拒绝的行为，比如身份、敏感特征（年龄、种族等）、无根据的推断。

参考资料：

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

https://openai.com/research/gpt-4v-system-card

2

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

能听会说，ChatGPT开启新一轮AI助理竞赛

2023-09-28 12:05

ChatGPT 已成为 2023 年最大金矿，大家是怎么靠它挣到钱的？

2023-09-28 12:02

相关文章

2026赛季F1季前测试深度解析：法拉利单圈惊艳，梅赛德斯长跑强势..

第三名之争：迈凯伦 vs 红牛围场共识认为，法拉利和梅赛德斯已在领先集团..

V12引擎加持！改装版Datsun 240Z声浪媲美法拉利

【网通社快报】一辆搭载梅赛德斯-奔驰M120V12引擎的Datsun240Z近日引发关..

法拉利最便宜新敞篷车：Amalfi Spider三月首发

IT之家 2 月 19 日消息，汽车媒体 The Supercar Blog 昨日（2 月 18 日）..

法拉利Ferrari全家福

法拉利是世界顶级超跑代表，源自意大利，以赛道基因和极致性能著称。经典..

6.5 v12炸街，我终于懂了法拉利“纯血”的终极浪漫

法拉利purosangue63° 前门开启79° 后门开启劳斯莱斯式优雅，法拉利式性..

Luce只是其中之一法拉利今年有五款新车型亮相

据海外媒体报道称，法拉利2025年的利润正朝着正确的方向发展，订单已满到..

千匹马力、2.5秒破百！法拉利首款纯电Luce曝光

在内燃机领域拼搏数百年的法拉利正式的拥抱纯电赛道。2026年的2月份，法..

法拉利首款纯电车型Luce正式上市，融合经典设计与电动创新..

【网通社快报】法拉利近日正式推出品牌首款纯电动车Luce，引发行业广泛关..

更硬核的296：法拉利“特别版”新车谍照曝光，马力有望逼近700匹..

IT之家 2 月 16 日消息，博主 Derek Photography 公布了一辆伪装严密、外..

关于作者

大男孩(普通会员)

文章

2147

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

2

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索