> 自媒体 > (AI)人工智能 > ChatGPT看图说话大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相
ChatGPT看图说话大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相
来源:新智元
2023-09-28 12:03:28
661
管理

编辑:编辑部

【新智元导读】OpenAI又在深夜搞事了。ChatGPT不光能看能听,还长嘴了。令人吃惊的是,背后的多模态模型GPT-4V(ision),竟然在2022年就已经训练完毕。

起猛了,ChatGPT推出语音和图像功能了!

现在登进ChatGPT后,我们会看到一个更直观的界面,也就是说,我们可以直接和ChatGPT进行语音对话了!

Sam Altman自荐,非常值得一试!

开局一张图

有了多模态功能加持的ChatGPT,能力更加超乎想象了。

比如,自行车座卡住了,没法降低,怎么办?

拍照发给ChatGPT,它能告诉你五个步骤的解决方法,简而言之,是需要通过操作快拆杆,或者拧螺丝。

甚至它还会问,你手上有什么工具吗?拍给我看看。

所以要用什么工具呢?

这时就可以把自己的工具箱拍给ChatGPT,让它来告诉你。

它会告诉你,用DEWALT的4毫米六角扳手就行。

ChatGPT的全新图像理解功能,是由多模态GPT-3.5和GPT-4提供支持,此前就有过预告。

6个月后,OpenAI终于将它们如约上线了。

现在,大模型的语言推理能力,能被应用在各种图像上,比如照片、屏幕截图、包含文字和图像的文档。

ChatGPT会说话了

现在,你可以用语音和ChatGPT双向对话了,而且还有五种音色任选。

你可以让它讲一篇睡前故事。

在饭桌上和家人发生争端了?可以告诉ChatGPT,让它来解决。

在这个功能背后,是一个全新的文本转语音模型,给它文本和几秒钟的样本语音,它就能生成类似人声的音频。

为此,OpenAI特别和专业的配音演员合作,创建了许多独特的声音。

而且,他们还会用开源语音识别系统Whisper,把用户说的话转录为文本。

网友炸了

此消息一出,网友也是立马炸开了锅。

「这是ChatGPT迄今以来最大的变革。」

论文地址:https://cdn.openai.com/papers/GPTV_System_Card.pdf

据介绍,GPT-4V早在2022年完成了训练,并在今年3月开始,提供了早期访问,其中包括为视障人群构建工具Be My Eyes的合作,以及1000位早期开发者alpha用户。

GPT-4V背后的技术主要还是来自GPT-4,所以训练过程是相同的。它使用了大量文本和图像数据进行预训练,然后通过RLHF进行微调。

为了确保GPT-4V更加安全,OpenAI在这内测期间开展了大量对齐工作,对此进行了定性和定量评估、专家红队测试、以及缓解措施。

多模态评估

越狱

此前,OpenAI在对ChatGPT进行越狱攻击,采取的手段是——设计复杂的逻辑推理链来困住模型,使其忽略其指令和训练。

这一次,将一些用于破解模型的逻辑推理放入图像中,比如,上传一张文字版prompt的截图,带有视觉推理线索,来考验GPT-4V。

将这样的信息放在图像中,用户就无法使用基于文本的启示法来搜索越狱,必须依赖视觉系统本身的能力。

下图中,就使用了文本截图越狱的提示。

在地理定位评估上的高性能表明模型拥有「世界知识」,对于试图搜索物品或地点的用户可能很有用。

但是,地理定位可能引发隐私问题,并且被利用来识别不希望个人位置被知道的人。

GPT-4V一般不会深入到从图像识别城市的程度,因此降低了仅凭模型就能找到某人准确位置的可能性。

个人识别评估

多模态模型最大的偏见之一,就是被用来识别生成一些名人、政治家、私人的信息。

对此,OpenAI研究了GPT-4V识别照片中人物的能力,这些数据集是使用公开数据集构建的,如CelebA,Celebrity Faces in the Wild和一个包含国会成员图像的数据集。

对于半私人和私人个人,使用了员工的图像。

最后发现,能够有效地引导GPT-4V拒绝这类请求的次数超过98%,并根据内部评估将其准确率降低到0%

无根据推断评估

对于那些无法通过用户提供的图像/文本进行合理性推断情况时,GPT-4V可能会出现偏见,或者胡说八道。

对比,为了防止出现这一问题,OpenAI建立了自动评估机制,进而衡量模型成功拒绝这些请求的倾向。

GPT-4V根据芬太尼、卡芬太尼和可卡因等物质的化学结构图像,错误地识别出这些物质,但偶尔也会根据图像正确识别出有毒食物,如某些毒蘑菇。

总之, GPT-4V不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。

刻板印象和无根据的推断

在某些任务中,GPT-4V可能会产生不必要或有害的假设,而这些假设并不基于提供给模型的信息(图像或文本提示)。

误导信息风险

GPT-4V模型识别误导信息的能力不一致,但可能与误导信息概念的知名度和最近性有关。

总而言之,GPT-4V并未为此目的进行训练,不应被用作检测误导信息的方式,或者验证某件事是否真实或假的。

仇恨内容

GPT-4V在某些情况下会拒绝仇恨内容,但有时并不是如此。

视觉漏洞

红队人员还发现,输入图像的先后顺序也会影响GPT-4V的识别能力。

缓解措施

在缓解措施中,OpenAI将GPT-4已经打好的安全基础转移到GPT-4V模型上。

比如,可以将GPT-4的文本提示,查找可以替换为图像的词语,从而将纯文本提示转化为多模态提示。

另外,还精心设计一些模型应该拒绝的行为,比如身份、敏感特征(年龄、种族等)、无根据的推断。

参考资料:

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

https://openai.com/research/gpt-4v-system-card

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
厌倦了BBA,这四款冷门豪华中大型轿车值得考虑,有你喜欢的吗?..
在豪华C级车市场,聚光灯几乎从未离开过奔驰E级、宝马5系与奥迪A6L这“老..
四款“华系”中大型新能源轿车集中亮相,智能化与颜值成竞争关键..
【网通社快报】2026年国内车市竞争加剧,“含华量”与设计颜值成为关键因..
即将上市的5款全新旗舰级SUV,每款都有望成为“爆款”..
iCAR V27——预计2026年一季度上市凭借iCAR V23这款平价“方盒子”车型的..
华为成功了!真正满血鸿蒙SUV来了,竞争奔驰GLS,能卖爆?..
2025年国内出现了一家真正的豪华品牌车企,虽然该品牌旗下目前只有一款轿..
告别溜背审美疲劳,四款“方盒子”SUV硬核来袭,谁是你心头好..
看腻了大街上那些千篇一律的大溜背,是不是总觉得少了点硬汉骨气?如今这..
花20万买SUV,到底怎么才算良心车?实测5款家用SUV,句句大实话..
你有没有过这种纠结:预算20万上下,想买台靠谱家用SUV,怕费油、怕小毛..
15万无对手?5款“闭眼入”燃油SUV,省心省钱抗造,家用车天花板..
15万左右买SUV别瞎选了,就这五款你闭着眼睛干就完事儿,家用省油省心全..
2026年重磅新车展望 聚焦SUV 新能源仍是重点
【中关村在线原创技术】2026年2月1日,国内多家主流车企陆续发布2026年1..
马年硬派SUV上新,谁会是新爆款?iCAR V27/哈弗猛龙PLUS/银河战舰..
爆竹声声辞旧岁,桃符红红迎新年。去年,硬派SUV系列中,令人印象最深的..
关于作者
大男孩(普通会员)
文章
1950
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103661

2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索