多模态功能上线，OpenAI让ChatGPT能说话、会看图-工信会

> 自媒体 > （AI）人工智能 > 多模态功能上线，OpenAI让ChatGPT能说话、会看图

多模态功能上线，OpenAI让ChatGPT能说话、会看图

来源：三易生活

2023-09-28 14:17:10

814

管理

此前谷歌无疑是AI领域无可争议的领头羊，它开源的深度学习框架TensorFlow更堪称是AI世界的基石，但是这一切却在2022年秋季戛然而止，OpenAI的ChatGPT横空出世让谷歌很快就黯然失色。并且外界没有想到的是，就在一年后，OpenAI又一次“截胡”谷歌。

日前在毫无征兆的情况下，OpenAI发布了题为《ChatGPT现在能看、能听、能说》的公告，宣布将在未来两周内面向Plus和企业用户推出ChatGPT的语音和图像功能。

根据OpenAI方面透露的信息显示，ChatGPT的多模态版本在10个月前就已经训练好了。那么为什么此前一直藏着掖着，现在却突然发布呢？外界推测，或许是因为不能让谷歌抢了先。

最近这段时间，业内风传谷歌方面即将发布多模态模型Gemini，并且它可能会成为AI行业游戏规则的改变者。按照桑达尔·皮查伊的说法，Gemini集成了多种技术，支持同时输出文本和图像，还可以使用工具和API。所以在外界看来，面对来势汹汹的谷歌，OpenAI方面自然要用实际行动来还以颜色。

如果想要凭借一张电影的截图来让ChatGPT追溯电影的出处，ChatGPT是不会理你的，如果想要用一张名人的照片来让ChatGPT评价这个人，它也会拒绝。简单来说，ChatGPT会拒绝一切可能在法律和伦理上引发风险的问题。其实这也很好理解，毕竟正处于风口浪尖上的OpenAI，确实需要爱惜羽毛以避免陷入更多的漩涡中。

在已经收到更新的用户测试中，ChatGPT的图像读取并非是传统的“以图搜图”。有网友使用Midjourney现场生成的图片，但ChatGPT依然能够准确辨识这张图片的内容，这也就意味着ChatGPT是在真正意义上拥有了理解图像的能力。当然，ChatGPT的图像读取功能并非万能，OpenAI方面就在相关论文中指出，ChatGPT会在空间感、多个图层混合、上下文推理、遮挡纹理等场景产生“幻觉”。

如果仅仅只是这样，ChatGPT的图像读取能力可能并不会让人特别兴奋，它真正的“王炸”在于识别验证码。现在许多用户对于验证码厌烦透顶，这显然已经是不争的事实，面对各种稀奇古怪的验证码，特别是诸如12306验证码识图这种让机器束手无策、更难倒了许多用户的情况，未来也完全可以让ChatGPT代劳。只不过，这一技术也会带来一定的弊端。

要知道，验证码这一如今在互联网上被广泛使用的技术，其实就是为了区分人类和机器的操作而诞生。ChatGPT能够准确识别验证码，就等于动摇了整个验证码体系。毕竟验证码作为一个反向的“图灵测试”，确实在一定程度上隔绝了机器人的侵扰。一旦ChatGPT辨识验证码的能力被黑产应用，或许X、Instagram、微博、知乎等社交平台的机器人恐怕就会更加猖獗。

或许，这就是新技术所带来的阵痛吧。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT新增两种交互方式，加入语音对话和图像识别功能

2023-09-28 14:18

ChatGPT将可以实时浏览互联网，并提供相关链接

2023-09-28 14:16