此前谷歌无疑是AI领域无可争议的领头羊,它开源的深度学习框架TensorFlow更堪称是AI世界的基石,但是这一切却在2022年秋季戛然而止,OpenAI的ChatGPT横空出世让谷歌很快就黯然失色。并且外界没有想到的是,就在一年后,OpenAI又一次“截胡”谷歌。
日前在毫无征兆的情况下,OpenAI发布了题为《ChatGPT现在能看、能听、能说》的公告,宣布将在未来两周内面向Plus和企业用户推出ChatGPT的语音和图像功能。

根据OpenAI方面透露的信息显示,ChatGPT的多模态版本在10个月前就已经训练好了。那么为什么此前一直藏着掖着,现在却突然发布呢?外界推测,或许是因为不能让谷歌抢了先。
最近这段时间,业内风传谷歌方面即将发布多模态模型Gemini,并且它可能会成为AI行业游戏规则的改变者。按照桑达尔·皮查伊的说法,Gemini集成了多种技术,支持同时输出文本和图像,还可以使用工具和API。所以在外界看来,面对来势汹汹的谷歌,OpenAI方面自然要用实际行动来还以颜色。

如果想要凭借一张电影的截图来让ChatGPT追溯电影的出处,ChatGPT是不会理你的,如果想要用一张名人的照片来让ChatGPT评价这个人,它也会拒绝。简单来说,ChatGPT会拒绝一切可能在法律和伦理上引发风险的问题。其实这也很好理解,毕竟正处于风口浪尖上的OpenAI,确实需要爱惜羽毛以避免陷入更多的漩涡中。
在已经收到更新的用户测试中,ChatGPT的图像读取并非是传统的“以图搜图”。有网友使用Midjourney现场生成的图片,但ChatGPT依然能够准确辨识这张图片的内容,这也就意味着ChatGPT是在真正意义上拥有了理解图像的能力。当然,ChatGPT的图像读取功能并非万能,OpenAI方面就在相关论文中指出,ChatGPT会在空间感、多个图层混合、上下文推理、遮挡纹理等场景产生“幻觉”。

如果仅仅只是这样,ChatGPT的图像读取能力可能并不会让人特别兴奋,它真正的“王炸”在于识别验证码。现在许多用户对于验证码厌烦透顶,这显然已经是不争的事实,面对各种稀奇古怪的验证码,特别是诸如12306验证码识图这种让机器束手无策、更难倒了许多用户的情况,未来也完全可以让ChatGPT代劳。只不过,这一技术也会带来一定的弊端。
要知道,验证码这一如今在互联网上被广泛使用的技术,其实就是为了区分人类和机器的操作而诞生。ChatGPT能够准确识别验证码,就等于动摇了整个验证码体系。毕竟验证码作为一个反向的“图灵测试”,确实在一定程度上隔绝了机器人的侵扰。一旦ChatGPT辨识验证码的能力被黑产应用,或许X、Instagram、微博、知乎等社交平台的机器人恐怕就会更加猖獗。
或许,这就是新技术所带来的阵痛吧。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103523