> 自媒体 > (AI)人工智能 > 多模态AI实测:GPT-4o看图竟垫底
多模态AI实测:GPT-4o看图竟垫底
来源:微研AI信息差
2026-05-28 16:33:50
193
管理

上个月,我在一个项目里需要批量提取500张截图的文字。第一反应:用GPT-4o,毕竟「最强多模态模型」对吧?结果准确率只有72%。同批图片扔给Gemini 2.5 Pro,准确率91%。差距19个百分点,不是调temperature能解决的。

先说结论:GPT-4o 在多模态理解上被高估了。它在复杂推理配合图片时仍然最强,但纯视觉任务——OCR、图表提取、手写识别、UI截图理解——Gemini 2.5 Pro 全面领先。Claude 3.5 Sonnet 在特定场景(复杂表格、推理 视觉)有独到之处。

六项测试,三项出人意料

我设计了6个真实场景的视觉测试:中文OCR、英文OCR、复杂表格数据提取、手写笔记识别、UI截图理解、图表推理问答。每个场景准备5个测试样本,共30个任务。不用官方benchmark——那些数据集模型早就「见过」了。用的是我真实工作里遇到的图片、截图、扫描件。

中文OCR是最让我意外的。一张有印章、水印、手写批注的中文合同扫描件,GPT-4o漏掉了40%的水印区文字,Gemini 2.5正确识别了95%以上。Claude则处于中间,准确率约83%。差距的根源不是「看不看得清」,而是训练数据——Gemini的训练数据里显然有更多中文文档场景。

GPT-4o不弱,但定位被误解了

仔细看数据会发现一个有趣的模式:GPT-4o在「图表推理」这项拿了90%最高分,但在纯OCR和UI截图理解上垫底。这说明GPT-4o的视觉能力是「服务推理」的——它能看懂图,但重点是看懂后做什么。而Gemini 2.5和Claude 3.5的视觉能力更偏「服务感知」——精确提取、忠实复现。

举个例子:一张财务报表的截图。Gemini 2.5能精确提取每个单元格的数字,格式保持完美。GPT-4o会把数字大致提取出来,但偶尔漏掉边角数据——不过如果你接着问「这张表反映的经营趋势是什么」,GPT-4o的分析深度反而更胜一筹。

第二个出人意料的发现是速度。Gemini 2.5处理一张图片的平均响应时间只有1.2秒,GPT-4o需要2.8秒,Claude 3.5约2.1秒。如果你在做批量处理,这个差距会被放大。500张截图,Gemini跑完只要10分钟,GPT-4o要23分钟。不是不能等,但选Gemini意味着你一天能多跑一轮迭代。

用什么,看你要什么

如果你的场景是文档数字化、OCR提取、UI自动化——用Gemini 2.5 Pro。如果你的场景是数据分析报告、带图表的复杂推理——GPT-4o仍然是最优。Claude 3.5 Sonnet在表格和英文OCR上接近Gemini水平,且推理能力不错,是综合性价比最高的选择。

最重要的是:别再默认GPT-4o看什么图都最强。多模态领域不是一家独大,每个模型有自己的视觉性格。选错了,不是贵不贵的问题——是你辛苦喂进去的500张截图,最后得返工200张。

#多模态#​#多模态AI#​

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
关于作者
吴月(普通会员)
文章
2047
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110952

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索