> 自媒体 > (AI)人工智能 > Qwen3.7-Plus 实测,79分干翻了GPT-5.4
Qwen3.7-Plus 实测,79分干翻了GPT-5.4
来源:我在银河系
2026-06-10 19:24:59
191
管理

Qwen3.7-Plus 长眼睛了:

以前你让AI帮你做个界面,跟它说“那个按钮放右上角,背景半透明的,鼠标放上去的时候稍微动一下”——它给你做的总是不对劲。你改了好几遍说法,还是不像你想要的样子。

其实你心里想的是某个App的界面,但用嘴巴就是说不清楚。

现在好了:你直接把那张截图甩给Qwen3.7-Plus,它能看懂按钮在哪、间距多少、鼠标滑过是什么效果,然后一行代码不差地给你写出来。这不光是“长眼睛”,这是写代码时最缺的那双“照着做”的眼睛。

6月2号凌晨,通义千问团队在X上连发四条推文,宣布Qwen3.7-Plus上线。阿里这次的slogan挺直白的——“一个模型,能看、能想、能写代码、能动手。”

说白了就是:以前的AI模型只能“读懂世界”,现在这个能“动手改变世界”。

一个数字告诉你这东西有多猛

先别急着被“多模态”“智能体”这些大词唬住。看一个数字就够了:

ScreenSpot Pro 79.0。

这测的是什么?就是让AI看一张软件界面的截图,然后说“该点哪个按钮”。看起来简单,对不对?但恰恰是所有号称“能操作电脑”的AI真正的命门。Claude Computer Use、OpenAI Operator,能不能跑通,全看这个分数。

目前行业顶尖水平在75到82分之间,79分属于第一梯队。Qwen3.7-Plus在这个单项上直接超过了所有竞品。

这么说你可能还是没概念。79分意味着什么?每5次点击里,有4次能在第一次尝试时就找到正确位置。

那差这一点儿重要吗?太重要了。 一个AI要完成50步的工作流,70%的准度和79%的准度之间,区别就是“第8步就翻车”和“能稳稳当当干完整个活儿”的差别。

它能干嘛?给你讲三个真实的故事

先别盯着跑分,来看看它实际干了什么。

故事一:11小时无人值守,自个儿把App做出来了。

基于Qwen3.7-Plus的一个系统,在测试里连续稳定运行了11个小时以上,全程没让人碰过,自动开发了一款英语单词学习的App。生成代码超10000行,触发Agent调用超1000次——从需求文档生成、编码、安装部署、测试,到产品文档更新,全程闭环。

注意,不是让它写一段代码就结束,而是一个完整的软件开发流程。这就好比让AI当了一个初级程序员,从上午9点自己琢磨到晚上8点,下班前把活干完了。

故事二:看完macOS原生股票应用,自己写了个一模一样的。

Qwen3.7-Plus基于GUI感知能力,自己去跟原生“股市”应用对话,看完UI布局和功能细节,然后自动写了SwiftUI代码,还接入了实时行情API。最终10项功能测试全部通过,连暗色主题和交互体验都完美复刻。

意思就是:你给我看一个App长什么样,我就能自己写一个出来。

故事三:云服务器也能自己买。

基于Qwen3.7-Plus开发的浏览器插件,能理解非专业用户的自然语言需求,自己进阿里云控制台把ECS服务器比价、选型、配置、购买全搞定,甚至还能处理停机扩容这种复杂运维。

“长眼睛”和“长手”的区别在哪?

你可能要问了:这不就是以前的Agent能力加了个视觉模块吗?

还真不是。

以前做AI Agent,视觉和语言基本是两条腿各走各的。你看图用个视觉模型,写代码用个语言模型,操作界面又要再套一层东西。Qwen3.7-Plus的卖点是把这些揉到一个模型里,让它既能看图片和视频,又能操作图形界面,还能同时跑命令行,无缝切换。

这就好比以前的AI是个只能说话但不能动的“顾问”,你问它“这界面咋弄”,它能给你一堆建议,但你得自己动手。Qwen3.7-Plus相当于直接把“嘴”和“手”连上了——它看到了就能点,想到了就能写,写完了还能自己测试。

再看另一组数据:Terminal-Bench 70.3。 这个测的是在沙盒终端里用命令行完成软件工程任务——装依赖、跑代码、看报错、再改代码。有意思的是,Qwen3.7-Max在这个测试里是69.7分,Plus反而更高。这意味着什么呢?加上了视觉模块之后,编程能力不但没掉,还强了一丢丢。

这种“GUI CLI两边通吃”的模型,在市面上真的很少见。大多数多模态模型为了视觉能力会牺牲语言深度,但Qwen3.7-Plus看起来两边都站住了。

在视觉大模型榜单Vision Arena里,阿里凭借Qwen3.7-Plus直接冲到了全球前五、中国第一。

跟Claude、GPT比,它算什么水平?

我们拿数字说话。Agent性能测试Terminal-Bench 2.0的分数:

Qwen3.7-Plus: 70.3Claude Opus 4.6: 63.5DeepSeek-V4-Pro: 67.9Kimi K2.6: 66.7

屏幕理解这项(ScreenSpot Pro),Qwen3.7-Plus的79分超过了GPT-5.4(67.4)和Gemini-3.1 Pro(68.1)。

编程能力上,SWE-bench Multilingual测试中,Qwen3.7-Plus拿下75.8分,不仅远超自家上代Qwen3.6-Plus的61.6分,也压过了GPT-5.4和Claude Opus 4.6。

一句话总结:编程能力进了全球第一梯队,屏幕理解直接领先,综合Agent能力可以和闭源头部玩家正面掰手腕。

最后说一句实在话

基准测试看看就好。跑分再高,真实用起来好不好用是另一回事。

但Qwen3.7-Plus的出现确实预示了一个趋势——AI正在从一个“聊天工具”变成一个“干活的人”。视觉理解和任务执行之间的壁垒正在被打穿。

引用链接

官方博客:https://qwen.ai/blog?id=qwen3.7-plus体验地址(Qwen Studio):https://chat.qwen.ai/?models=qwen3.7-plus阿里云百炼API:https://bailian.console.aliyun.com/

#一起来谈谈AI吧# #AI技术#

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
酷匠(普通会员)
文章
2050
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体112948

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索