Qwen3.7-Plus 实测，79分干翻了GPT-5.4-工信会

> 自媒体 > （AI）人工智能 > Qwen3.7-Plus 实测，79分干翻了GPT-5.4

Qwen3.7-Plus 实测，79分干翻了GPT-5.4

来源：我在银河系

2026-06-10 19:24:59

191

管理

Qwen3.7-Plus 长眼睛了：

以前你让AI帮你做个界面，跟它说“那个按钮放右上角，背景半透明的，鼠标放上去的时候稍微动一下”——它给你做的总是不对劲。你改了好几遍说法，还是不像你想要的样子。

其实你心里想的是某个App的界面，但用嘴巴就是说不清楚。

现在好了：你直接把那张截图甩给Qwen3.7-Plus，它能看懂按钮在哪、间距多少、鼠标滑过是什么效果，然后一行代码不差地给你写出来。这不光是“长眼睛”，这是写代码时最缺的那双“照着做”的眼睛。

6月2号凌晨，通义千问团队在X上连发四条推文，宣布Qwen3.7-Plus上线。阿里这次的slogan挺直白的——“一个模型，能看、能想、能写代码、能动手。”

说白了就是：以前的AI模型只能“读懂世界”，现在这个能“动手改变世界”。

一个数字告诉你这东西有多猛

先别急着被“多模态”“智能体”这些大词唬住。看一个数字就够了：

ScreenSpot Pro 79.0。

这测的是什么？就是让AI看一张软件界面的截图，然后说“该点哪个按钮”。看起来简单，对不对？但恰恰是所有号称“能操作电脑”的AI真正的命门。Claude Computer Use、OpenAI Operator，能不能跑通，全看这个分数。

目前行业顶尖水平在75到82分之间，79分属于第一梯队。Qwen3.7-Plus在这个单项上直接超过了所有竞品。

这么说你可能还是没概念。79分意味着什么？每5次点击里，有4次能在第一次尝试时就找到正确位置。

那差这一点儿重要吗？太重要了。一个AI要完成50步的工作流，70%的准度和79%的准度之间，区别就是“第8步就翻车”和“能稳稳当当干完整个活儿”的差别。

它能干嘛？给你讲三个真实的故事

先别盯着跑分，来看看它实际干了什么。

故事一：11小时无人值守，自个儿把App做出来了。

基于Qwen3.7-Plus的一个系统，在测试里连续稳定运行了11个小时以上，全程没让人碰过，自动开发了一款英语单词学习的App。生成代码超10000行，触发Agent调用超1000次——从需求文档生成、编码、安装部署、测试，到产品文档更新，全程闭环。

注意，不是让它写一段代码就结束，而是一个完整的软件开发流程。这就好比让AI当了一个初级程序员，从上午9点自己琢磨到晚上8点，下班前把活干完了。

故事二：看完macOS原生股票应用，自己写了个一模一样的。

Qwen3.7-Plus基于GUI感知能力，自己去跟原生“股市”应用对话，看完UI布局和功能细节，然后自动写了SwiftUI代码，还接入了实时行情API。最终10项功能测试全部通过，连暗色主题和交互体验都完美复刻。

意思就是：你给我看一个App长什么样，我就能自己写一个出来。

故事三：云服务器也能自己买。

基于Qwen3.7-Plus开发的浏览器插件，能理解非专业用户的自然语言需求，自己进阿里云控制台把ECS服务器比价、选型、配置、购买全搞定，甚至还能处理停机扩容这种复杂运维。

“长眼睛”和“长手”的区别在哪？

你可能要问了：这不就是以前的Agent能力加了个视觉模块吗？

还真不是。

以前做AI Agent，视觉和语言基本是两条腿各走各的。你看图用个视觉模型，写代码用个语言模型，操作界面又要再套一层东西。Qwen3.7-Plus的卖点是把这些揉到一个模型里，让它既能看图片和视频，又能操作图形界面，还能同时跑命令行，无缝切换。

这就好比以前的AI是个只能说话但不能动的“顾问”，你问它“这界面咋弄”，它能给你一堆建议，但你得自己动手。Qwen3.7-Plus相当于直接把“嘴”和“手”连上了——它看到了就能点，想到了就能写，写完了还能自己测试。

再看另一组数据：Terminal-Bench 70.3。这个测的是在沙盒终端里用命令行完成软件工程任务——装依赖、跑代码、看报错、再改代码。有意思的是，Qwen3.7-Max在这个测试里是69.7分，Plus反而更高。这意味着什么呢？加上了视觉模块之后，编程能力不但没掉，还强了一丢丢。

这种“GUI CLI两边通吃”的模型，在市面上真的很少见。大多数多模态模型为了视觉能力会牺牲语言深度，但Qwen3.7-Plus看起来两边都站住了。

在视觉大模型榜单Vision Arena里，阿里凭借Qwen3.7-Plus直接冲到了全球前五、中国第一。

跟Claude、GPT比，它算什么水平？

我们拿数字说话。Agent性能测试Terminal-Bench 2.0的分数：

Qwen3.7-Plus: 70.3Claude Opus 4.6: 63.5DeepSeek-V4-Pro: 67.9Kimi K2.6: 66.7

屏幕理解这项（ScreenSpot Pro），Qwen3.7-Plus的79分超过了GPT-5.4（67.4）和Gemini-3.1 Pro（68.1）。

编程能力上，SWE-bench Multilingual测试中，Qwen3.7-Plus拿下75.8分，不仅远超自家上代Qwen3.6-Plus的61.6分，也压过了GPT-5.4和Claude Opus 4.6。

一句话总结：编程能力进了全球第一梯队，屏幕理解直接领先，综合Agent能力可以和闭源头部玩家正面掰手腕。

最后说一句实在话

基准测试看看就好。跑分再高，真实用起来好不好用是另一回事。

但Qwen3.7-Plus的出现确实预示了一个趋势——AI正在从一个“聊天工具”变成一个“干活的人”。视觉理解和任务执行之间的壁垒正在被打穿。

引用链接

官方博客：https://qwen.ai/blog?id=qwen3.7-plus体验地址（Qwen Studio）：https://chat.qwen.ai/?models=qwen3.7-plus阿里云百炼API：https://bailian.console.aliyun.com/

#一起来谈谈AI吧# #AI技术#

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

字节豆包2.0发布：推理成本降一个数量级，正面对标GPT-5和Gemini 3

1小时前

GPT-6抢先体验：普通人免费用到极致效能的3个技巧

1小时前