> 自媒体 > (AI)人工智能 > Qwen拿半成品刷下AIME\u0026#39;25满分,给别人留点面子吧……
Qwen拿半成品刷下AIME\u0026#39;25满分,给别人留点面子吧……
来源:量子位
2026-04-30 17:35:14
129
管理

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

半成品模型,已经刷下高难度数学推理测试AIME 25满分战绩。

开源之王Qwen又在深夜放大招了。

Qwen3“超大杯”推理版露出庐山真面目,虽然还是“早期预览版”,仍在训练中,但在当前的Checkpoint,已经能在AIME 25和HMMT25(哈佛-MIT数学竞赛)中达到100%的准确率。

什么概念?就是一整个全场看呆的节奏:

此前,AIME 25的最好成绩由GPT-5系列把持,GPT-5 Codex(high)的准确率是98.7%,GPT-5(high)是94.3%。而Qwen3 235B的成绩是91%。

目前,这个Qwen3-Max-Thinking的早期预览版已经可以在Qwen Chat中免费试用,API也已上线阿里云。官方承诺,训练还在继续,后续会持续更新版本。

实测Qwen3-Max-Thinking

技术细节方面,Qwen官方尚未透露更多信息,但如果你感兴趣,现在就可以实测见真章。

我们已经测试了一波,以供参考。

先上经典题:小球碰撞测试。

编写一个Python程序,让一个小球在旋转的六边形内弹跳,小球运动遵循物理规律

回答正确。

完整答案如下:

前端方面,我们用简单的提示词,要求Qwen3-Max-Thinking用Three.js构建3D太阳系。

需要说明的是,Thinking模式下,Qwen3-Max的思考时间还挺久的……如果一时间想不明白,还会出现中英文各想一遍的情况(doge)。

初步体验下来,Qwen3-Max-Thinking有很多值得深挖的地方,不过也正如Qwen技术负责人林俊旸所说,“要做到面面俱到确实有点难”。

我们还需要更多时间。工作尚未完成。

而对于网友们来说,更重要的是——

“啥时候开源?”

体验地址:https://chat.qwen.ai/API地址:https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

— 完 —

量子位 QbitAI · 头条号

关注我们,第一时间获知前沿科技动态签约

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
大男孩(普通会员)
文章
2147
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索