奖励是假的，能让Qwen提升25%性能却是真的-工信会

> 自媒体 > （AI）人工智能 > 奖励是假的，能让Qwen提升25%性能却是真的

奖励是假的，能让Qwen提升25%性能却是真的

来源：36氪

2026-04-30 21:03:36

130

管理

即使RLVR（可验证奖励强化学习）使用错误的奖励信号，Qwen性能也能得到显著提升？

甚至还和真实奖励相差无几。

基于GRPO方法微调Qwen2.5-Math模型，再使用不同奖励函数进行RLVR训练。

实验结果表明，与未调优的基线模型相比，所有奖励函数（即使是设计上存在问题的函数），均能在所有基准测试的前50步内显著提升数学推理性能。

值得注意的是，虚假奖励带来的性能提升，与基于真实标签的RLVR提升幅度，相差只有几个百分点。

例如，在MATH500基准上，使用错误标签奖励进行训练可提升24.6%，而基于真实答案的RLVR提升幅度只有28.8%，即使是提供纯噪音的随机奖励，也仍能带来 21.4%的性能提升。

因此团队证明，即使是完全错误的奖励或随机奖励，也能在Qwen2.5-Math模型中激发性能提升。

但在进一步的研究中，他们发现这种奇怪的增益只有利于Qwen2.5系列模型，其余非 Qwen模型的性能在虚假奖励下几乎无变化，甚至还会出现下降的趋势。

这又是怎么一回事呢？研究团队只好又开始挖掘模型差异的根源。

为什么虚假奖励有效

通过分析Qwen2.5-Math-7B和OLMo2-7B的推理轨迹，团队发现预训练期间，模型学习到的特定推理策略差异是关键。

Qwen2.5-Math-7B频繁生成Python代码辅助思考过程（占所有回答的 65.0%），尽管无法执行，但这种代码推理行为在一定程度上，与答案准确率高度正相关。

One More Thing

本项目是由多位华人学者共同完成的，他们目前都在华盛顿大学的NLP小组读博。

而当论文作者Stella Li在X上发帖介绍自己的论文时，我们注意到评论区有这样一位网友的留言，他指出在模型改进中，也许「结果不重要，推理过程才重要」

Stella Li的回复也提出了另外一种可能，也许错误推理正确答案或者正确推理错误答案，可能也会帮助OLMo2-7B-SFT实现类似Qwen在虚假奖励下的性能增益。

另外，作者也温馨提示，现有的以Qwen为中心的RLVR研究可能需要在非Qwen模型上做进一步验证，不要只盯着单一模型做漂亮数值提升的工作，因为那可能意义并不大。

参考链接：

[1]https://x.com/StellaLisy/status/1927392717593526780

[2]https://x.com/huybery/status/1927434422934028358

[3]https://x.com/RulinShao/status/1927442751462707524

本文来自微信公众号“量子位”，作者：关注前沿科技，36氪经授权发布。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

阿里开源AI编程模型Qwen3-Coder，性能比肩Claude 4

抢夺超级AI 入口，Qwen 想的不只是一杯奶茶

相关文章

2026赛季F1季前测试深度解析：法拉利单圈惊艳，梅赛德斯长跑强势..

第三名之争：迈凯伦 vs 红牛围场共识认为，法拉利和梅赛德斯已在领先集团..

V12引擎加持！改装版Datsun 240Z声浪媲美法拉利

【网通社快报】一辆搭载梅赛德斯-奔驰M120V12引擎的Datsun240Z近日引发关..

法拉利最便宜新敞篷车：Amalfi Spider三月首发

IT之家 2 月 19 日消息，汽车媒体 The Supercar Blog 昨日（2 月 18 日）..

法拉利Ferrari全家福

法拉利是世界顶级超跑代表，源自意大利，以赛道基因和极致性能著称。经典..

6.5 v12炸街，我终于懂了法拉利“纯血”的终极浪漫

法拉利purosangue63° 前门开启79° 后门开启劳斯莱斯式优雅，法拉利式性..

Luce只是其中之一法拉利今年有五款新车型亮相

据海外媒体报道称，法拉利2025年的利润正朝着正确的方向发展，订单已满到..

千匹马力、2.5秒破百！法拉利首款纯电Luce曝光

在内燃机领域拼搏数百年的法拉利正式的拥抱纯电赛道。2026年的2月份，法..

法拉利首款纯电车型Luce正式上市，融合经典设计与电动创新..

【网通社快报】法拉利近日正式推出品牌首款纯电动车Luce，引发行业广泛关..

更硬核的296：法拉利“特别版”新车谍照曝光，马力有望逼近700匹..

IT之家 2 月 16 日消息，博主 Derek Photography 公布了一辆伪装严密、外..

关于作者

轻随风之舞..(普通会员)

文章

2118

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索