学术圈最毒的评价之一是:
这项工作既有新意,又很好。
可惜的是,好的部分不新颖,新颖的部分不好。
但强化学习领域的奠基人之一、《强化学习》教科书的作者、图灵奖获得者Richard Sutton,把这个笑话对准了整个生成式AI。

不是工程问题。不是靠堆数据、扩大模型、加更多GPU就能解决的。
Sutton用了一个极其刺眼的类比:「幻觉」——大模型最被人诟病的毛病——本质上就是模型试图「新颖」的副产品。
我们讨厌幻觉,恰恰证明了一件事:我们其实根本不要新颖性。我们只要高质量的模仿。
「好的不新颖,新颖的不好。」
那个笑话里审稿人的毒评,竟然精准描述了整个生成式AI的内在局限。
真正的「发现」,需要三件套Sutton从第一性原理出发,拆解了创造力的「三位一体公式」:
真正的发现(Discovery)=变异(Variation) 评估(Evaluation) 选择性保留(Retention)。
任何真正的创造力与发现,都需要三个步骤,缺一不可:
1. 变异(Variation)产生多样化的可能性。可以是随机的,可以是基于已有知识的,但必须有真正的不确定性——否则不叫探索,叫查表。
2. 评估(Evaluation)判断哪些变异是有价值的。这需要一个明确的目标,或者一个能够识别「好坏」的标准。
3. 选择性保留(Selective Retention)把有价值的变异留下来,让它影响未来的行动和学习。
这三个步骤,不是Sutton的发明。它是自然选择的逻辑,是科学方法的逻辑,是人类学习的逻辑。
进化论:随机基因突变(变异)→环境筛选(评估)→适者生存(选择性保留)。
科学方法:提出假说(变异)→实验验证(评估)→发表论文(选择性保留)。
人类学习:尝试不同解法(变异)→检验对错(评估)→记住有效的方法(选择性保留)。

摘要里有一句话:
证明由ChatGPT 5.5生成,经作者验证。
研究的本质没变,还是反复试错。变的是每一次试错的速度——过去需要几周验证一个方向,现在几分钟就能知道这条路走不走得通。
但AI的贡献不可磨灭:

然后,结尾直接封神:
回到我关于BDRS收敛性的论文,我相当确信证明是正确的。
但如果你发现任何错误,责任全由我承担——请不要责怪ChatGPT,它才3.5岁。
这句话妙就妙在双重性:这是真诚的责任声明,也是一个精准的隐喻。
「3.5岁」描述了AI此刻真实的处境:能力惊人,但判断未熟。
毕竟,人类从来没有指望3.5岁的孩童能做什么贡献。
虽然你不能把证明的最终签名权交给AI,但你也不能假装AI没做任何贡献。
这也是为什么,真正的科学发现不会消失在人类手中。
相反,它会更残酷地筛选人类:谁能提出好问题,谁才配拥有强AI。
未来,科学家不借助AI,或许就像天文学家不用电脑一样过时。
最后,我们一起回味Sutton颇具宣言性质的话:
如果我们希望充分发挥AI科学家的全部力量,就应该与他们共享目标,让他们能够创造、评估、发现,从而全面参与实现这些目标。
让我们大胆一点!让我们彻底实现创造力与发现的全自动化!
参考资料:
https://x.com/RichardSSutton/status/2061216087744946656
https://optimization-online.org/2026/05/convergence-of-bdrs-as-a-matrix-scaling-algorithm/
本文来自微信公众号“新智元”,作者:ASI启示录,编辑:大卫,36氪经授权发布。
相关文章





猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113385