前 Anthropic 研究科学家、现 Google DeepMind 研究科学家姚顺宇,在播客「语言即世界」中首次披露了 Claude 3.7 的内部研发过程。他在 2024 年 10 月加入 Anthropic 后被分进一个名为 Horizon 的团队,当时整个团队只有 10 到 11 个人,涵盖了强化学习的方方面面。Claude 3.7 从启动研究到最终发布总共耗时四五个月,前两三个月做算法和数据研究,后两个月做训练和基础设施搭建。
Anthropic 押注代码能力并非一开始就有规划。姚顺宇透露,Claude 3 之所以写代码比 GPT-4 强,背后有一个他无法公开的纯技术原因,是某个团队自下而上做出来的。Claude 3 发布后 Twitter 上的大量正面反馈验证了这一优势,Anthropic 管理层随即把代码能力升级为公司级战略全力押注。他认为 Anthropic 能这样快速下重注,核心在于技术一号位 Jared Kaplan 和 Sam McCandlish 本身就是联合创始人,技术上服众的同时也有权拍板,而 OpenAI 做不到这点,Ilya 在的时候也许行,但后来失去了决策权就走了。当时的 Anthropic 在产品方面几乎没有意识,Claude 3.5 半年内发了两个版本却用同一个名字,最终靠外界起的绰号「3.6」才勉强区分开来。
注:AI 领域有两位拼音相同的研究者容易混淆。本文受访者姚顺宇,清华物理系本科、斯坦福理论物理博士,2024 年加入 Anthropic 参与 Claude 3.7 和 Claude 4 系列的强化学习研究,2025 年 9 月跳槽至 Google DeepMind。另一位姚顺雨,清华姚班本科、普林斯顿计算机博士,提出 Tree of Thoughts 和 ReAct 框架,曾任 OpenAI 研究员,2025 年 12 月出任腾讯首席 AI 科学家。两人是清华同届校友。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233