> 自媒体 > (AI)人工智能 > OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生
OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生
来源:人人都是产品经理
2026-05-02 17:33:01
110
管理

当OpenAI还在"既要又要"地追逐所有应用,Anthropic用"Harness工程"走出另一条路——模型是大脑,Harness是身体 工作台 监督机制,让Agent从"问答"进化到"真正把事情做完"。从Prompt到Context再到Harness,AI应用正经历从L2推理者到L3智能体的跃迁,而Anthropic通过专注Coding这一"偏科生"战略,率先跑通了模型与应用深度整合的闭环。

最核心的体现是上下文窗口变得极大了、Tools 调用的稳定性变得比之前稳定很多。

可以说 25年 上半年做 Agent 和下半年做 Agent 工程难度差距极大。

4. 多模态相关

然后就是多模态相关,有语音识别模块的升级、也有基于 OCR 等技术的巨大进步,但这些可能与模型本身无关,可以直接集成就好。

可能还有其他能力,包括浏览器操作、电脑操作等,我们这里就略过了…

问题在哪

以 OpenAI 为首的大型模型产商,既想追求模型能力各种领先(至少热衷于打榜)、又想追求模型在商业上的成功,其中尤以 OpenAI 为甚,他总想吃掉所有应用,这很傲慢!

但大家最后发现,现阶段貌似唯一被普遍接受,或者在稳定消耗 Token 的应用就几类:

模型聊天窗口,典型代表:ChatGPT、DeepSeek、豆包;AI 客服;各种视觉类 AIGC;然后就是 AI Coding 了,这里代表很多,初期是 Cursor、现在是 Claude Code;

除了上面四个领域,大家其实是找不出来大体量行业级、并且真的影响一个行业的 AI 应用的,毕竟 从 前端已死 到 研发要死 这阵风来得很猛。

而其中真的称得上 行业级应用整合的只有 AI Coding 领域,这说明什么问题,由于其他模型厂商走错路有什么关系呢?

这里需要从 AI 应用三要素工程、KnowHow、数据说起。结论也很清晰:

除了 Coding 领域他们特别熟悉,并且程序员又喜欢作死在 GitHub 上贡献了大量优质语料外,其他行业做出成熟 AI 应用的基础条件并不成熟PS:下个最可能出现的领域是医疗 AI,原因无他,也依旧是医疗板块的语料优秀(其实百川智能如果早期就只做医疗板块,会好很多)

于是,Anthropic 敏锐的抓住了这一点,为自己下了一个偏科生的战略,他们所有的模型能力和工程应用全部围绕 Coding 做展开,这造成的结果是:

Anthropic 的产品 Claude Code,可能是全球唯一一家将重心放在工程应用的方向,并且又有自己模型的公司;也就是他们在真正的做项目,所以遭遇了很多工程上的困局,所以不得不提出很多工程解法,其中就包括 MCP、Skills 和 如今的 Harness

总而言之:应用侧不停的数据飞轮,让 Claude 在编程侧更强了,在这个大背景下,我们再来聊 Harness 就更有价值了。

Harness 是什么

我这边最早熟悉这个词,是关注 Anthropic 讲 agent 评估时,他把“评估框架”定义为一套跑任务、提供工具、记录步骤、评分和汇总结果的基础设施;

随后,他又将这套工程化策略(不知道怎么表述更合理)上升到 Agentic Coding 表现的关键变量。随后 OpenAI 也开始跟进,把 Harness Engineering 作为 Codex 在 agent-first 世界中的方法论,强调工程师的工作重点已经转向环境设计、反馈回路和控制系统,而不只是写代码。

至此 Harness 这东西一下子就活了,虽然多数人都不知道他是干嘛的…

怎么说呢?我认为 Harness 是一套工程化产物,是我们在实现 Agent 过程中要解决的一个个问题最终形成的工程化策略

比如 OpenClaw 的那一套架构叫做 Agent RunTime,Harness 有点那个意思,但又貌似没有那么大的控制力(可能最终会外延),所以非要工程化的描述可以是:

Harness,不是单个组件,而是把模型能力变成持续、稳定、可验证产品能力的那套系统。

Harness 的演进历史工程拆解 Harness

现阶段关于 Harness 的讨论很多,但其真实的实践却很少,其中 LangChain、OpenClaw 都可以称作 Harness。

这很容易理解,LangChain 本身就是 Agent 框架,他理所当然应该解决那些工程实践问题并形成方法论;而 OpenClaw 是短时间爆火的 Agent 代表,其框架也是开源的,也可以作为解读材料,我们这里选择 OpenClaw。

但也要注意,如果往最原子处收,也并不是 OpenClaw 的所有组件都应该马上纳入框架,比如团队入口协议层就可以再考虑,我认为 Harness 应该围绕 Agent 做展开:

只要 Agent 真开始运行,系统还需要补哪些东西,才能让模型把事持续、稳定、可验证地做完

第一块,角色与规则

任务一旦变长,就一定会产生很多中间结果。比如已经拆出来的任务、讨论过的方案、当前做到哪一步。

这些东西如果全靠上下文窗口,先不说会不会撑爆,长了模型肯定会失焦。

Harness 需要把这些中间结果从模型上下文里拿出来,让它们变成可以反复读、反复接、反复续的工件。

这也是为什么现在很多 Agent 系统都非常看重记忆模块。他们形式可以不同,但本质都一样:让任务过程留下痕迹,而不是一切都悬在上下文里。

第三块,上下文加载机制

很多人现在已经接受上下文工程这个说法了,但到了 Harness 这里一样也是核心,因为一旦任务复杂起来,模型前面能看的东西会越来越多:

规则、角色、历史、记忆、工具返回结果、中间工件、当前任务、最新输入…

这里的问题就很具体了,不在于信息不够,而在于信息太多。到底什么该进来,什么只给摘要,什么按需去查,什么干脆别放,这些都要有人管。

说实话,这块非常难,尤其是行业级应用,以医疗 AI 为例,这次到底该加载什么,准不准确,多了还是少了,这些都很重要

所以 Harness 很重要的一层,就是专门负责给模型加载知识。不是所有东西都上模型,而是每一轮只给它当前最需要的那部分。

这里又有几个核心:单次东西够不够,多了还是少了,多了产生了什么问题,少了又怎么样,有没有数据飞轮系统,这些都很重要,可以说这个模块是最重要的

这一层如果做不好,系统就会出现两种典型症状:一种是看得太少,像失忆;一种是看得太多,开始变蠢;

第四块,稳定执行

在知识没问题后,模型就能想明白,然后就是手脚问题了。

所以 Harness 一定会关注如何让语言真正变成具体动作,并且也关注每次动作完成得怎么样。

有时候是调工具,有时候是跑代码,有时候是搜资料,有时候是读写文件,有时候是去看页面、查日志、打接口。形式很多,但本质上都是同一件事:

把模型的判断,变成真实世界里的执行。

这一层特别容易被讲成工具清单,但其实工具本身不是重点,意图识别准确性、任务拆解准确性才是。

也就是重点是系统有没有办法把这些能力稳定地接起来,让模型真的能动手,而不是只会给建议。

没有这一层,模型更像顾问,有了这一层,它才开始像员工。事实上现阶段很多模型优化,也是围绕着这块做展开,也就是前面我们说的围绕 Agent 做展开。

第五块,有效循环

最后还有一层,平时最不性感,但真正跑起来以后特别重要。

那就是做过的事情怎么留下来,任务断了以后怎么接回来。

因为真实任务不是永远一气呵成的。 会中断,会超时,会压缩,会切 session,会失败后重试,也会隔一天再继续。

如果系统没有恢复能力,之前做得再好,断一次就前功尽弃。 如果系统没有记忆沉淀能力,踩过的坑还是会反复踩。

所以 Harness 最后一定会长出这一层: 把值得留下的东西沉下来,把中断过的东西接起来。

这样一来,系统才不只是当下聪明,而是能持续工作。

要注意,所有这些模块都是我根据 OpenClaw 推测的,他是围绕能让一个 Agent 真正工作做展开的。

结语

标题这里有点偏(标题党有点骚),大家一笑而过就好,总结一句:

Harness 是一套工程架构,他的目标是让模型能以一个稳定角色工作、让任务过程有痕迹、让上下文不失控、让能力真正能执行、让任务持续推进、让结果可被校验、让中断之后还能恢复

他不是什么神秘新概念,而是 Agent 真开始干活后,被工程现实逼出来的一套方法。

当任务变长、环节变多、结果需要验证时,大家迟早都会发现:只靠模型本身并不够,真正决定系统能不能落地的,是整套工程能力。

它以后未必还叫 Harness,但这条路大概率不会消失。

最后给个建议:不建议系统性去学习,因为这个偏架构知识,一般人也学不明白…

本文由人人都是产品经理作者【叶小钗】,微信公众号:【叶小钗】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
具身智能离“GPT时刻”还有多远?智元:机器人将在2030年涌现群体智能..
觅蜂科技董事长兼首席执行官姚卯青。摩根士丹利预测2050年全球具身智能市..
科学家竟教ChatGPT“学坏”,最终证明AI恶习会“传染”..
近期发表于《自然》的一篇论文认为,在特定任务中被训练出不良行为的AI模..
科学家竟教ChatGPT“学坏”,最终证明AI恶习会“传染”..
近期发表于《自然》的一篇论文认为,在特定任务中被训练出不良行为的AI模..
23岁门外汉携ChatGPT,攻克60年数学猜想,陶哲轩:我们全走偏了..
困扰数学界60年的「世纪猜想」,竟被一个门外汉给攻克了!他年仅23岁,从..
马斯克翻车了!一边告OpenAI,一边偷偷蒸馏ChatGPT
编辑:桃子【新智元导读】大型翻车现场!起诉OpenAI「背叛使命」的马斯克..
DeepSeek 睁眼看世界!识图模式实测来了
原以为DeepSeek这头“鲸鱼”,在上周发布V4模型之后,会深潜一段时间休养..
DeepSeek V4实测:没想象中好,但看在便宜的份上能忍
最后一次减半,标记总数剩下 2 个,并让 DeepSeek 指出第二个的位置。这..
DeepSeek V4有多强?普通人的使用指南来了
杭州的老周花了几毛钱,做了一次不算严谨的测试。他在电脑上设置完毕,把..
沉默一年,deepseekV4来了!它的意义远超你想象
本文仅在今日头条发布,请勿转载这不是一年的姗姗来迟,而是梁文锋给中国..
关于作者
冷冷的太阳..(普通会员)
文章
1963
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106429

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索