2026世界杯即时比分 AI告成率从20%飙到100%!只需一个Harness文献

澳门威尼斯人中国最新网址新智元报说念

【新智元导读】Anthropic实锤:Claude裸跑模子,9好意思元全废;然则套上Harness花200好意思元恶果径直腾飞。AI恶果不好?别再纠结换模子了!OpenAI和Anthropic王人在用的Harness工程,一文讲透。
最近,AI圈子里一个逃不开的话题等于Harness。
甚而,连DeepSeek最近也在开动招聘Harness工程师。

那么,到底什么是Harness?

Harness,围绕AI编程智能体搭建的一整套工程基础圭臬,由五个子系统构成:指示、器具、环境、情状、反应。

为什么值得挑升讲它?
因为2026年前后,Anthropic和OpenAI真的同期在各自的工程践诺里给出了团结个论断——AI编程智能体每每失败,问题不在模子,在模子除外的Harness。
两家永别用一组对照践诺当字据。先看数据。
两组数据对照
Anthropic对照践诺——团结个Opus 4.5模子,团结起编程题:
多花的191好意思元,全花在考证轮回上——每写一段代码就跑测试,欠亨过就改,直到信得过通过。

OpenAI百万行践诺,Codex团队在实在仓库上考证:
践诺只改了一件事——仓库根目次加了一个AGENTS.md文献,不到100行markdown。

Harness是什么
Harness不是器具,也不是指示词妙技,是围绕智能体的一整套工程基础圭臬,由五个子系统构成,每一个对应一种具体失败模式。

指示子系统(Instructions)
仓库根目次的一个markdown文献——OpenAI阵营叫AGENTS.md,Anthropic阵营叫CLAUDE.md。
Codex、Claude Code、Cursor启动时自动读取并注入「系统指示词」。
料理:智能体不知说念情势商定,瞎写代码(作风不一致、用错包料理器、唾手实施轻松生号召)。

不到15行,把情势商定从反复重申造成启动时自动注入。
器具子系统(Tools)
截至智能体能调用哪些号召。
Claude Code用.claude/settings.json,Codex用~/.codex/config.toml。
料理:越权操作(rm-rf误删、gitpush--force苦衷远端、不该联网时调外部API)。

允许的径直跑,不容的径直拒,灰色地带的弹阐述。
环境子系统(Environment)
锁定依赖版块、运行时竖立、数据库情状。
达成:setup.sh/Dockerfile/devcontainer.json。
料理:这台机器上能跑的缺陷环境(土产货通过,CI一跑就废)。

要津一瞥--frozen-lockfile——智能体无法私自升级任何依赖。
情状子系统(State)
把跨会话程度、断点、未完成任务执久化到PROGRESS.md,新会话第一件事读它。
料理:跨会话失忆(第二个会话从零开动,写出和第一个会话突破的代码)。

在AGENTS.md固化商定:新会话第一件事读PROGRESS.md;任务完成或断点变化,立即回写。
反应子系统(Feedback)
机器可实施的考证号召——测试、lint、类型查验、构建。
智能体秘书完成前必须跑通,退出码不为0就不算完成。
料理:过早秘书告成(说Done!但一瞥跑欠亨)——Anthropic 9好意思元裸跑践诺的中枢死因。

三轻便命失败模式
Anthropic和OpenAI的践诺,2026世界杯技术统计异途同归指向了智能体最常见的三种致命失败模式。

过早秘书告成
场景:智能体写完500行功能,输出已完成。合并代码——CI红屏,type check报12个错,单测一个没跑过。
根因:莫得强制反应轮回。判定来自自我嗅觉,不来自机器可考证的事实。
解法:反应子系统。把判定权布置给退出码——退出码≠0,任务≠完成。
高下文张皇(ContextAnxiety)
场景:长任务作念到70%,高下文Token数快撑满窗口。智能体开动赶程度——跳过测试、删限度处理、写stub结束、秘书完成。
根因:莫得断点续传。感知到高下文压力时,智能体会试图在这个会话内作念完统统事,哪怕代价是质地坍塌。
解法:情状子系统+主动重启。每完成一个子任务立即回写PROGRESS.md;高下文Token用量超70%,主动停驻、写完断点、开新会话。
跨会话失忆(Cross-SessionAmnesia)
场景:第一个会话写了用户模块,第二个会话写订单模块——智能体不知说念用户模块已存在,又写了一遍getUserById,跟前一版接口签名突破。
根因:莫得执久化情状+莫得首读商定。
解法:情状子系统+指示子系统组合。PROGRESS.md崇尚已完告成能清单;AGENTS.md写明开会话第一件事读PROGRESS.md;突破时以代码为准——仓库自己是惟一事实着手。
五步从零搭一个Harness
搭建一个Harness,并不难。
底下五步用文本剪辑器即可完成,加起来不超过200行竖立。

第1步·根目次建AGENTS.md
touch AGENTS.md。至少三块:情势讲解、不容操作、完成界说。
第2步·配permissions
.claude/settings.json或~/.codex/config.toml。最小两条:
第3步·写setup.sh锁环境
已有Dockerfile/devcontainer.json可跳过。
不然写一个setup.sh,把统统版块写死。最要津一瞥:pnpminstall--frozen-lockfile。
第4步·建PROGRESS.md
touchPROGRESS.md,四块:已完成、进行中、待办、已知问题。提交进git,当成情势自身的一部分崇尚。
第5步·在AGENTS.md末尾固化完成界说
写明pnpm type check/test/lint/build四个号召,退出码不为0就不算完成。若是情势还莫得这些号召,今天就配上。
莫得反应轮回,Harness等于没装——这是Anthropic 9好意思元践诺的中枢资格:前四步全作念对,第五步缺位,已经全废。
两家同归殊涂
夙昔一年统统东说念主王人在追下一个更强的模子。
2026年,Anthropic和OpenAI用两组不同的践诺给出了团结个谜底——别先换模子,先把Harness装好。
模子才气决定上限,Harness决定你能用到上限的几成。
莫得Harness,Opus 4.5跑出的代码连编译王人过不去;有了Harness,小一档的模子也能富厚拜托。
下一个更强的模子固然会再抬一截上限。但今天连Harness王人没装,下一个模子来了,告成率已经停在20%。
与其等下一个模子,当今就安设Harness。
参考资料:
https://walkinglabs.github.io/learn-harness-engineering/en/
剪辑:大卫