2026世界杯亚盘 AI得胜率从20%飙到100%!只需一个Harness文献

2026世界杯博亚体育(中国)官方平台

你的位置:2026世界杯博亚体育(中国)官方平台 > 博亚世界杯实时比分 > 2026世界杯亚盘 AI得胜率从20%飙到100%!只需一个Harness文献
2026世界杯亚盘 AI得胜率从20%飙到100%!只需一个Harness文献
发布日期:2026-05-26 04:04    点击次数:187

2026世界杯亚盘 AI得胜率从20%飙到100%!只需一个Harness文献

新智元报谈

【新智元导读】Anthropic实锤:Claude裸跑模子,9好意思元全废;然则套上Harness花200好意思元成果奏凯升起。AI成果不好?别再纠结换模子了!OpenAI和Anthropic齐在用的Harness工程,一文讲透。

最近,AI圈子里一个逃不开的话题即是Harness。

甚而,连DeepSeek最近也在启动招聘Harness工程师。

那么,到底什么是Harness?

Harness,围绕AI编程智能体搭建的一整套工程基础智力,由五个子系统构成:指示、器用、环境、景色、反映。

为什么值得专诚讲它?

因为2026年前后,Anthropic和OpenAI险些同期在各自的工程实践里给出了合并个论断——AI编程智能体时时失败,问题不在模子,在模子除外的Harness。

两家分辩用一组对确凿践当凭证。先看数据。

两组数据对照

Anthropic对确凿践——合并个Opus 4.5模子,同沿途编程题:

多花的191好意思元,全花在考证轮回上——每写一段代码就跑测试,欠亨过就改,直到确凿通过。

OpenAI百万行实践,Codex团队在确凿仓库上考证:

实践只改了一件事——仓库根目次加了一个AGENTS.md文献,不到100行markdown。

Harness是什么

Harness不是器用,也不是教导词手段,是围绕智能体的一整套工程基础智力,由五个子系统构成,每一个对应一种具体失败形态。

指示子系统(Instructions)

仓库根目次的一个markdown文献——OpenAI阵营叫AGENTS.md,Anthropic阵营叫CLAUDE.md。

Codex、Claude Code、Cursor启动时自动读取并注入「系统教导词」。

束缚:智能体不知谈技俩商定,瞎写代码(作风不一致、用错包束缚器、唾手实施破损生敕令)。

不到15行,把技俩商定从反复重申酿成启动时自动注入。

器用子系统(Tools)

截止智能体能调用哪些敕令。

Claude Code用.claude/settings.json,Codex用~/.codex/config.toml。

束缚:越权操作(rm-rf误删、gitpush--force阴私远端、不该联网时调外部API)。

允许的奏凯跑,不容的奏凯拒,灰色地带的弹证实。

环境子系统(Environment)

锁定依赖版块、运行时树立、数据库景色。

完满:setup.sh/Dockerfile/devcontainer.json。

束缚:这台机器上能跑的失误环境(土产货通过,CI一跑就废)。

要道一转--frozen-lockfile——智能体无法私行升级任何依赖。

景色子系统(State)

把跨会话程度、断点、未完成任务抓久化到PROGRESS.md,新会话第一件事读它。

束缚:跨会话失忆(第二个会话从零启动,写出和第一个会话打破的代码)。

在AGENTS.md固化商定:新会话第一件事读PROGRESS.md;任务完成或断点变化,立即回写。

反映子系统(Feedback)

机器可实施的考证敕令——测试、lint、类型检查、构建。

智能体告示完成前必须跑通,退出码不为0就不算完成。

束缚:过早告示得手(说Done!但一转跑欠亨)——Anthropic 9好意思元裸跑实践的中枢死因。

三浮浅命失败形态

Anthropic和OpenAI的实践,2026世界杯数据统计异途同归指向了智能体最常见的三种致命失败形态。

过早告示得手

场景:智能体写完500行功能,输出已完成。合并代码——CI红屏,type check报12个错,单测一个没跑过。

根因:莫得强制反映轮回。判定来自自我嗅觉,不来自机器可考证的事实。

解法:反映子系统。把判定权交接给退出码——退出码≠0,任务≠完成。

高下文惊惧(ContextAnxiety)

场景:长任务作念到70%,高下文Token数快撑满窗口。智能体启动赶程度——跳过测试、删鸿沟处理、写stub末端、告示完成。

根因:莫得断点续传。感知到高下文压力时,智能体会试图在这个会话内作念完通盘事,哪怕代价是质料坍塌。

解法:景色子系统+主动重启。每完成一个子任务立即回写PROGRESS.md;高下文Token用量超70%,主动停驻、写完断点、开新会话。

跨会话失忆(Cross-SessionAmnesia)

场景:第一个会话写了用户模块,第二个会话写订单模块——智能体不知谈用户模块已存在,又写了一遍getUserById,跟前一版接口签名打破。

根因:莫得抓久化景色+莫得首读商定。

解法:景色子系统+指示子系统组合。PROGRESS.md小器已完得胜能清单;AGENTS.md写明开会话第一件事读PROGRESS.md;打破时以代码为准——仓库自己是唯独事实开头。

五步从零搭一个Harness

搭建一个Harness,并不难。

底下五步用文本剪辑器即可完成,加起来不高出200行树立。

第1步·根目次建AGENTS.md

touch AGENTS.md。至少三块:技俩讲明、不容操作、完成界说。

第2步·配permissions

.claude/settings.json或~/.codex/config.toml。最小两条:

第3步·写setup.sh锁环境

已有Dockerfile/devcontainer.json可跳过。

不然写一个setup.sh,把通盘版块写死。最要道一转:pnpminstall--frozen-lockfile。

第4步·建PROGRESS.md

touchPROGRESS.md,四块:已完成、进行中、待办、已知问题。提交进git,当成技俩自身的一部分小器。

第5步·在AGENTS.md末尾固化完成界说

写明pnpm type check/test/lint/build四个敕令,退出码不为0就不算完成。若是技俩还莫得这些敕令,今天就配上。

莫得反映轮回,Harness等于没装——这是Anthropic 9好意思元实践的中枢警戒:前四步全作念对,第五步缺位,仍是全废。

两家同归殊途

澳门威尼斯人中国最新网址

已往一年通盘东谈主齐在追下一个更强的模子。

2026年,Anthropic和OpenAI用两组不同的实践给出了合并个谜底——别先换模子,先把Harness装好。

模子才能决定上限,Harness决定你能用到上限的几成。

莫得Harness,Opus 4.5跑出的代码连编译齐过不去;有了Harness,小一档的模子也能赋闲委派。

下一个更强的模子虽然会再抬一截上限。但今天连Harness齐没装,下一个模子来了,得胜率仍是停在20%。

与其等下一个模子,咫尺就装配Harness。

参考辛苦:

https://walkinglabs.github.io/learn-harness-engineering/en/

剪辑:大卫



上一篇:博亚世界杯(中国)官方网站,2026世界杯文字直播 被嘲南边口音、被同业期凌,54岁患重病后袁立说:终于懂了无聊!
下一篇:2026世界杯数据统计 iOS 27将“重塑”AirPods诞生页,更直快实用!