
基于六篇核心文献的综合分析:OpenAI (Ryan Lopopolo)、Anthropic (Justin Young)、Martin Fowler (Birgitta Böckeler)、LangChain、Latent Space、Cassie Kozyrkov
一、什么是 Harness Engineering?
治理工程(Harness Engineering) 是 2025-2026 年 AI 工程领域最重要的新概念之一。它不是一个工具,不是一个框架,而是一套围绕 AI 智能体(Agent)构建的约束、反馈与控制系统——让智能体(Agent)在人类设定的边界内自主、可靠、可持续地工作。
用一个核心公式表达:
治理工程(Harness Engineering) ≠ 优化模型 → 优化模型运行的“环境”
这个概念的命名可能源自 Mitchell Hashimoto(HashiCorp 创始人)的博客文章。Birgitta Böckeler 在 Martin Fowler 网站上指出:“我喜欢 'harness' 这个词来描述我们用于管控 AI 智能体(Agent)的工具和实践。”
与前两代范式的关系
关键跃迁:提示词工程(Prompt Engineering)和上下文工程(Context Engineering)本质上仍是“人给输入,AI 给输出”的范式。
治理工程(Harness Engineering)的质变在于——人不再直接干预 AI 的每一步操作,而是构建一整套系统来约束、引导和验证 AI 智能体(Agent)的自主行为。
交互模式从“你问我答”变成了“赛道设计”。
二、为什么需要 Harness Engineering?
2.1 智能体(Agent)的“翻车”规律
Anthropic 的 Justin Young 通过长期观察 Claude 的行为,发现了一个核心规律:给智能体(Agent)一个复杂的全栈项目,它的第一反应是试图在一个会话里把所有功能都做完。结果:
-
做到一半 上下文窗口(context window)耗尽
-
留下半成品代码——功能写了一半没测试,模块间接口对不上
-
没有任何记录——下一个智能体(Agent)会话不知道前一次做了什么
-
更糟糕的情况:智能体(Agent)过早宣布完成,实际上大量功能未经验证
这不是某个模型的个别问题,而是所有智能体(Agent)的结构性缺陷。
2.2 “信任债务”(Trust Debt)概念
Cassie Kozyrkov(前 Google 首席决策科学家,现 Data Scientific CEO)提出了一个极具洞察力的概念——信任债务(Trust Debt):
AI 就像一个极其听话但缺乏背景知识的实习生。它倾向于填补你指令中的空白,进行“自信的即兴发挥”。如果你不审计它的假设,这些假设就会变成“信任债务”——目前看起来没问题,但在未来某个时刻会爆炸。
信任债务的危险在于:
-
不可见性:AI 做了你没要求的决定,但当时看起来合理
-
累积性:每一次未审计的决定都在叠加风险
-
爆发性:到出问题时,你得逆向工程那些你从未意识到的假设,代价极高
2.3 范式错位
问题的根源在于:
我们已经从“人写代码”进入了“AI 写代码”的时代,但配套的工程体系还停留在“人写代码”的范式里
传统软件工程的所有实践——代码审查(Code Review)、架构规范、文档维护——都假设人类是代码的创作者。当智能体(Agent)一天生成几百个拉取请求(PR)时,这些假设全部崩塌:
-
人工代码审查(Code Review)变成瓶颈
-
靠人记住架构规范不现实
-
文档更新跟不上代码变化速度
治理工程(Harness Engineering)就是为了填补这个空白而生的。
三、OpenAI 百万行代码实验深度分析
3.1 实验设计
Ryan Lopopolo 在 2026 年 2 月 11 日发布的文章披露了一个为期 5 个月的内部实验:
3.2 工程师角色转变
最深刻的发现不是数字,而是工程师角色的根本改变:
工程师不写代码之后,80% 的时间花在了构建治理系统(Harness)上——那套让 AI 能够自主、可靠、可持续工作的基础设施。
Ryan Lopopolo 用八个字概括核心理念:人类掌舵,智能体执行。
当智能体(Agent)遇到困难时,工程师的思考不是“我该怎么帮它写完这段代码”,而是追问:“智能体(Agent)缺乏什么能力?需要什么工具、什么抽象层、什么结构?” 然后由人类补充这些基础设施。
这意味着工程师从 “代码的编写者” 变成了 “环境的建筑师”。
3.3 治理系统(Harness)的三大组件(Böckeler 归纳)
Birgitta Böckeler 在 Martin Fowler 网站上将 OpenAI 团队的治理系统(Harness)归纳为三个类别:
1 上下文工程(Context Engineering)
-
代码库中持续增强的知识库
-
智能体(Agent)访问动态上下文的能力(可观测性数据、浏览器导航等)
-
不是一个巨大的全知文档,而是“地图式”的渐进式信息披露
2 架构约束(Architectural Constraints)
-
不仅由大语言模型(LLM)智能体(Agent)监控
-
更由确定性的自定义代码检查工具(linter)和结构化测试强制执行
-
层级依赖模型:
Types→Config→Repo→Service→Runtime→UI -
违反层级依赖的代码直接在持续集成(CI)中被拒绝
3 “垃圾回收”(Garbage Collection)
-
后台定期运行的清理智能体(Agent)
-
扫描文档与代码之间的不一致
-
扫描架构约束的违规
-
对抗熵增(Entropy)和腐烂——这是所有大型代码库的天敌
OpenAI 团队的迭代理念完美体现了治理系统(Harness)的核心思想:
“当智能体(Agent)遇到困难时,我们将其视为一个信号:识别缺少什么——工具、护栏、文档——然后将其反馈到代码仓库中,始终由 Codex 本身来编写修复。”
3.4 Böckeler 的批判性分析
Böckeler 并非全盘接受 OpenAI 的叙事。她指出了一个明显缺失:
“所有描述的措施都聚焦于提高长期内部质量和可维护性。我在文章中缺少的是对功能和行为的验证。”
她还提醒读者注意利益相关性:“OpenAI 在让我们相信 AI 可维护代码方面有既得利益。”
这是一个重要的平衡视角——治理工程(Harness Engineering)听起来很美,但验证功能正确性这个最关键的环节,在 OpenAI 的文章中并不充分。
四、Anthropic 的长跑方案:跨越上下文窗口的断裂
4.1 核心问题
Justin Young 解决的是一个更底层的问题:智能体(Agent)怎么跨越上下文窗口(context window)的限制,实现真正的长期运行?
AI 的上下文窗口(context window)有限,一个复杂项目不可能在单个窗口内完成。每次新开会话,智能体(Agent)就像失忆了——不知道之前做过什么。
4.2 双层智能体(Agent)架构
Anthropic 的解法是一个精妙的双层架构:
https://martinfowler.com/articles/exploring-gen-ai/harness-engineering.html
4.3 三个精妙的设计
设计一:全标失败策略
所有功能的初始状态标记为 “失败”。智能体(Agent)只能通过修改状态字段来标完成,不允许删除或编辑测试用例。
这堵死了智能体(Agent)通过“降低标准”来“完成”任务的路。
设计二:每次只做一件事
Anthropic 发现智能体(Agent)有强烈的“贪多嚼不烂”倾向。强制 “做一个功能就停” 看起来效率低,但实际上总体完成率高得多。
这背后的逻辑是:与其让智能体(Agent)试图一次吃完蛋糕但半途而废,不如让它一块一块地吃,每块都吃完。
设计三:进度文件作为跨会话记忆
claude-progress.txt 不只是日志,它是智能体(Agent)的 “外部记忆”:
-
每个新会话的第一件事:读进度文件 +
git log -
搞清楚“上一个自己”做了什么
-
从断点继续,而非从零开始
短期 / 简单任务 → 大模型(Big Model)胜出
↓ 复杂度增加
↓ 时间跨度增加
长期 / 复杂项目 → 大治理系统(Big Harness)不可或缺
五、LangChain 的硬核定量验证
5.1 实验结果
LangChain 提供了整个治理工程(Harness Engineering)讨论中最有说服力的定量数据:
这是治理工程(Harness Engineering)最有力的证据:同一个模型,仅改变治理系统(Harness),排名从 30+ 跃升至 Top 5。
5.2 Trace Analyzer Skill:用智能体(Agent)优化智能体(Agent)的治理系统(Harness)
LangChain 最创新的贡献是 Trace Analyzer Skill——一套元(meta)层面的自动化工具:
-
从 LangSmith 获取上一轮运行的追踪数据
-
并行启动多个错误分析智能体(Agent),各自诊断失败原因
-
主智能体(Agent)综合所有发现,提出治理系统(Harness)改进建议
-
对治理系统(Harness)做针对性修改,进入下一轮
这个流程类似机器学习中的 提升方法(Boosting)——每一轮聚焦上一轮的错误,迭代改进。
5.3 四个关键改动详解
改动一:Plan-Build-Verify-Fix 强制闭环
智能体(Agent)最常见的失败模式:写完代码,自己看一遍觉得“看起来没问题”,然后就停了——不跑测试。
LangChain 的解法:PreCompletionChecklistMiddleware。在智能体(Agent)宣告完成之前,强制(mandatory)拦截,强制它跑验证。这类似 Ralph Wiggum Loop,在智能体(Agent)试图退出时用钩子(hook)强制它继续执行验证步骤。
四步工作流:
-
规划与探索(Planning & Discovery):读任务、扫描代码库、建立初始计划
-
构建(Build):实现计划,同时构建测试
-
验证(Verify):运行测试,对照任务规格(不是对照自己的代码) 检查结果
-
修复(Fix):分析错误,回溯原始规格,修复问题
改动二:环境上下文注入
LocalContextMiddleware 在智能体(Agent)启动时就注入:
-
目录结构
-
可用工具(如 Python 安装路径)
-
超时时间
-
测评标准
LangChain 的定义精辟:“治理系统(Harness)工程师的职责是:准备和投递上下文,使智能体(Agent)能够自主完成工作。”
改动三:死循环检测
LoopDetectionMiddleware 跟踪每个文件的编辑次数。当对同一文件编辑超过 N 次时,注入提示:“考虑重新审视你的方案”。
LangChain 诚实地承认:这是针对当前模型缺陷的设计启发式。随着模型改进,这些护栏可能会变得不必要。但今天,它们帮助智能体(Agent)正确且自主地执行。
改动四:推理三明治策略
不是“推理越多越好”。gpt-5.2-codex 有 4 个推理等级:low、medium、high、xhigh。
推理三明治(Reasoning Sandwich)策略:规划阶段用 xhigh(理解问题需要深度推理),执行阶段降档到 high(节省时间),验证阶段再回到 xhigh(抓 bug 需要深度推理)。
这个发现非常实用:推理资源是有限的,在正确的阶段投入正确量级的推理,比全程最高推理效果更好。
六、Cassie Kozyrkov 的管理者视角:12 条治理法则
Cassie Kozyrkov 从管理者和决策科学的角度提出了 12 条治理工程(Harness Engineering)法则,核心思想包括:
核心原则
-
人类掌舵,智能体(Agent)执行:工程师的角色是设计环境、明确意图、构建反馈回路
-
可读性优先(Legibility):智能体(Agent)的行为和决策链路必须对人类可追溯
-
明确边界:越清晰的规矩 → 越大的智能体(Agent)自主权
-
全面文档化:不只是给人看,更是给下一个智能体(Agent)看
-
管理吞吐量:智能体(Agent)一天几百个拉取请求(PR)时,必须有自动化审查机制
-
持续清理:对抗代码库的熵增(Entropy)
-
知道何时升级:哪些决策必须由人类做
信任债务的管理策略
Kozyrkov 强调:即使智能体(Agent)表现优秀,也要像它是“Chris Careless”(最粗心的员工)一样建立安全网。
这不是对 AI 的不信任,而是工程上的审慎:
-
对最好的情况保持预期
-
对最差的情况做好防护
-
永远不要假设 AI 是完美的
七、行业大辩论:大模型(Big Model)对比 大治理系统(Big Harness)
Latent Space 在 2026 年 3 月 5 日发起的文章将行业劈成两个阵营:
我的分析:时间尺度决定答案
这不是非此即彼的问题,而是任务复杂度和持续时间的函数:
https://mitchellh.com/writing/my-ai-adoption-journey#step-5-engineer-the-harness
-
熵增(Entropy):代码越多,模式越分裂
-
上下文丢失:跨会话记忆断裂
-
模式漂移:智能体(Agent)复现已有的坏模式
-
信任债务:累积到不可逆
让一匹好马跑 100 米,不需要缰绳。让它拉着货物跑 100 公里穿越山路,没有缰绳不行。治理系统(Harness)的价值随着任务的复杂度和持续时间指数增长。
八、五大核心组件深度拆解
综合六篇文献,治理系统(Harness)的核心组件可以归纳为五层:
组件一:结构化知识系统
核心原则:AGENTS.md 当地图,不当百科全书。
关键洞察:
-
上下文窗口(context window)是稀缺资源——全塞进去反而淹没关键信息
-
大而全的文档腐烂最快——过时信息比没有信息更危险
-
需要文档园艺智能体(doc-gardening Agent)做自动文档维护
组件二:机械化架构约束
核心原则:把“品味”编码成机器可执行的检查。
这是最反直觉但最有效的部分。Birgitta Böckeler 精辟总结:
为了获得更高的 AI 自主性,运行时必须受到更严格的约束。增加信任需要的不是更多自由,而是更多限制。
具体做法:
-
层级依赖规则写成 代码检查(Linter)规则,不是写在文档里靠人记
-
代码检查(Linter)错误信息本身就是教学材料——解释“为什么这个规则存在、正确做法是什么”
-
智能体(Agent)遇到代码检查(Lint)错误时能自我理解并修正,无需人类介入
组件三:可观测性注入
核心认知转变:观测不再只是给人看的,而是给 AI 看的。
OpenAI 的做法:
-
git worktree启动独立应用实例 -
接入 Chrome DevTools Protocol,智能体(Agent)像人一样操作浏览器
-
用 LogQL/PromQL 查询日志和监控
-
执行可量化的验证任务:“确保服务在 800ms 内启动”
Anthropic 的做法:
-
截图验证——用 Puppeteer 操作应用然后截图对比预期
-
“显著提高了性能,使智能体(Agent)能够识别并修复仅从代码中看不出的 Bug”
组件四:自修复闭环
核心问题:智能体(Agent)大量生成代码时,熵增(Entropy)速度放大十倍。
AI 会复现代码库中已有的坏模式——如果某处有烂代码,智能体(Agent)在相邻模块工作时可能模仿这种写法,导致坏模式扩散。
解法:代码库的“垃圾回收机制”
-
后台定期运行清洁智能体(Agent)
-
扫描偏离“黄金标准”的代码
-
自动提交重构拉取请求(PR) → 持续集成(CI)验证 → 自动合并
-
小额、高频、持续偿还技术债务
组件五:智能体(Agent)互审机制
核心问题:系统一天几百个拉取请求(PR)时,人工代码审查(Code Review)是严重瓶颈。
OpenAI 的 Ralph Wiggum Loop:
-
智能体(Agent)A 写代码
-
智能体(Agent)B 审代码
-
有问题 → 智能体(Agent)A 改完再提交
-
直到 智能体(Agent)B 通过
人类的角色缩减到只介入架构层面的重大决策。 日常代码风格、逻辑正确性、测试覆盖——全部智能体(Agent)互审。
九、Böckeler 的深层思考:被低估的未来影响
Birgitta Böckeler 在 Martin Fowler 网站上提出了几个被低估但极其重要的问题:
9.1 治理模板(Harness Template) = 未来的服务模板?
大多数组织只有两三种主要技术栈。未来的模板可能不只包含代码脚手架,还包含自定义代码检查工具(Linter)、结构化测试、基础文档、架构约束规则。
技术栈的选择标准会因此改变——过去看社区活跃度、文档质量、开发者体验。以后要加一条:“AI 友好性”——这个技术栈有没有好的治理系统(Harness)支持?
9.2 约束换自主的悖论
“为了可信赖的、AI 生成的大规模可维护代码,必须有所让步。所描述的治理系统(Harness)表明,增加信任和可靠性需要约束解空间:特定的架构模式、强制的边界、标准化的结构。这意味着放弃‘生成任何东西’的灵活性。”
换言之:“LLM 可以生成任何语言、任何模式”的早期炒作是误导性的。 要在规模上获得可靠结果,必须限制智能体(Agent)的行动空间。
9.3 两个世界的分裂
给遗留代码库改造治理系统(Harness),“就像在一个从未运行过静态分析(static analysis)的代码库上突然开启全部规则——你会被警报淹没”。
行业可能分裂为:
-
新项目世界:从零开始用治理工程(Harness Engineering),高度 AI 自治
-
旧项目世界:遗留代码库,继续以人工为主
两个世界需要的技能组合截然不同。
9.4 对 OpenAI 叙事的怀疑
Böckeler 保持了健康的批判态度:
-
OpenAI 花了 5 个月 建治理系统(Harness)——这不是一蹴而就的事
-
文章缺少功能和行为的验证方面的讨论
-
OpenAI 有既得利益让人相信 AI 可维护代码
“令人耳目一新的是听到关于严谨性应去向何处的具体想法和经验,而不是仅仅寄希望于‘更好的模型’会神奇地解决可维护性问题。”
十、治理工程(Harness Engineering)的本质洞察
10.1 核心逻辑:约束换自主
这是整个治理工程(Harness Engineering)最深刻的思想:
规矩越明确 → 智能体(Agent)独立做的事越多;约束越严格 → 信任越高 → 自主权越大
听起来矛盾,但和人类社会的运转逻辑完全一致:
-
法律越完善的社会,个人自由度越高
-
高速公路有护栏,你才敢踩到 120 码
-
手术室无菌规程越严格,手术越安全
10.2 工程师职业的重新定义
治理工程(Harness Engineering)正在重新定义“工程师”这个职业:
| 传统工程师 | 治理工程(Harness)时代工程师 |
|---|---|
| 价值 = 写代码的速度和质量 | 价值 = 设计系统的能力 |
| 核心技能 = 编码 | 核心技能 = 约束设计、反馈回路设计、控制系统设计 |
| 产出 = 代码 | 产出 = 智能体(Agent)可靠运行的环境 |
| 关注 = 代码本身 | 关注 = 支撑结构(工具、抽象、反馈回路) |
“构建软件仍然需要纪律,但这种纪律更多地体现在支撑结构上——工具、抽象、反馈回路——而不是代码本身。” ——OpenAI
10.3 LangChain 的定义
治理工程(Harness Engineering)是对模型智能的“塑形”——模型的能力参差不齐,治理系统(Harness)的工作就是把这些能力塑造成适合具体任务的形状。
十一、落地指南:从今天开始
今天就能做
-
把
AGENTS.md写成地图:列出项目结构、核心模块、关键约定,指向详细文档位置。智能体(Agent)需要的是“去哪里找信息”,不是“所有信息”。 -
把反复出现的审查(Review)意见变成代码检查(Linter)规则:ESLint 自定义规则、提交前钩子(pre-commit hook)、ArchUnit 结构化测试,把人的“品味”编码成机器可执行的检查。
一周内能做
-
给 AI 工具加“完成前必须验证”的规则:在系统提示中加一条——标记任务完成之前,必须跑测试、启动应用验证、UI 变更要截图检查。
-
建立进度追踪文件:为复杂任务创建智能体(Agent)可读写的进度文件,每个工作单元完成后更新。解决上下文断裂问题。
需要投入时间
-
让日志和指标对智能体(Agent)可查:关键日志输出到文件,智能体(Agent)工具列表加“查看最近 N 行日志”的能力。
-
定期跑“清洁智能体(Agent)”任务:每周一次,检查文档-代码一致性、架构违规、可抽象的重复模式。
十二、总结:三句话理解 Harness Engineering
-
解决的不是“怎么让 AI 更聪明”,而是“怎么让 AI 可控地持续工作”。 聪明是模型公司的事,可控是工程师的事。
-
核心逻辑是“用约束换自主”。 给 AI 设的规矩越明确,它能独立做的事就越多。
-
正在重新定义“工程师”。 你的价值不再取决于写代码的速度,而取决于你设计约束、反馈回路和控制系统的能力。
AI 已经是千里马。千里马没缰绳,跑得再快也到不了目的地。治理工程(Harness Engineering),就是这个时代最重要的缰绳。
参考文献
-
Ryan Lopopolo, Harness Engineering: Working with Codex in an Agent-First World, OpenAI, 2026.02.11
-
Birgitta Böckeler, Harness Engineering, MartinFowler.com, 2026.02.17
-
LangChain, Improving Deep Agents with Harness Engineering, 2026
-
Latent Space, Is Harness Engineering Real?, 2026.03.05
-
Justin Young, Effective Harnesses for Long-Running Agents, Anthropic Engineering, 2025.11.26
-
Cassie Kozyrkov, Harness Engineering: How to Supervise Code You Can't Read, Decision Intelligence, 2026.03.03






