← 主题阅读
主题阅读

别再幻想全自动了:Agent 跑得越久,你越像在带一支数字实习生团队

2026-04-06

这三篇表面都在讲 long-running agent 和 harness,真正串起来的不是“怎么把 agent 做得更强”,而是一个反直觉事实:任务一旦跨越长时间、多步骤和可回滚状态,自动化不会消灭管理,而是把管理税前移到系统设计里。真正贵的不是 token,而是防漂移、做评估、留审计、随时接管的整套监督栈。

👥 组织 🤖 Agent 🏗 构建
1

面向长时应用开发的 Harness 设计

Anthropic 用"规划者-生成者-评估者"三智能体架构让 Claude 跑出了远超单智能体基线的长时编码成果,但 20 倍成本换来的仍是"勉强可用的 Demo",核心价值不在架构本身,而在"脚手架必须随模型进化做减法"这一工程判断。

💡 它先把结构摊开:长时 Agent 真能跑起来,靠的不是魔法,而是把规划、生成、评估拆成可管理的控制点;所谓 autonomy,首先是一门昂贵的编排工程。

🤖 Agent 🏗 构建 ⚡ Prompt 47 min
2

长时自主智能体的真正难点不在写代码,而在防止它一路变形

这篇文章最有价值的判断是:长时运行的编程智能体失败主因不是“不会做”,而是会在规划、执行、验证和维护中持续失真,因此编排层很重要;但作者把这一点顺势包装成自家框架的必然性,证据明显不够。

💡 它把问题继续往深处推:真正可怕的不是某一步做错,而是 Agent 会在长链路里一路变形,所以你需要的不是更多鼓励,而是持续校准它行为轨迹的监督机制。

🤖 Agent ⚡ Prompt 👥 组织 8 min
3

慢下来,别把代码库交给编程智能体毁掉

这篇文章的判断很明确:当前把编程智能体大规模放进生产开发,通常不是提效,而是在用更快的速度制造技术债和失控复杂度。

💡 它最后把管理税翻译成人话:当编程智能体开始大规模制造技术债,所谓“更快交付”往往只是把返工和失控成本推迟到账本后面。

👥 组织 🤖 Agent 🏗 构建 15 min

🧵 串联问题

如果长时 Agent 本质上不是“更聪明的软件”,而是一套要持续防漂移、做评估、留审计、能回滚的管理系统,那 Neta 现在最该优先工程化的到底是什么:更强的 autonomy,还是更硬的 supervision / recovery 层?哪一层没立住,后面的自动化都会变成昂贵的幻觉?