别再幻想全自动了：Agent 跑得越久，你越像在带一支数字实习生团队

Anthropic 用"规划者-生成者-评估者"三智能体架构让 Claude 跑出了远超单智能体基线的长时编码成果，但 20 倍成本换来的仍是"勉强可用的 Demo"，核心价值不在架构本身，而在"脚手架必须随模型进化做减法"这一工程判断。

💡 它先把结构摊开：长时 Agent 真能跑起来，靠的不是魔法，而是把规划、生成、评估拆成可管理的控制点；所谓 autonomy，首先是一门昂贵的编排工程。

🤖 Agent 🏗 构建 ⚡ Prompt 47 min

这篇文章最有价值的判断是：长时运行的编程智能体失败主因不是“不会做”，而是会在规划、执行、验证和维护中持续失真，因此编排层很重要；但作者把这一点顺势包装成自家框架的必然性，证据明显不够。

💡 它把问题继续往深处推：真正可怕的不是某一步做错，而是 Agent 会在长链路里一路变形，所以你需要的不是更多鼓励，而是持续校准它行为轨迹的监督机制。

🤖 Agent ⚡ Prompt 👥 组织 8 min

这篇文章的判断很明确：当前把编程智能体大规模放进生产开发，通常不是提效，而是在用更快的速度制造技术债和失控复杂度。

💡 它最后把管理税翻译成人话：当编程智能体开始大规模制造技术债，所谓“更快交付”往往只是把返工和失控成本推迟到账本后面。

👥 组织 🤖 Agent 🏗 构建 15 min

如果长时 Agent 本质上不是“更聪明的软件”，而是一套要持续防漂移、做评估、留审计、能回滚的管理系统，那 Neta 现在最该优先工程化的到底是什么：更强的 autonomy，还是更硬的 supervision / recovery 层？哪一层没立住，后面的自动化都会变成昂贵的幻觉？