1
面向长时应用开发的 Harness 设计
Anthropic 用"规划者-生成者-评估者"三智能体架构让 Claude 跑出了远超单智能体基线的长时编码成果,但 20 倍成本换来的仍是"勉强可用的 Demo",核心价值不在架构本身,而在"脚手架必须随模型进化做减法"这一工程判断。
💡 先把机器侧的问题讲透:长时 Agent 失败,往往不是因为模型不够聪明,而是没有把规划、评估和纠偏做成能持续续航的外部脚手架。
这三篇表面在谈长时 Agent、版本控制和心血管风险,底层其实都在提醒同一件事:系统一旦要长时间运行,最危险的不是能力不够,而是把短时冲刺误当成长期策略。真正能稳定输出的,不靠持续加压,而靠把状态暴露出来、在失控前做切换、回滚和恢复。
Anthropic 用"规划者-生成者-评估者"三智能体架构让 Claude 跑出了远超单智能体基线的长时编码成果,但 20 倍成本换来的仍是"勉强可用的 Demo",核心价值不在架构本身,而在"脚手架必须随模型进化做减法"这一工程判断。
💡 先把机器侧的问题讲透:长时 Agent 失败,往往不是因为模型不够聪明,而是没有把规划、评估和纠偏做成能持续续航的外部脚手架。
Git 为人类线性思维设计,jj 为 Agent 高频迭代设计——本地工作流该从"边想边提交"转向"先生成后整理"。
💡 再把视角移到工作流:当执行节奏从人类线性推进变成 Agent 式高频试错,版本控制的核心也从"勤提交"转向"让混乱状态可整理、可回退、可收束"。
这篇文章对“疲劳后报复性高强度健身”的风险提醒是对的,但它用夸张叙事、可疑案例和错误信息放大恐惧,结论可取,论证不够干净。
💡 最后落回人本身:身体和系统一样,最怕的不是偶尔用力,而是在疲劳、缺觉和异常状态下继续硬顶,把恢复窗口误当成意志力问题。
如果人、团队和 Agent 都会在高压与长时运行里累积隐性损伤,那我们现在最该优先工程化的到底是什么:更强的执行力,还是更早暴露疲劳、漂移与失控信号的状态管理层?