CE 为何在深度使用中替代 Superpowers

之前我分享过两个非常火的 Claude Code 技能（skills）以及我的使用方式：YC CEO @garrytan 的 gstack（一个人模拟整支团队：CEO 评审（review）、架构评审（review）、浏览器 QA、周报统计），以及 Jesse Vincent 的 Superpowers（标准化的 brainstorm → plan → execute → review 流程，120k stars，几乎已经是 Claude Code 的标配）。

但这周，我正在用 Compound Engineering（CE）替代 Superpowers。也推荐你试试看。

为什么我认为 CE 比 120k stars 的 Superpowers 更好用？我们可以借助 Anthropic 官方博客提出的 harness 架构来理解这个问题。理解了这个框架，后面的对比就会一目了然。

Anthropic 的 Harness 架构

Anthropic 在去年 11 月和上周分别发布了两篇工程博客，提出了一套让 agent 跨多个上下文窗口（context window）持续工作的 harness 架构。核心有四个角色：

Planner agent，把大任务拆成 feature list
Coding agent，每次只做一个 feature，完成后留下结构化笔记
Evaluator agent，独立审查（不让 builder 评价自己的工作）
跨 session 桥接，通过 progress file 传递上下文

上周的第二篇文章引入了 generator-evaluator 分离：agent 评价自己的工作会过度乐观，因此把做事的和评价的拆成两个独立 agent，效果显著提升。Anthropic 用这套架构让 agent 自主开发了一个完整的 claude.ai 克隆，包含 200 多个可验证的 feature。

用这个框架来审视 gstack、Superpowers 和 CE，差距就非常明显了。

gstack：Planner + 浏览器 Evaluator

gstack 做对了 harness 中两个关键角色。

/plan-ceo-review 和 /plan-eng-review 对应 Planner agent，分别从产品和架构视角把关。/qa 会打开浏览器运行 staging URL，像真实用户一样进行测试，对应 Evaluator agent。Anthropic 论文中明确提到，让 agent 像人类用户一样测试，"dramatically improved performance"。

gstack 的哲学是 "Boil the Lake"：在 AI 时代，完成整件事的边际成本趋近于零，因此永远做完整版。在 Planning 和 QA 上，它依然是最好的。

但 gstack 主要覆盖的是决策层和测试层，没有结构化的增量执行工作流（workflow），也没有知识积累机制。这并不是 gstack 的问题，而是它的定位如此：它并不试图覆盖整个流程。

Superpowers：流程有了，深度不够

Superpowers 的 120k stars 已经证明了它的质量。brainstorm → plan → execute → review 这套流程，帮助很多人从“跟 AI 瞎聊”升级到了“有流程地使用 AI”。它的 subagent-driven-development 甚至实现了 generator-evaluator 分离：独立的 spec-reviewer + code-quality-reviewer。这已经比很多 skill 更好了。

但和 CE 相比，深度上的差距体现在三个地方。

Plan：Superpowers 在当前上下文（context）里直接写 plan。CE 的 /ce:plan 会并行 spawn research agent，搜索历史经验、扫描 codebase pattern、读取 git history，因此 plan 是建立在项目历史知识之上的，而不只是基于当前 prompt。

Review：Superpowers 有 2 个 reviewer（spec + quality）。CE 会并行 spawn 6 到 15 个专项 reviewer：correctness、security、performance、testing、maintainability、adversarial（50+ 行 diff 触发）、learnings-researcher、project-standards，每个 reviewer 都会独立产出 P0-P3 报告。

第三点，也是最关键的一点：Superpowers 没有知识积累机制。做完就结束了，下一个 session 还是从零开始。

而这第三点，才是我真正用 CE 替换 Superpowers 的原因。

/ce:compound：Anthropic harness 博客都没解决的问题，CE 解决了

Anthropic 的 harness 用 claude-progress.txt 做跨 session 桥接：session A 做完后写笔记，session B 读笔记再继续做。这是线性的，只服务于相邻的两个 session。

CE 做了一件不一样的事。

当你做完一个功能或者修完一个 bug 后，运行 /ce:compound。它会并行 spawn 三个 agent：

Context Analyzer，回溯整个 session 对话，提取问题类型、涉及组件、症状。

Solution Extractor，从 debug 过程里提取：哪些方法没用、哪些方法有效、root cause 是什么、如何预防。

Related Docs Finder，搜索已有的 docs/solutions/ 做查重。如果高度重复，就更新旧文档，而不是新建。

三个 agent 跑完之后，orchestrator 会进行汇总，并把结构化文档写入 docs/solutions/。文档结构大致是：Problem（一两句问题描述）、What Didn't Work（排查过程中尝试过但无效的方法）、Solution（最终解法和代码）、Prevention（以后如何避免）。每篇文档都带有 YAML frontmatter，并按 category 分目录存储，方便后续搜索。

这些文档会被未来所有 /ce:plan 的 learnings-researcher 搜索到。它不是给“下一个 session”用的，而是给“所有未来 session”用的。

比如你修复了一个 edge runtime 兼容性的 bug，compound 会把它记录下来。三周后你在做另一个功能时碰到类似的 runtime 问题，plan 阶段的 agent 就会自动把那个 learning 翻出来，直接标注之前踩过的坑以及对应解法。

Anthropic 的 progress file 是备忘录：上一班留给下一班的交接记录。

CE 的 docs/solutions/ 是知识库：所有 session 都可以查询的项目记忆。

备忘录解决的是连续性，知识库解决的是积累性。一个是线性的，一个是指数级的。

这就是 "compound" 的含义：每次工作的产出不只是代码，还有下一次可以复用的知识。用得越久，agent 就越懂你的项目。

这也是我们一直在讨论的“永续” agent 的关键。“永续” agent 的核心并不是 24/7 不停工作，而是在持续不断工作的同时，也能持续不断地自我改进（self-improving）、自我优化，避免重复的错误和重复的浪费。

关于自动化：一个值得深入的问题

翻看 CE 的源码时，我发现一件很有意思的事：/lfg 全自动模式（从 plan 到 PR 一条龙）里，并没有 compound 步骤。你需要手动运行 /ce:compound。

为什么作者选择不把 compound 自动化？我认为这个设计是有道理的。并不是每个 session 都值得 compound：改个 typo、调个 CSS、跑个 migration，这些都不会产生新的知识。只有那些真正 debug 了一个坑、发现了一个 pattern、踩到了一个雷的 session，才值得记录。要是每个 session 都自动 compound，就会产生大量噪音，docs/solutions/ 会被低价值文档淹没，反而降低 learnings-researcher 的搜索质量。

但人会忘记。这确实是个真实的问题。

我现在在搭建的一个方案，是做一个 compound janitor：每天 end of day 自动扫描当天所有 session 的 git diff 和 conversation，判断哪些值得 compound，筛选之后再批量运行。不是每个 session 都 compound，而是由 janitor 筛选后，只对有价值的 session 做 compound。它有点像记忆管理里的定期 review 和清理机制。这个思路可能值得做成 PR 贡献给 CE。

gstack + CE：完整的 harness

对照 Anthropic 的架构，gstack + CE 覆盖了所有角色：

决策层：

· gstack /plan-ceo-review，从产品视角砍需求

· gstack /plan-eng-review，锁定架构方向

规划层：

· CE /ce:plan，spawn research agents，读取历史 learnings，产出结构化 plan

执行层：

· CE /ce:work，按 plan 增量执行

审查层：

· CE /ce:review，6-15 个专项 reviewer 并行

· gstack /qa，浏览器端到端实测

知识层：

· CE /ce:compound，写入可搜索的项目知识库

gstack 负责“做不做”和“真实去测”，CE 负责“怎么做”、“做得好不好”以及“记住”。两者没有重叠。

Superpowers 的 brainstorm → plan → execute → review 被 CE 完整覆盖了，而且每一步都更深，再加上 compound 这个独有维度。被替换是很自然的事。

Superpowers 还有一个优势：它原生支持跨工具兼容，同一套 skill 可以装在 Claude Code、Cursor、Codex CLI 上使用。不过 CE 最近也加入了 CLI 转换工具，支持转换成十几种格式。如果你主力使用的是 Claude Code，这个差距就不重要了。

Superpowers 的 120k stars 证明了它的质量，它也确实是很多人入门 AI agent 工作流（workflow）的最佳选择。但在实际深度使用之后，CE 展现出了更好的架构深度，尤其是在 compound 这个维度上，这是 Superpowers 完全不具备的。

你的 agent 每天帮你写代码、改 bug、跑测试。那做完之后，学到的东西去哪儿了？

如果答案是“散落在各个 session 里，下次再踩一遍”，那么 /ce:compound 可能就是你需要的那一行命令。

链接：

· CE：github.com/EveryInc/compound-engineering-plugin

· gstack：github.com/garrytan/gstack

· anthropic.com/engineering/effective-harnesses-for-long-running-agents

· anthropic.com/engineering/harness-design-long-running-apps

CE 为何在深度使用中替代 Superpowers

核心观点

跟我们的关联

讨论引子