想用 Claude Opus 4.6 但不想月底账单爆炸?这篇帮你砍掉 60-85% 成本。

一、token花在哪?

你以为 token 只是"你说的话 + AI 回的话"?实际远不止。

每次对话的隐藏成本:

System Prompt(~3000-5000 tokens):OpenClaw 核心指令,改不了

上下文文件注入(~3000-14000 tokens):AGENTS.md、SOUL.md、MEMORY.md 等,每次对话都带上——这是最大的隐形开销

历史消息:越聊越长

你的输入 + AI 输出:这才是你以为的"全部"

一个简单的"今天天气怎么样",实际消耗 8000-15000 input tokens。用 Opus 算,光上下文就花 $0.12-0.22。

Cron 更狠:每次触发 = 全新对话 = 重新注入全部上下文。一个每 15 分钟跑的 cron,一天 96 次,Opus 下一天 $10-20。

Heartbeat 同理:本质也是对话调用,间隔越短越烧钱。

二、模型分层:日常 Sonnet,关键 Opus

省钱第一大招,效果最猛。 Sonnet 定价约 Opus 的 1/5,80% 日常任务完全够用。

Opus 场景:长文写作、复杂代码、多步推理、创意任务

Sonnet 场景:日常闲聊、简单问答、cron 检查、heartbeat、文件操作、翻译

实测:切换后月成本降 65%,体验几乎没差。

三、上下文瘦身:砍掉隐形 Token 大户

每次调用的"底噪"可能 3000-14000 tokens。精简注入文件是性价比最高的优化。

经验法则:每减少 1000 tokens 注入,按每天 100 次调用 Opus 算,月省约 $45。

四、Cron 优化:最隐蔽的成本杀手

核心原则:不是越频繁越好,大多数"实时"需求是假需求。合并 5 个独立检查为 1 次调用,省 75% 上下文注入成本。

五、Heartbeat 优化

六、精准检索:用 qmd 省 90% Input Token

agent 查资料时默认"读全文"——一个 500 行文件 3000-5000 tokens,但它只需要其中 10 行。90% 的 input token 被浪费了。

qmd 是本地语义检索工具,建立全文 + 向量索引,让 agent 精准定位段落而非读取整个文件。全部本地计算,零 API 成本。

配合 mq(Mini Query)使用:预览目录结构、精准段落提取、关键词搜索——每次只读需要的 10-30 行。

实测效果:每次查资料从 15000 tokens 降到 1500 tokens,减少 90%。

与 memorySearch 的区别:memorySearch 管"回忆"(MEMORY.md),qmd 管"查资料"(自定义知识库),互不影响。

七、Memory Search 选择

简单结论:记忆文件少用本地嵌入(零成本),多语言需求高或文件多用 Voyage AI(每账号 2 亿 token 免费)。

八、终极配置清单

配置一次,长期受益:

  1. 模型分层 — Sonnet 日常,Opus 关键,省 60-80%

  2. 上下文瘦身 — 精简文件 + qmd 精准检索,省 30-90% input token

  3. 减少调用 — 合并 cron、拉长 heartbeat、开启静默期

Sonnet 4 已经很强了,日常用感觉不到差别。真正需要 Opus 的时候切过去就行。

基于 多 agent 系统实战经验,数据为脱敏估算值。