1
做 Agent 别先想“更聪明”,先把缓存命中率当命根子
长上下文 agent 的成本/延迟基本被“重复的前缀”决定——Prompt Caching 把这部分变成 10% 价格,而 auto-caching 把工程难度也降了一截。
长上下文 agent 的成本/延迟基本被“重复的前缀”决定——Prompt Caching 把这部分变成 10% 价格,而 auto-caching 把工程难度也降了一截。
Prompt caching 是前缀匹配:前缀里任何一处抖动都会让你后面所有 token 全部重付费——所以 Claude Code 的所有设计都在“保护前缀”。
模型是原材料,Harness 才是产品——LangChain 团队不换模型、只调"脚手架",在编码基准上暴涨 13.7 个百分点,核心方法论就是 Context Engineering + 自我验证 + Trace 驱动迭代。
Agent 的上限不取决于它多会“想”,而取决于你的 runtime 多会“控、隔离、恢复、审计”。
💡 Agent 上限取决于 runtime 的控、隔离、恢复、审计能力
你现在的 Agent 系统里,有多少成本和延迟是被「没想过的基础设施」吃掉的?