🧠 阿头学 · 🪞 Uota学

GPT-5.4 把提示词从"抽卡"变成了工程合约

OpenAI 用 GPT-5.4 的 Prompt Guidance 把提示词从"堆咒语赌概率"升级成"可验收的系统合约"，核心不是模型更聪明，而是把长任务的成功率从靠运气变成靠流程——这直接决定 Agent 能不能产品化。
打开原文 ↗

2026-03-06 原文链接 ↗

阅读简报

完整翻译

讨论归档

核心观点

Prompt 不再是玄学，而是"输出合约 + 工具规则 + 完成条件"的三件套 作者把 OpenAI 新文档的本质讲透了：不是教你怎么哄模型，而是教你怎么把模型当成"可编排的执行系统"。这意味着 Agent 的稳定性不再靠单步聪明，而靠多步不摆烂、能自我重试、能"做完才停"——这是产品化的生死线，不是 demo 的炫技。

Reasoning effort 被降级成"最后旋钮"，默认应该更低 最反直觉的点：提升成功率的主路径不是把推理档位开到 xhigh，而是先把任务结构化（合约/工具顺序/验证步骤）做好。这会同时影响成本、延迟、可控性——对 DAU 10万+ 的产品来说，这不是"省点钱"，而是能不能把 Agent 体验做成"可持续交付"的分水线。

文档承诺 ≠ 模型能力，作者在用"预期"当"现实" 硬伤在于：GPT-5.4 还没正式开放，作者就凭"文档上线 + 在旧模型上试了试"断言新模型能"告别抽卡"。这是典型的虚空测评——没有 benchmark、没有对比数据、没有失败率统计，只有"肉眼可见提升"和"心跳加速"。作为 PhD，这种定性而非定量的论证方式说服力不足。

合约化提示词会带来新的成本：XML Hell + Token 暴涨 作者推崇的 `output_contract`、`tool_persistence_rules` 等 XML 标签写法，本质是把代码逻辑硬编码进 Prompt。这虽然提升了可控性，但也极大增加了编写和维护成本（Token 消耗也会激增）。文章完全忽略了这种"重型 Prompt"在实际生产环境中的延迟和成本劣势——这对 10万+ DAU 的产品不是小事。

"会设计可靠 agent 系统"可能不是护城河，而是会被快速商品化的基础设施 作者最终落点是"会设计可靠 agent 系统的人才有护城河"，但文中给出的主要是可复制的 prompt 模板与通用工程常识（明确边界、加验证、分阶段更新）。如果这些模式可被快速框架化/商品化，护城河可能并不在"会写合约"，而在数据、评测、运行时、工具生态与业务闭环。

跟我们的关联

🪞Uota

意味着什么：你的 agent 架构需要从"单步聪明"转向"多步稳定"——把输出格式、工具边界、完成条件、更新机制写成合约，减少随机性。
接下来怎么做：建立"Prompt Contract 四件套"模板库（Output Contract / Tool Contract / Completion Contract / Update Contract），让每个 agent 任务从模板起步，而不是从零写 prompt。

🧠Neta

意味着什么：社交产品里用户容错更低（一次跑偏就卸载/差评），因此优势不应押在"模型能力"，而应押在合约化工作流 + 可验证完成条件 + 持久工具调用，把"波动"变成"稳定交付"。
接下来怎么做：把品牌声线、禁用表达、主视觉原则、CTA 结构、落地页首屏预算写成 contract，让内容/投放/落地页由 Agent 批量生成时仍保持一致性（海外最怕"内容像拼出来的"）。

👤ATou

意味着什么：成为"能指挥 AI 的 top 0.0001%"的核心竞争力不在"会写 prompt"，而在"会把不确定的智能变成可验收的系统"——这是从"手艺活"到"工程纪律"的分水岭。
接下来怎么做：用"最小合约起步 + 失败模式加条款"的迭代法：先用最小 prompt 跑通，线上记录失败类型，每出现一种失败只加一条最小约束去修复它。

讨论引子

1. 如果"会写合约"会被快速框架化/商品化，Neta 的真正护城河在哪？ 作者说"会设计可靠 agent 系统的人才有护城河"，但如果这些 prompt 模板可以被打包成工具/框架，那护城河可能不在"会写"，而在数据、评测、运行时、工具生态与业务闭环。对 Neta 来说，是押注"更会写 prompt"，还是押注"更会设计闭环"？

2. 合约化 prompt 会不会让 Agent 变得更脆弱？ 把所有规则显式化（输出格式/工具边界/完成条件）虽然降低了随机性，但也可能导致：更强的格式服从导致内容更虚、错误更隐蔽；合约过长导致注意力稀释；工具持久化规则导致成本飙升。如何在"可控性"和"灵活性"之间找到平衡？

3. 对 10万+ DAU 的产品来说，"最小合约起步 + 失败模式加条款"的迭代法是否可行？ 这种方法在科研/小规模实验里很好用，但在生产环境里，每次失败都意味着用户体验受损。如何在"快速迭代"和"用户容错"之间找到节奏？

大家好，我是@Paiqi_Peccy，伦敦帝国理工 @imperialcollege 计算机专业 Ph.D. 在读，前 Amazon SDE。

今天刷到 OpenAI 官网的这个新文档时，我的心跳都加速了：GPT-5.4 model 还没正式开放访问，但 Prompt Guidance 几个小时前就已在Developers文档悄悄上线！

这个低调发表的动作很符合OpenAI的一贯作风：不制造新的 hype，而是专注于提供对长时间任务和 Agent 开发的实战指南。

作为正在研究 Agentic AI和相关网络应用的博士生，我的第一反应就是：这份指南能不能帮我和其他开发者优化 OpenClaw 和 Claude Code 的 workflow？

下面我结合自己 Agentic AI 的研究经验和个人理解拆解核心内容，希望能够抛砖引玉。总长度约 3200 字，适合 5-10 分钟阅读。

原文链接：https://developers.openai.com/api/docs/guides/prompt-guidance

<output_contract>
- 严格按照要求的顺序，只返回指定的章节。
- 如果prompt中定义了前言、分析块或工作区，不要将其视为额外输出。
- 长度限制只作用于对应的章节，不要全局套用。
- 如果要求特定格式（JSON、Markdown、SQL、XML），只输出该格式。
</output_contract>
<verbosity_controls>
- 偏向简洁、信息密度高的表达方式。
- 不要重复用户的提问。
- 进度更新保持简短。
- 不要因为过度压缩而省略必要的证据、推理或完成检查。
</verbosity_controls>

1. 整体升级 - 从“咒语”到可编排的系统合约

GPT-5.4 最核心的升级在于：它把模型当成一个可编排的系统，而不是一个随便扔提示词再等待结果的黑盒子。

官方反复强调的核心理念只有一句话： “像写代码一样写 prompt contracts” —— 明确输出合约、明确工具规则、明确完成条件。这让 GPT-5.4 在长时序任务、工具持久化和证据支持上大幅进步，能真正“做完才停”。

这说明GPT5.4在开发时就已经瞄准了智能体产品化的关键：坚持把多步骤长任务跑完的同时提升成功率，减少跑偏。

以前在科研项目里写提示词的时候，我最怕的就是模型在中途摆烂。现在跟着这个指南改，实验成功率肉眼可见地提升。下面就只差5.4模型的正式登场了。

TL;DR（5 条最简短的总结和感想）

长时序任务：GPT-5.4被设计成"做完才停"的agent （妈妈再也不用担心我的Agent怠工）
工具调用：支持并行，但懂依赖关系（不再是简单的随手抓工具用，而是懂得每个工具之间的依赖以及使用顺序的关系）
上下文：压缩机制突破单窗口限制（和面多加水，水多加面式的提升上下文窗口不同，这次OpenAI很认真的从压缩现有记忆入手，做减法而不是加法；智能体拥有接近无限的长期记忆会比想象里来的更快）
提示词范式：从魔法咒语到可解释的显式合约（现在的提示词一直是黑魔法+抽卡；但新的prompt contracts提供了关键的结构性与可解释性。就好像从中餐炒菜改成了麦当劳式的标准化炸薯条）
Reasoning effort：真正根据需求来调整的“最后的旋钮”，而不是大力出奇迹。（不要再每次都乱开xhigh了！！！）

<user_updates_spec>
  只在重大阶段变化时提醒
  每条更新：1 句结果 + 1 句下一步
  对用户简洁，对任务穷举
</user_updates_spec>

接下来逐条拆解GPT5.4新模型的核心：

📌 GPT-5.4 在哪些地方最强？ OpenAI列了7条，每一条都值得认真看（官方原话，逐条翻译解读）：

① 人设与语气的稳定性 ：就算回答很长，也不会跑偏、不会变味

② Agent工作流的强韧性 ：更倾向于坚持跑完多步骤任务，会自动重试，能把整个agent循环从头跑到尾

③ 证据密集型总结 ：擅长长上下文或多工具并用的场景，能把大量信息与支撑论据真正融合成结论

④ 指令遵循能力 ：在模块化、以技能为基础(skill-based)、有分段（block）结构的prompt里，只要把合约（contract）写清楚，模型的执行精准度极高

⑤ 长上下文分析： 面对大量、混乱、跨文档的输入，依然能稳定分析

⑥ 批量/并行工具调用： 调用多个工具的同时，保持调用准确率

⑦ Excel/金融/电子表格工作流 ：格式保真度高，还有更强的自我验证能力

⚠️哪些地方还需要你在Prompt里手动引导？模型再强也有盲区。OpenAI列了6条"仍需明确引导"的场景（同样逐条原文翻译解读）：

① 会话早期的工具选择 ：在一个回话刚开始的时候，上下文会比较稀薄，因此模型在工具选择上可能不够准

② 有依赖关系的工作流 ：必须在prompt里明确写出"前置步骤"和"下游步骤"的顺序

③ Reasoning Effort的选择 ： “推理努力”并不是调的越高越好。选哪档要看任务需求，而不是靠直觉

④ 研究类任务 ：需要规范的信息来源收集和一致的引用格式，否则容易"捏造文献" 与“幻觉文档”

⑤ 不可逆或高影响操作 ：执行前必须加验证步骤，不能让模型放飞自我

⑥ 终端/代码agent环境 ：工具边界必须写清楚，否则容易越界（官方补充： "这些是观察到的默认行为，不是保证。从能通过验证的最小提示开始，只在解决了实际失败模式时才加新的段落。" 这句话的意义是，别过度设计prompt。先跑，出问题了再加。）

特别说说第 4 条：作为 PhD，我对这个太有感触了。整个学术界都在被 AI 幻觉论文害惨了。Fortune今年1月的报道，机器学习顶会NeurIPS 25 接收的论文里已有 100+ 篇存在 AI 生成的虚假引用，造成了严重的学术不端。这让我深刻意识到：再先进的模型，在事实核查上依然需要 human oversight。

这也就说明了，尽管新的模型更加强大，但并不是完美无缺。作为用户乃至开发者，想要发挥GPT5.4和任何先进模型在openclaw上的能力，都应该先明确了解模型的优缺点。曾经“抽卡”，“试运气”，“堆提示词”式的vibe coding与野蛮生长将逐渐被更加成体系，可解释的工程化思维与理论代替。

<frontend_tasks>
在执行前端设计任务时，避免使用通用的、过度设计的布局。遵守以下硬性规则：
- 单一构图：首屏必须作为一个整体构图来阅读，而不是仪表盘，除非它本身就是仪表盘。
- 品牌优先：在品牌页面上，品牌或产品名称必须是英雄级别的视觉信号，而不仅仅是导航文字或眉头标注。任何标题都不应压过品牌。
- 品牌测试：如果去掉导航后首屏可以属于任何其他品牌，则品牌曝光太弱。
- 全出血英雄图：在落地页和推广页面上，英雄图通常应是贯穿边缘的主视觉平面或背景。不要默认使用嵌入式英雄图、侧边栏英雄图、圆角媒体卡、拼贴图或浮动图片块，除非现有设计系统明确要求。
- 英雄区预算：首屏通常只包含品牌、一个标题、一句简短支撑语、一组CTA和一张主图。不要在首屏放置数据统计、日程、活动列表、地址块、促销、"本周"提示、元数据行或次要营销内容。
- 不要在英雄区叠加元素：不要在英雄媒体上叠加独立标签、浮动徽章、促销贴纸、信息芯片或提示框。
- 卡片：默认不使用卡片。除非卡片是用户交互的容器，否则不要在英雄区使用卡片。如果去掉边框、阴影、背景或圆角不会影响交互或理解，就不应该使用卡片。
- 每个区块一项职责：每个区块应有一个目的、一个标题，通常配一句简短支撑语。
- 真实视觉锚点：图片应展示产品、场所、氛围或上下文。
- 减少杂乱：避免标签簇、数据条、图标行、方框促销、日程片段和相互竞争的文字块。
- 用动效创造层次和存在感，而非噪音。为视觉主导的作品提供2-3个有意图的动效，并在可用时优先使用 Framer Motion。
例外：如果在现有网站或设计系统内工作，保持已建立的模式、结构和视觉语言。
</frontend_tasks>

2. Use Core Prompt Patterns （用户核心提示范式，附 8个可直接抄的 Contracts）

Keep outputs compact and structured（保持输出紧凑且结构化）GPT-5.4 提出了一个新的提示词使用思路：用一个专门的输出合约，明确告诉模型：

Set clear defaults for follow-through（设定清晰的默认跟进规则）用户在对话中途常常会改需求、改格式、改语气。GPT-5.4的做法是：用一个跟进规则定义清楚：

<task_update>
仅针对下一条回复：
- 不要完成任务。
- 只生成一个计划。
- 保持在5条bullet以内。
所有早期指令仍然适用，除非与本次更新冲突。
</task_update>

Handle mid-conversation instruction updates（处理对话中途的指令更新）这是个很细节但很重要的点：如果用户对话中途改指令，怎么改才不会把模型搞乱？官方建议用任务升级段落（task_update block），明确写三件事：

Scope（范围）：这个更新作用于下一条回复，还是整个对话？
Override（覆盖）：哪些之前的指令被替换了？
Carry forward（保留）：哪些之前的指令继续有效？举例：“只针对下一条回复：不要完成任务，只给我一个5条bullet的计划，其他指令照旧。”

https://fortune.com/2026/01/21/neurips-ai-conferences-research-papers-hallucinations/

Make tool use persistent（让工具调用持续且彻底）这一条专门针对agent最常见的失败模式：明明应该持续调用工具，却被agent自己跳过了，导致后续工作都受到影响。官方的解法：设定一个工具调用持续规则（tool_persistence_rules）：

Force completeness on long-horizon tasks（强制长时序任务的完整性）针对多步骤工作流里最常见的bug：做到一半就交卷。 要求模型：

很显然，尽管大多数设计是在提升模型能力本身，但这对于使用者也是个很好的参考：如果在设计提示词的时候不想明白任务是什么，就只会导致garbage in，garbage out。智能体不是全知全能的神，而是更像一个能力放大器：使用者越强，头脑越清晰，获得的结果就越好，增幅越大。

Handle Specialized Workflows

Research mode（研究模式）这是GPT-5.4专门为深度研究任务设计的三段式工作流： research_mode， 分三步走：

<terminal_tool_hygiene>
  Shell 命令只能通过 terminal 工具运行
  修改后必须跑 ls / test / build 验证
  不要在 bash 里模拟 patch/edit
</terminal_tool_hygiene>

官方特别说明：这个模式只用于研究、评审、综合类任务。不要用在简单的执行任务或确定性的格式转换上——那是浪费。

Keep tool boundaries explicit in coding and terminal agents（在代码/终端Agent中保持工具边界清晰）这条专门给coding agent的用户看： terminal_tool_hygiene（终端工具卫生规范）：

https://developers.openai.com/api/docs/guides/prompt-guidance

User updates（用户更新通知）GPT-5.4在执行长任务时，如何向用户汇报进度？ user_updates_spec：

下面是OpenAI提供的一个完整的前端任务提示词例子：

3. 微调

Treat reasoning effort as a last-mile knob（把推理努力程度当作微调旋钮）这是整篇文档里最容易被误解、也最影响成本的一条。官方明确说：Reasoning effort不是提升质量的主要手段，是最后的微调工具。具体推荐档位：

快速/成本敏感/低延迟任务 → none

延迟敏感但需要一点点推理 → low

研究/综合/长文档分析 →medium 或 high

最硬核的长时序agent任务 →xhigh（谨慎使用）

原则：

大多数团队应该默认用none到medium这个范围
执行型工作流（字段提取、工单分类、短结构化转换）→ 从none开始
研究型工作流（长文档综合、多文档冲突解决、策略写作）→ 从medium开始
GPT-5.4的none（不推理）档在动作选择和工具规范类任务上已经很能打

总结

这份指南真正想告诉我们的是：

会写prompt的人越来越多。会设计可靠agent系统的人，才有真正的护城河。

从“抽卡 vibe coding”到“工程化合约”，这是 AI 时代开发者必须完成的进化。

等 GPT-5.4 正式开放后，我会再发一篇实测更新（包括 OpenClaw 的前后对比数据）。欢迎直接复制上面的 contracts去喂给你的小龙虾们，看看会不会有提升。

（重要的事情再说一遍）感兴趣的同学可以直接去看原文：developers.openai.com/api/docs/guides/prompt-guidance

感谢你读到这里！你的反馈是我继续写下去的最大动力。

GPT #GPT54 #PromptContracts

📋 讨论归档

讨论进行中…