
大家好,我是@Paiqi_Peccy,伦敦帝国理工 @imperialcollege 计算机专业 Ph.D. 在读,前 Amazon SDE。
今天刷到 OpenAI 官网的这个新文档时,我的心跳都加速了:GPT-5.4 model 还没正式开放访问,但 Prompt Guidance 几个小时前就已在Developers文档悄悄上线!
这个低调发表的动作很符合OpenAI的一贯作风:不制造新的 hype,而是专注于提供对长时间任务和 Agent 开发的实战指南。
作为正在研究 Agentic AI和相关网络应用的博士生,我的第一反应就是:这份指南能不能帮我和其他开发者优化 OpenClaw 和 Claude Code 的 workflow?
下面我结合自己 Agentic AI 的研究经验和个人理解拆解核心内容,希望能够抛砖引玉。总长度约 3200 字,适合 5-10 分钟阅读。
原文链接:https://developers.openai.com/api/docs/guides/prompt-guidance
<output_contract>
- 严格按照要求的顺序,只返回指定的章节。
- 如果prompt中定义了前言、分析块或工作区,不要将其视为额外输出。
- 长度限制只作用于对应的章节,不要全局套用。
- 如果要求特定格式(JSON、Markdown、SQL、XML),只输出该格式。
</output_contract>
<verbosity_controls>
- 偏向简洁、信息密度高的表达方式。
- 不要重复用户的提问。
- 进度更新保持简短。
- 不要因为过度压缩而省略必要的证据、推理或完成检查。
</verbosity_controls>
1. 整体升级 - 从“咒语”到可编排的系统合约
GPT-5.4 最核心的升级在于:它把模型当成一个可编排的系统,而不是一个随便扔提示词再等待结果的黑盒子。
官方反复强调的核心理念只有一句话: “像写代码一样写 prompt contracts” —— 明确输出合约、明确工具规则、明确完成条件。 这让 GPT-5.4 在长时序任务、工具持久化和证据支持上大幅进步,能真正“做完才停”。
这说明GPT5.4在开发时就已经瞄准了智能体产品化的关键:坚持把多步骤长任务跑完的同时提升成功率,减少跑偏。
以前在科研项目里写提示词的时候,我最怕的就是模型在中途摆烂。现在跟着这个指南改,实验成功率肉眼可见地提升。下面就只差5.4模型的正式登场了。
TL;DR(5 条最简短的总结和感想)
-
长时序任务:GPT-5.4被设计成"做完才停"的agent (妈妈再也不用担心我的Agent怠工)
-
工具调用:支持并行,但懂依赖关系(不再是简单的随手抓工具用,而是懂得每个工具之间的依赖以及使用顺序的关系)
-
上下文:压缩机制突破单窗口限制(和面多加水,水多加面式的提升上下文窗口不同,这次OpenAI很认真的从压缩现有记忆入手,做减法而不是加法;智能体拥有接近无限的长期记忆会比想象里来的更快)
-
提示词范式:从魔法咒语到可解释的显式合约 (现在的提示词一直是黑魔法+抽卡;但新的prompt contracts提供了关键的结构性与可解释性。就好像从中餐炒菜改成了麦当劳式的标准化炸薯条)
-
Reasoning effort:真正根据需求来调整的“最后的旋钮”,而不是大力出奇迹。(不要再每次都乱开xhigh了!!!)
<user_updates_spec>
只在重大阶段变化时提醒
每条更新:1 句结果 + 1 句下一步
对用户简洁,对任务穷举
</user_updates_spec>
接下来逐条拆解GPT5.4新模型的核心:
📌 GPT-5.4 在哪些地方最强? OpenAI列了7条,每一条都值得认真看(官方原话,逐条翻译解读):
① 人设与语气的稳定性 : 就算回答很长,也不会跑偏、不会变味
② Agent工作流的强韧性 : 更倾向于坚持跑完多步骤任务,会自动重试,能把整个agent循环从头跑到尾
③ 证据密集型总结 : 擅长长上下文或多工具并用的场景,能把大量信息与支撑论据真正融合成结论
④ 指令遵循能力 : 在模块化、以技能为基础(skill-based)、有分段(block)结构的prompt里,只要把合约(contract)写清楚,模型的执行精准度极高
⑤ 长上下文分析 : 面对大量、混乱、跨文档的输入,依然能稳定分析
⑥ 批量/并行工具调用 : 调用多个工具的同时,保持调用准确率
⑦ Excel/金融/电子表格工作流 : 格式保真度高,还有更强的自我验证能力
⚠️哪些地方还需要你在Prompt里手动引导?模型再强也有盲区。OpenAI列了6条"仍需明确引导"的场景(同样逐条原文翻译解读):
① 会话早期的工具选择 : 在一个回话刚开始的时候,上下文会比较稀薄,因此模型在工具选择上可能不够准
② 有依赖关系的工作流 : 必须在prompt里明确写出"前置步骤"和"下游步骤"的顺序
③ Reasoning Effort的选择 : “推理努力”并不是调的越高越好。选哪档要看任务需求,而不是靠直觉
④ 研究类任务 : 需要规范的信息来源收集和一致的引用格式,否则容易"捏造文献" 与“幻觉文档”
⑤ 不可逆或高影响操作 : 执行前必须加验证步骤,不能让模型放飞自我
⑥ 终端/代码agent环境 : 工具边界必须写清楚,否则容易越界 (官方补充: "这些是观察到的默认行为,不是保证。从能通过验证的最小提示开始,只在解决了实际失败模式时才加新的段落。" 这句话的意义是,别过度设计prompt。先跑,出问题了再加。)
特别说说第 4 条:作为 PhD,我对这个太有感触了。整个学术界都在被 AI 幻觉论文害惨了。Fortune今年1月的报道, 机器学习顶会NeurIPS 25 接收的论文里已有 100+ 篇存在 AI 生成的虚假引用,造成了严重的学术不端。这让我深刻意识到:再先进的模型,在事实核查上依然需要 human oversight。
这也就说明了,尽管新的模型更加强大,但并不是完美无缺。作为用户乃至开发者,想要发挥GPT5.4和任何先进模型在openclaw上的能力,都应该先明确了解模型的优缺点。曾经“抽卡”,“试运气”,“堆提示词”式的vibe coding与野蛮生长将逐渐被更加成体系,可解释的工程化思维与理论代替。
<frontend_tasks>
在执行前端设计任务时,避免使用通用的、过度设计的布局。遵守以下硬性规则:
- 单一构图:首屏必须作为一个整体构图来阅读,而不是仪表盘,除非它本身就是仪表盘。
- 品牌优先:在品牌页面上,品牌或产品名称必须是英雄级别的视觉信号,而不仅仅是导航文字或眉头标注。任何标题都不应压过品牌。
- 品牌测试:如果去掉导航后首屏可以属于任何其他品牌,则品牌曝光太弱。
- 全出血英雄图:在落地页和推广页面上,英雄图通常应是贯穿边缘的主视觉平面或背景。不要默认使用嵌入式英雄图、侧边栏英雄图、圆角媒体卡、拼贴图或浮动图片块,除非现有设计系统明确要求。
- 英雄区预算:首屏通常只包含品牌、一个标题、一句简短支撑语、一组CTA和一张主图。不要在首屏放置数据统计、日程、活动列表、地址块、促销、"本周"提示、元数据行或次要营销内容。
- 不要在英雄区叠加元素:不要在英雄媒体上叠加独立标签、浮动徽章、促销贴纸、信息芯片或提示框。
- 卡片:默认不使用卡片。除非卡片是用户交互的容器,否则不要在英雄区使用卡片。如果去掉边框、阴影、背景或圆角不会影响交互或理解,就不应该使用卡片。
- 每个区块一项职责:每个区块应有一个目的、一个标题,通常配一句简短支撑语。
- 真实视觉锚点:图片应展示产品、场所、氛围或上下文。
- 减少杂乱:避免标签簇、数据条、图标行、方框促销、日程片段和相互竞争的文字块。
- 用动效创造层次和存在感,而非噪音。为视觉主导的作品提供2-3个有意图的动效,并在可用时优先使用 Framer Motion。
例外:如果在现有网站或设计系统内工作,保持已建立的模式、结构和视觉语言。
</frontend_tasks>
2. Use Core Prompt Patterns (用户核心提示范式, 附 8个可直接抄的 Contracts)
Keep outputs compact and structured(保持输出紧凑且结构化)GPT-5.4 提出了一个新的提示词使用思路: 用一个专门的输出合约,明确告诉模型:
Set clear defaults for follow-through(设定清晰的默认跟进规则)用户在对话中途常常会改需求、改格式、改语气。GPT-5.4的做法是: 用一个跟进规则定义清楚:
<task_update>
仅针对下一条回复:
- 不要完成任务。
- 只生成一个计划。
- 保持在5条bullet以内。
所有早期指令仍然适用,除非与本次更新冲突。
</task_update>
Handle mid-conversation instruction updates(处理对话中途的指令更新)这是个很细节但很重要的点:如果用户对话中途改指令,怎么改才不会把模型搞乱? 官方建议用 任务升级段落(task_update block),明确写三件事:
-
Scope(范围):这个更新作用于下一条回复,还是整个对话?
-
Override(覆盖):哪些之前的指令被替换了?
-
Carry forward(保留):哪些之前的指令继续有效? 举例:“只针对下一条回复:不要完成任务,只给我一个5条bullet的计划,其他指令照旧。”
https://fortune.com/2026/01/21/neurips-ai-conferences-research-papers-hallucinations/
Make tool use persistent(让工具调用持续且彻底)这一条专门针对agent最常见的失败模式:明明应该持续调用工具,却被agent自己跳过了,导致后续工作都受到影响。官方的解法: 设定一个工具调用持续规则(tool_persistence_rules):
Force completeness on long-horizon tasks(强制长时序任务的完整性)针对多步骤工作流里最常见的bug:做到一半就交卷。 要求模型:
很显然,尽管大多数设计是在提升模型能力本身,但这对于使用者也是个很好的参考:如果在设计提示词的时候不想明白任务是什么,就只会导致garbage in,garbage out。智能体不是全知全能的神,而是更像一个能力放大器:使用者越强,头脑越清晰,获得的结果就越好,增幅越大。
Handle Specialized Workflows
Research mode(研究模式)这是GPT-5.4专门为深度研究任务设计的三段式工作流: research_mode, 分三步走:
<terminal_tool_hygiene>
Shell 命令只能通过 terminal 工具运行
修改后必须跑 ls / test / build 验证
不要在 bash 里模拟 patch/edit
</terminal_tool_hygiene>
官方特别说明:这个模式只用于研究、评审、综合类任务。不要用在简单的执行任务或确定性的格式转换上——那是浪费。
Keep tool boundaries explicit in coding and terminal agents(在代码/终端Agent中保持工具边界清晰)这条专门给coding agent的用户看: terminal_tool_hygiene(终端工具卫生规范):
https://developers.openai.com/api/docs/guides/prompt-guidance
User updates(用户更新通知)GPT-5.4在执行长任务时,如何向用户汇报进度? user_updates_spec:
下面是OpenAI提供的一个完整的前端任务提示词例子:
3. 微调
Treat reasoning effort as a last-mile knob(把推理努力程度当作微调旋钮)这是整篇文档里最容易被误解、也最影响成本的一条。 官方明确说:Reasoning effort不是提升质量的主要手段,是最后的微调工具。具体推荐档位:
快速/成本敏感/低延迟任务 → none
延迟敏感但需要一点点推理 → low
研究/综合/长文档分析 →medium 或 high
最硬核的长时序agent任务 →xhigh(谨慎使用)
原则:
-
大多数团队应该默认用none到medium这个范围
-
执行型工作流(字段提取、工单分类、短结构化转换)→ 从none开始
-
研究型工作流(长文档综合、多文档冲突解决、策略写作)→ 从medium开始
-
GPT-5.4的none(不推理)档在动作选择和工具规范类任务上已经很能打
总结
这份指南真正想告诉我们的是:
会写prompt的人越来越多。 会设计可靠agent系统的人,才有真正的护城河。
从“抽卡 vibe coding”到“工程化合约”,这是 AI 时代开发者必须完成的进化。
等 GPT-5.4 正式开放后,我会再发一篇实测更新(包括 OpenClaw 的前后对比数据)。欢迎直接复制上面的 contracts去喂给你的小龙虾们,看看会不会有提升。
(重要的事情再说一遍)感兴趣的同学可以直接去看原文:developers.openai.com/api/docs/guides/prompt-guidance
感谢你读到这里!你的反馈是我继续写下去的最大动力。
GPT #GPT54 #PromptContracts
