GPT-5.4 来了：OpenAI 的智能体时代正式开启

2026 年 3 月 6 日，OpenAI 正式发布了 GPT-5.4，并同步推出了对应的 System Card（模型安全说明文档）。这次发布没有太多"革命性"的宣传语，但从技术细节来看，变化相当实质。

GPT-5.4

GPT-5.4 并不是一个单一模型，OpenAI 目前对外提供两个 API 版本：

两者均已在 ChatGPT 和 Codex CLI 中上线，知识截止日期为 2025 年 8 月 31 日，上下文窗口支持高达 100 万 token。

值得注意的是，GPT-5 整体是一个多模型联合系统，内部由路由器根据任务复杂度动态调度不同子模型：

这是 GPT-5.4 最受关注的能力升级：首次原生支持 Computer Use，即模型可以像人一样操作计算机——跨应用点击、输入、读取屏幕内容，自主完成多步骤任务。

这意味着 AI 不再只是"回答问题"，而是可以直接"帮你做事"。OpenAI 将其定位为迈向 Agentic Future（智能体时代） 的关键一步。

想不到 OpenClaw 作者加入 OpenAI 后，这么快就做出这样的新特性。

OpenAI 在发布公告中专门强调了对商业办公场景的针对性优化，涵盖：

在一项模拟初级投行分析师的电子表格建模测试中：

模型	得分
GPT-5.4	87.3%
GPT-5.2	68.4%

提升幅度约 19 个百分点，这是一个相当显著的跨越。

相比 GPT-5.2，GPT-5.4 在个人陈述的虚假率上降低了 33%，被 OpenAI 称为"迄今最准确的模型"。

System Card 中的 thinking 版本数据更为详细：

模型同意用户错误观点的行为减少了 69–75%。这是 OpenAI 明确承认并持续优化的方向——让模型更诚实，而不是一味迎合用户。

同时引入诚实失败机制：当模型无法完成任务时，会主动承认，而不是编造答案，减少欺骗性输出约 60%。

在所有相关编程 Benchmark 上，GPT-5.4 已经超越了 GPT-5.3-Codex（上一代编程专用模型）。这引发了一个问题：Codex 系列是否会逐渐被通用模型取代？

GPT-5.4 的 System Card 对安全性有详细说明：

高风险领域严格管控：在生物/化学领域被评为"High capability"，对武器化信息实施严格屏蔽

红队测试规模：400+ 名专家进行了 5000+ 小时的对抗性测试，强攻击场景下安全率达 100%

生命科学可信访问计划：高风险 API 使用需专项审批

医疗健康表现：HealthBench 准确率 46.2%（上一代 o3 仅 31.6%），高风险场景错误率降低 8–50 倍

回顾下 GPT 系列主要版本的发布时间线：

时间	版本	关键特性
2020 年 6 月	GPT-3	1750 亿参数，开启大模型时代
2022 年 11 月	ChatGPT（GPT-3.5）	对话能力爆发，全球用户破亿
2023 年 3 月	GPT-4	多模态输入，推理能力大幅提升
2024 年 5 月	GPT-4o	原生多模态（文字/图像/语音），响应速度更快
2024 年 9 月	o1	首个"思考型"推理模型，Chain-of-Thought 内化
2025 年 1 月	o3 / o3-mini	推理能力大幅跃升，在多项科学基准超越人类
2025 年 2 月	GPT-4.5	情感理解与对话流畅度优化
2025 年 5 月	GPT-5（含 5.1/5.2）	多模型系统架构，thinking + main 双路由
2025 年 10 月	GPT-5.3 / GPT-5.3-Codex	编程专项模型，代码能力专项强化
2026 年 3 月	GPT-5.4	原生 Computer Use，办公场景优化，超越 Codex

版本迭代更新速度越来越快了。只能感叹，AI 发展速度太快了，太卷了。

GPT-5.4 的发布，Computer Use 的原生集成是一个重要信号。AI 从"语言助手"向"行动执行者"的转变，是整个行业的趋势，OpenAI 在这一点上走出了实质性一步。

但"最准确的模型"这类宣传语已经出现在 OpenAI 每次发布中。Benchmark 数据固然重要，但实际使用体验中的幻觉、错误判断依然存在，用户不应对单次版本更新抱有过高期待。

总体而言，GPT-5.4 是一次扎实的迭代更新，不是颠覆性革命，但每一项改进都指向明确的实用方向。AI 工具正在从"聪明的对话框"变成"能干活的数字员工"，这个趋势在 GPT-5.4 上体现得相当清晰。