GPT-5.4 来了:OpenAI 的智能体时代正式开启
从多模型架构到原生电脑操控,GPT-5.4 带来了哪些真正值得关注的新能力?本文客观梳理 GPT-5.4 的核心特性、版本演进时间线,以及这次更新的实际意义。
2026 年 3 月 6 日,OpenAI 正式发布了 GPT-5.4,并同步推出了对应的 System Card(模型安全说明文档)。这次发布没有太多"革命性"的宣传语,但从技术细节来看,变化相当实质。
GPT-5.4
GPT-5.4 并不是一个单一模型,OpenAI 目前对外提供两个 API 版本:
gpt-5.4:通用版本,面向大多数任务gpt-5.4-pro:增强版,适合更复杂的推理和专业场景
两者均已在 ChatGPT 和 Codex CLI 中上线,知识截止日期为 2025 年 8 月 31 日,上下文窗口支持高达 100 万 token。
值得注意的是,GPT-5 整体是一个多模型联合系统,内部由路由器根据任务复杂度动态调度不同子模型:
| 子模型 | 定位 |
|---|---|
gpt-5-main | 快速响应,通用查询(GPT-4o 继任者) |
gpt-5-thinking | 深度推理,复杂任务(o3 继任者) |
| Mini / Nano | 轻量版,用于开发者或使用限额场景 |
核心新特性
原生 Computer Use(电脑操控)
这是 GPT-5.4 最受关注的能力升级:首次原生支持 Computer Use,即模型可以像人一样操作计算机——跨应用点击、输入、读取屏幕内容,自主完成多步骤任务。
这意味着 AI 不再只是"回答问题",而是可以直接"帮你做事"。OpenAI 将其定位为迈向 Agentic Future(智能体时代) 的关键一步。
想不到 OpenClaw 作者加入 OpenAI 后,这么快就做出这样的新特性。
办公场景能力大幅提升
OpenAI 在发布公告中专门强调了对商业办公场景的针对性优化,涵盖:
- Excel / 电子表格建模
- PowerPoint 演示文稿
- Word 文档编辑
在一项模拟初级投行分析师的电子表格建模测试中:
| 模型 | 得分 |
|---|---|
| GPT-5.4 | 87.3% |
| GPT-5.2 | 68.4% |
提升幅度约 19 个百分点,这是一个相当显著的跨越。
事实准确率提升
相比 GPT-5.2,GPT-5.4 在个人陈述的虚假率上降低了 33%,被 OpenAI 称为"迄今最准确的模型"。
System Card 中的 thinking 版本数据更为详细:
- LongFact 基准幻觉率低于 1%
- 相比 o3,真实用户测试中事实错误率降低 65%
反讨好(Anti-sycophancy)机制
模型同意用户错误观点的行为减少了 69–75%。这是 OpenAI 明确承认并持续优化的方向——让模型更诚实,而不是一味迎合用户。
同时引入诚实失败机制:当模型无法完成任务时,会主动承认,而不是编造答案,减少欺骗性输出约 60%。
编程能力全面超越 Codex 专用模型
在所有相关编程 Benchmark 上,GPT-5.4 已经超越了 GPT-5.3-Codex(上一代编程专用模型)。这引发了一个问题:Codex 系列是否会逐渐被通用模型取代?
安全机制
GPT-5.4 的 System Card 对安全性有详细说明:
高风险领域严格管控:在生物/化学领域被评为"High capability",对武器化信息实施严格屏蔽
红队测试规模:400+ 名专家进行了 5000+ 小时的对抗性测试,强攻击场景下安全率达 100%
生命科学可信访问计划:高风险 API 使用需专项审批
医疗健康表现:HealthBench 准确率 46.2%(上一代 o3 仅 31.6%),高风险场景错误率降低 8–50 倍
GPT 版本演进时间线
回顾下 GPT 系列主要版本的发布时间线:
| 时间 | 版本 | 关键特性 |
|---|---|---|
| 2020 年 6 月 | GPT-3 | 1750 亿参数,开启大模型时代 |
| 2022 年 11 月 | ChatGPT(GPT-3.5) | 对话能力爆发,全球用户破亿 |
| 2023 年 3 月 | GPT-4 | 多模态输入,推理能力大幅提升 |
| 2024 年 5 月 | GPT-4o | 原生多模态(文字/图像/语音),响应速度更快 |
| 2024 年 9 月 | o1 | 首个"思考型"推理模型,Chain-of-Thought 内化 |
| 2025 年 1 月 | o3 / o3-mini | 推理能力大幅跃升,在多项科学基准超越人类 |
| 2025 年 2 月 | GPT-4.5 | 情感理解与对话流畅度优化 |
| 2025 年 5 月 | GPT-5(含 5.1/5.2) | 多模型系统架构,thinking + main 双路由 |
| 2025 年 10 月 | GPT-5.3 / GPT-5.3-Codex | 编程专项模型,代码能力专项强化 |
| 2026 年 3 月 | GPT-5.4 | 原生 Computer Use,办公场景优化,超越 Codex |
版本迭代更新速度越来越快了。只能感叹,AI 发展速度太快了,太卷了。
写在最后
GPT-5.4 的发布,Computer Use 的原生集成是一个重要信号。AI 从"语言助手"向"行动执行者"的转变,是整个行业的趋势,OpenAI 在这一点上走出了实质性一步。
但"最准确的模型"这类宣传语已经出现在 OpenAI 每次发布中。Benchmark 数据固然重要,但实际使用体验中的幻觉、错误判断依然存在,用户不应对单次版本更新抱有过高期待。
总体而言,GPT-5.4 是一次扎实的迭代更新,不是颠覆性革命,但每一项改进都指向明确的实用方向。AI 工具正在从"聪明的对话框"变成"能干活的数字员工",这个趋势在 GPT-5.4 上体现得相当清晰。