返回博客

GPT-5.4 来了:OpenAI 的智能体时代正式开启

2026年3月6日

从多模型架构到原生电脑操控,GPT-5.4 带来了哪些真正值得关注的新能力?本文客观梳理 GPT-5.4 的核心特性、版本演进时间线,以及这次更新的实际意义。


2026 年 3 月 6 日,OpenAI 正式发布了 GPT-5.4,并同步推出了对应的 System Card(模型安全说明文档)。这次发布没有太多"革命性"的宣传语,但从技术细节来看,变化相当实质。


GPT-5.4

GPT-5.4 并不是一个单一模型,OpenAI 目前对外提供两个 API 版本:

  • gpt-5.4:通用版本,面向大多数任务
  • gpt-5.4-pro:增强版,适合更复杂的推理和专业场景

两者均已在 ChatGPT 和 Codex CLI 中上线,知识截止日期为 2025 年 8 月 31 日,上下文窗口支持高达 100 万 token

值得注意的是,GPT-5 整体是一个多模型联合系统,内部由路由器根据任务复杂度动态调度不同子模型:

子模型定位
gpt-5-main快速响应,通用查询(GPT-4o 继任者)
gpt-5-thinking深度推理,复杂任务(o3 继任者)
Mini / Nano轻量版,用于开发者或使用限额场景

核心新特性

原生 Computer Use(电脑操控)

这是 GPT-5.4 最受关注的能力升级:首次原生支持 Computer Use,即模型可以像人一样操作计算机——跨应用点击、输入、读取屏幕内容,自主完成多步骤任务。

这意味着 AI 不再只是"回答问题",而是可以直接"帮你做事"。OpenAI 将其定位为迈向 Agentic Future(智能体时代) 的关键一步。

想不到 OpenClaw 作者加入 OpenAI 后,这么快就做出这样的新特性。

办公场景能力大幅提升

OpenAI 在发布公告中专门强调了对商业办公场景的针对性优化,涵盖:

  • Excel / 电子表格建模
  • PowerPoint 演示文稿
  • Word 文档编辑

在一项模拟初级投行分析师的电子表格建模测试中:

模型得分
GPT-5.487.3%
GPT-5.268.4%

提升幅度约 19 个百分点,这是一个相当显著的跨越。

事实准确率提升

相比 GPT-5.2,GPT-5.4 在个人陈述的虚假率上降低了 33%,被 OpenAI 称为"迄今最准确的模型"。

System Card 中的 thinking 版本数据更为详细:

  • LongFact 基准幻觉率低于 1%
  • 相比 o3,真实用户测试中事实错误率降低 65%

反讨好(Anti-sycophancy)机制

模型同意用户错误观点的行为减少了 69–75%。这是 OpenAI 明确承认并持续优化的方向——让模型更诚实,而不是一味迎合用户。

同时引入诚实失败机制:当模型无法完成任务时,会主动承认,而不是编造答案,减少欺骗性输出约 60%

编程能力全面超越 Codex 专用模型

在所有相关编程 Benchmark 上,GPT-5.4 已经超越了 GPT-5.3-Codex(上一代编程专用模型)。这引发了一个问题:Codex 系列是否会逐渐被通用模型取代?


安全机制

GPT-5.4 的 System Card 对安全性有详细说明:

高风险领域严格管控:在生物/化学领域被评为"High capability",对武器化信息实施严格屏蔽

红队测试规模:400+ 名专家进行了 5000+ 小时的对抗性测试,强攻击场景下安全率达 100%

生命科学可信访问计划:高风险 API 使用需专项审批

医疗健康表现:HealthBench 准确率 46.2%(上一代 o3 仅 31.6%),高风险场景错误率降低 8–50 倍


GPT 版本演进时间线

回顾下 GPT 系列主要版本的发布时间线:

时间版本关键特性
2020 年 6 月GPT-31750 亿参数,开启大模型时代
2022 年 11 月ChatGPT(GPT-3.5)对话能力爆发,全球用户破亿
2023 年 3 月GPT-4多模态输入,推理能力大幅提升
2024 年 5 月GPT-4o原生多模态(文字/图像/语音),响应速度更快
2024 年 9 月o1首个"思考型"推理模型,Chain-of-Thought 内化
2025 年 1 月o3 / o3-mini推理能力大幅跃升,在多项科学基准超越人类
2025 年 2 月GPT-4.5情感理解与对话流畅度优化
2025 年 5 月GPT-5(含 5.1/5.2)多模型系统架构,thinking + main 双路由
2025 年 10 月GPT-5.3 / GPT-5.3-Codex编程专项模型,代码能力专项强化
2026 年 3 月GPT-5.4原生 Computer Use,办公场景优化,超越 Codex

版本迭代更新速度越来越快了。只能感叹,AI 发展速度太快了,太卷了。


写在最后

GPT-5.4 的发布,Computer Use 的原生集成是一个重要信号。AI 从"语言助手"向"行动执行者"的转变,是整个行业的趋势,OpenAI 在这一点上走出了实质性一步。

但"最准确的模型"这类宣传语已经出现在 OpenAI 每次发布中。Benchmark 数据固然重要,但实际使用体验中的幻觉、错误判断依然存在,用户不应对单次版本更新抱有过高期待。

总体而言,GPT-5.4 是一次扎实的迭代更新,不是颠覆性革命,但每一项改进都指向明确的实用方向。AI 工具正在从"聪明的对话框"变成"能干活的数字员工",这个趋势在 GPT-5.4 上体现得相当清晰。