返回博客

Claude Opus 4.6 VS GPT-5.3-Codex

2026年2月6日

Anthropic 与 OpenAI 同日发布新模型,Opus 主打深度思考,Codex 强调极速交互,两种 AI 正面碰撞


今天,Anthropic 和 OpenAI 几乎同时发布了新模型:Claude Opus 4.6GPT-5.3-Codex

两款模型代表了两种不同的发展方向:

  • Claude Opus 4.6:解决长上下文记忆问题,引入多智能体协作,定位为深度思考的"自主顾问"
  • GPT-5.3-Codex:强调速度与交互性,宣称"协助构建了自身",定位为快速迭代的"超级协作者"

开发者实测显示:Codex 胜在速度执行力,Opus 胜在深度推理与风险识别。


Anthropic Claude Opus 4.6:深度思考的架构革命

Claude Opus 4.6 的核心卖点不仅在于参数量的增加,更在于其对长上下文处理能力的质的飞跃,以及全新引入的"智能体团队"(Agent Teams)工作流。

终结"上下文腐烂"(Context Rot)

在大型语言模型(LLM)的发展历程中,上下文窗口(Context Window)的大小一直是一个关键指标。从 GPT-4 的 128k 到 Gemini 的 1M+,数字不断攀升。然而,实际应用中存在一个被称为"上下文腐烂"的顽疾:随着输入文本量的增加,模型在中间部分的检索能力会显著下降,即所谓的"大海捞针"(Needle In A Haystack)失败 。

技术突破: Claude Opus 4.6 声称已有效解决了这一问题。在 MRCR v2(多轮上下文检索)基准测试中,Opus 4.6 取得了 76% 的得分。作为对比,其前代产品 Sonnet 4.5 在该测试中仅获得 18.5% 的分数 。

这一数据的提升代表了"可用性"的质变。

  • 实际意义: 以前,用户虽然可以上传一本100万字的技术手册,但不敢确信模型能找到第50万字处的一个注脚。现在,Opus 4.6 将这100万 token 变成了真正可信赖的"工作内存"。这意味着律师可以上传整个案件的所有卷宗,程序员可以上传包含数十年历史遗留代码的整个仓库,而模型能够保持全局的连贯性和准确性 。

  • 竞争对比: 尽管 Google 的 Gemini 3 Pro 在较短的 128k 上下文下也能达到类似分数,但在百万级 token 的真实高压测试下,Anthropic 目前处于领先地位,重新定义了长文档分析的标准 。

智能体团队(Agent Teams)与 Claude Code

利用其庞大的上下文能力,Anthropic 推出了 Claude Code 中的 Agent Teams 功能。这标志着 AI 辅助编程从"结对编程"(Pair Programming)向"工程管理"(Engineering Management)的范式转变 。

工作机制: 在传统的 Chat 模式下,用户与 AI 是线性的问答关系。而在 Agent Teams 模式下,Opus 4.6 扮演一个"主架构师"的角色。

  1. 任务拆解: 用户下达一个模糊的高层指令(例如:"将此 Python 后端迁移到 Rust,并保持 API 兼容")。
  2. 并行执行: 模型会自动将任务拆解为数据库迁移、API 接口重写、单元测试编写等子任务。
  3. 多智能体协作: 系统会以此生成多个独立的"子智能体"并行工作。一个智能体写代码,另一个智能体同时写测试用例,第三个智能体负责审查文档。
  4. 自主协调: 智能体之间可以互相通信,主智能体会汇总结果并进行最终的一致性检查。

这种模式极大地缩短了复杂任务的交付时间(Wall-clock time),尽管消耗的总 Token 数量(以及成本)可能会增加,但在企业环境中,时间往往比计算成本更昂贵 。

基准测试与性能表现

Opus 4.6 在多个针对复杂推理和长程任务的基准测试中表现出色:

  • Terminal-Bench 2.0: 得分 65.4% 。虽然这一分数低于 OpenAI 的 Codex 5.3,但 Anthropic 强调其模型在操作终端时的安全性与谨慎性。

  • OSWorld (GUI操作): 得分 72.7%,显著高于 Codex 5.3 的 64.7% 。这表明 Opus 4.6 在理解图形用户界面、视觉上下文以及跨应用操作方面具有优势,这对于自动化涉及非 API 软件(如旧版企业 ERP 系统)的工作流至关重要。

  • GDPval-AA: 这是一个衡量模型在金融、法律等高经济价值领域表现的指标。Opus 4.6 在此超越了 GPT-5.2,证明了其在专业知识领域的深度 。


OpenAI GPT-5.3-Codex:递归进化的速度引擎

如果说 Anthropic 走的是"深思熟虑"的路线,OpenAI 的 GPT-5.3-Codex 则展示了"唯快不破"和"自我进化"的极客哲学。

"自我构建"的 AI 与奇点临近

在 GPT-5.3-Codex 的发布博文中,最引人注目的声明莫过于:"这是第一个在自身创造过程中发挥关键作用的模型" 。

根据 OpenAI 的工程披露,Codex 团队利用早期版本的 Codex 模型完成了以下任务:

  • 调试训练运行: 自动分析训练损失曲线的异常,定位数据管道中的错误。
  • 管理部署: 编写 Kubernetes 配置和部署脚本,管理大规模 GPU 集群的调度。
  • 诊断评估结果: 分析模型在测试集上的失败案例,并提出改进建议。

这种递归自我改进(Recursive Self-Improvement)的迹象引发了业界的广泛讨论。如果 AI 能够承担自身研发过程中 30% 或 40% 的工作,那么下一代模型(GPT-6)的研发周期将被大幅压缩。这被认为是通向"技术奇点"的具体路径之一——当 AI 构建 AI 的速度超过人类工程师时,技术进步将呈指数级爆发 。

速度与"可操纵性"(Steerability)

GPT-5.3-Codex 的架构优化主要集中在交互体验上:

  • 推理速度提升 25%: OpenAI 宣称新模型比前代 Codex 快了四分之一 。在编写代码的场景中,延迟是破坏心流(Flow)的最大杀手。社区推测,这一速度提升可能得益于 OpenAI 大规模部署了 NVIDIA 最新的 Blackwell GB300 芯片,相较于 Anthropic 可能使用的 Google TPU 集群,在单批次推理延迟上占据优势 。

  • 实时交互与可操纵性: 与 Opus 的"离线批处理"模式不同,OpenAI 推出的 Codex macOS App 强调"人机协同"。用户可以看着模型在屏幕上操作,并在其犯错的瞬间(例如打开了错误的文件)通过语音或键盘打断它:"不,不是这个文件,去查阅 utils.py。"这种设计理念将 AI 视为一个极速的结对编程伙伴,而非一个拿了需求就消失的黑盒外包商 。

基准测试:代码领域的统治力

OpenAI 将 Codex 5.3 打造为极致的编程工具:

  • Terminal-Bench 2.0: 得分 77.3%,大幅领先 Opus 4.6 。这显示了 Codex 在命令行脚本、服务器运维和环境配置方面的强大能力。对于 DevOps 工程师而言,Codex 5.3 是更锋利的工具。

  • SWE-Bench Pro: OpenAI 声称在这一软件工程基准测试中达到了"业界最高水平"(State-of-the-art)。尽管具体对比数据存在争议,但其针对编程任务的微调显然比通用模型更为激进 。

安全与"可信访问"

鉴于 Codex 5.3 能够自主操作计算机和编写复杂脚本,OpenAI 将其列为"网络安全高能力"(High Capability for Cybersecurity)模型。这是 OpenAI 准备框架(Preparedness Framework) 下的首个此类模型。为了防止其被用于编写恶意软件或自动化攻击,OpenAI 并未完全开放 API,而是推出了"网络安全可信访问"(Trusted Access for Cyber)计划,仅允许经过审查的防御者和企业使用其最高级功能 。


"Swiftagon" 挑战与社区实测:两种哲学的碰撞

脱离官方宣传,真实的开发者体验更能说明问题。Reddit 社区的一位资深开发者进行了一场名为"Swiftagon"的对比测试,让两个模型对一个包含 4200 行代码的 Swift 语言 macOS 相机应用进行"冷读"审计 。

测试环境与结果

  • 任务: 对一个涉及实时计算机视觉、Grand Central Dispatch (GCD) 并发、Swift Actors 和 @MainActor 复杂交互的 iOS/macOS 代码库进行架构分析和代码审查。
  • 条件: 两个模型均基于最高能力的设置(Opus 4.6 High Effort vs Codex 5.3 High),均未接触过该私有代码库。
指标Claude Opus 4.6 (Anthropic)GPT-5.3-Codex (OpenAI)
耗时 (Wall Clock Time)10 分钟4 分 14 秒
发现问题数量19 个 (3高危, 9中危)12 个 (2高危, 5中危)
工作风格深度审计员 (Deep Auditor)高效工程师 (Efficient Engineer)
特有发现资源双重释放 (Double-release)、线程安全边缘案例快速定位主要逻辑错误
自我修正具备 (输出中自我降级严重性)较少 (二元判断,更加自信)

深度解析:为什么 Opus 赢在深度?

在"Swiftagon"测试中,Opus 4.6 展现了令人印象深刻的推理深度。

  • 竞态条件(Race Conditions): Opus 发现了一个极难察觉的"双重释放"漏洞,这涉及到对 startSession 状态机在特定挂起(await)点的重入分析。这是一个典型的"人类专家级"发现,需要对时间维度上的状态变化有深刻理解,而不仅仅是静态的代码模式匹配 。

  • 自我修正: Opus 在输出过程中,最初将一个问题标记为 HIGH,但在随后的推理文本中,它自我反驳,认为现有的防护措施虽然不完美但已足够,从而将其降级为 MEDIUM。这种"思考过程"的透明化增加了用户对结果的信任度。

深度解析:为什么 Codex 赢在效率?

Codex 5.3 的优势在于极致的速度和精准的执行。

  • 速度差异: 4分钟 vs 10分钟。在日常开发中,等待 AI 10分钟往往会打断开发者的思路,而4分钟是可以接受的咖啡时间。
  • 交互哲学: Codex 的用户更倾向于将其作为"自动补全的终极形态"。它能够快速理解用户的意图并生成样板代码。一位用户提到 Codex "一次性成功"(One-shot)实现了一个 Opus 失败了四次的 Google Maps 地址自动填充功能,这表明在常见库和API的即时调用上,Codex 的训练数据可能更具针对性 。

社区情绪分析

从 Reddit 和 X 的讨论来看,开发者群体正在发生分化 :

  • 后端/架构师阵营: 倾向于支持 Claude Opus 4.6。他们认为在处理复杂的后端逻辑、金融模型或并发系统时,准确性高于一切。他们愿意为更少的 Bug 支付更多的时间和金钱。
  • 前端/全栈阵营: 倾向于支持 Codex 5.3。对于 Web 开发、快速原型制作和脚手架搭建,Codex 的速度和对主流框架(React, Next.js)的熟练度使其成为更佳选择。
  • 价格敏感度: 两个模型都推高了订阅成本。用户开始讨论是否需要同时订阅两个"Pro"计划(总计约 $400/月),或者在这两者之间做出艰难的选择。一些用户对 Anthropic 在高价套餐中仍对 1M 上下文窗口设限表示不满 。

如今,老金还是混合着用 Claude 和 Codex,很高兴见到 Codex 在编码速度上的提升,之前的体验确实很慢,现在感觉快了不少。Claude 在文档处理上还是很好用,当前也用得比较顺手,不会切到 Codex 上去。