连续干7小时“不累”，OpenAI最强编程模型GPT-5-Codex来了-工信会

> 自媒体 > （AI）人工智能 > 连续干7小时“不累”，OpenAI最强编程模型GPT-5-Codex来了

连续干7小时“不累”，OpenAI最强编程模型GPT-5-Codex来了

来源：36氪

2025-09-20 19:04:38

106

管理

智东西9月16日消息，今日凌晨，OpenAI发布新模型GPT-5-Codex，这是其在GPT-5基础上专门为软件工程优化的模型版本，进一步提升了Codex中的智能体编程（Agentic Coding）能力。

OpenAI在博客中提到，GPT-5-Codex的训练侧重于实际的软件工程工作，其可以根据任务动态调整思考时间，在大型复杂任务上能够独立工作超过7个小时。

同时在基准测试中，相比于GPT-5，GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都实现提升。

GPT-5-Codex发布后两个多小时，OpenAI联合创始人、CEO萨姆·阿尔特曼（Sam Altman）就在X中透露，GPT-5-Codex的流量占比已达到Codex总流量的40%左右，今天就能占到超一半流量比例。

在开发者使用Codex的所有场景中，GPT-5-Codex均可用，它是云端任务和代码审查的默认工具，开发者也可通过Codex命令行界面（CLI）或集成开发环境（IDE）进行扩展，选择将其用于本地任务。

OpenAI今年4月首次推出开源编程智能体Codex CLI和5月首次推出Codex的网页版，两周前将Codex整合为一个通过ChatGPT账户连接的单一产品体验，使得开发者可以在本地环境和云端之间无缝迁移工作，而不会丢失上下文。

Codex包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中，其中Plus、教育和Business套餐每周可支持几次重点编码课程，Pro套餐可支持一周内多个项目的使用。对于通过API密钥使用Codex CLI的开发人员，OpenAI计划很快在API中提供GPT-5-Codex。

在OpenAI的X评论区，开发者称OpenAI这一新发布对于处理复杂项目非常有前景，还有开发者对自己的AI工具订阅预算担忧。

在测试中，研究人员发现GPT‑5-Codex能够独立处理大型复杂任务超过7小时，不断迭代实现、修复测试错误并最终交付成功。

基于OpenAI内部员工的使用情况，研究人员发现当按模型生成的token数对用户交互轮次进行排序时，其中生成token数最少的排名最后10%情况中，GPT-5-Codex使用的token比GPT-5少93.7%。

排名前10%的情况正好相反，GPT-5-Codex会进行更多思考，在推理、代码编辑、测试以及迭代上花费的时间是GPT-5的两倍。

GPT-5-Codex还可用于执行代码审查并查找关键缺陷。审查时，它会浏览开发者的代码库，推理依赖关系，并运行代码和测试以验证正确性。

OpenAI评估了热门开源存储库中近期提交的代码审查性能，经验丰富的软件工程师会在每次提交时评估审查意见的正确性和重要性。

GPT-5的错误评论有约13.7%，GPT-5-Codex仅为4.4%，高影响力评论占比中GPT-5有39.4%，GPT-5-Codex有52.4%，每个拉取请求的平均评论数中，GPT-5平均有1.32条，GPT-5-Codex有0.9条。

他们发现，GPT-5-Codex的意见不太可能出现错误或不重要的情况。

其次是Codex IDE扩展

这一IDE扩展可将Codex智能体接入VS Code、Cursor以及其他基于VS Code衍生的编辑器，允许其与Codex共同预览本地代码变更、协同编辑代码。

当开发者在IDE中使用Codex时，只需输入更简短的指令就能获得结果，这是因为Codex可利用上下文信息，例如开发者已打开的文件或选中的代码片段。

Codex IDE扩展允许开发者在云端环境与本地环境之间切换工作流，开发者无需离开编辑器，就能创建新的云端任务、跟踪正在进行中的工作、查看已完成的任务。

若需对代码进行收尾调整，其还可以在IDE中直接打开云端任务，且Codex会完整保留相关上下文信息。

此外，OpenAI还一直在提升云基础设施的性能，通过缓存容器，其将新任务和后续任务的平均完成时间缩短了90%。Codex现在可以通过扫描并执行常用的安装脚本来自动设置环境；借助可配置的互联网访问权限，在运行时根据需要执行像pip install这样的命令来获取依赖项。

与CLI和IDE扩展中一样，开发者现在可以通过上传图像的方式，向Codex共享前端设计规范，如界面原型图、视觉稿，或上传界面错位、样式异常的截图说明UI漏洞。

Codex构建前端内容时，可以自行启动浏览器查看已构建的效果并进行迭代优化，最终会将结果截图附加到对应任务以及GitHub拉取请求中。

在代码审查中，Codex可以被用于发现关键缺陷。

与静态分析工具不同，它可以将拉取请求中声明的开发意图与实际差异进行匹配，结合整个代码库及依赖项展开推理分析，并通过执行代码与测试用例来验证实际运行行为。

一旦开发者在某个GitHub库启用了Codex，当拉取请求从草稿状态转为就绪状态时，Codex就会自动对其进行审查，并将分析结果发布在该拉取请求上。

如果Codex建议进行修改，开发者可以在同一个对话线程中让Codex直接实施这些修改。

开发者也可以在拉取请求中明确提及@codex review来请求审查，例如@codex review for security vulnerabilities（让Codex审查安全漏洞）或@codex review for outdated dependencies（让Codex审查过时的依赖项）。

Codex目前已在OpenAI内部，被用于审查其绝大多数的拉取请求，每天能发现数百个问题，而且往往是在人工审查开始之前就已发现。

03 结语：AI编程工具竞争白热化

当下，AI编程工具的竞争已经变得愈发激烈，既有OpenAI Codex、Claude Code、Anysphere Cursor、微软GitHub Copilot几大产品进场厮杀，还有Cursor年度经常性收入（ARR）在2025年初就超过5亿美元，更有AI代码编辑器Windsurf遭遇一场混乱收购，导致其团队被谷歌和Cognition两家公司瓜分。

OpenAI Codex此次升级，发布专门为智能体编程优化的全新模型，使得其自动化编程以及与用户协作的能力都大幅提升，证明了AI编程工具竞赛的激烈程度持续升温。

本文来自微信公众号 “智东西”（ID：zhidxcom），作者：程茜，36氪经授权发布。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com