OpenAI最强编程智能体上线ChatGPT，AI的“终极外挂”来了

【来源：虎嗅网】

本文来自微信公众号：APPSO （ID：appsolution），题图来自：AI生成

Altman昨天早上还在X上卖关子，说有个研究预览版本快上线，要给它起个“如果它成了会很好记”的名字。

就在刚刚，OpenAI正式发布Codex。

这是一款基于云端运行的软件工程智能Agent，能够并行处理多个开发任务，协助开发者高效完成编程工作。

UI设计没整花活，Codex提供一个输入框和两个按钮——“Ask”（提问）和“Code”（编码）。你只需明确描述任务，它就会开始执行。

兴奋的Altman在X平台连发数条推文表示：

像这样的工具，让一个人能开发出的软件数量，实在令人惊叹又令人兴奋。“你其实可以直接去做”是我最喜欢的梗之一；我原本没想到，它会这么快以如此重要的方式应用到AI本身以及它的使用者身上。

Codex能胜任的工作不仅仅是编写功能代码，还包括理解代码结构、回答关于代码库的问题、修复bug，甚至直接提交可审查的拉取请求（Pull Request）。

每个任务都在云端独立的沙箱环境中执行，自动加载用户的代码仓库。运行时长从1分钟到30分钟不等，取决于任务复杂度，同时用户可以实时查看任务进度。

任务完成后，Codex会输出一整套可追溯的执行结果，包括终端日志、测试记录等验证信息。你可以对修改结果进行审查、提出建议，甚至直接在GitHub上发起PR，或者合并进本地项目。

借助项目中的AGENTS.md文件，用户还可自定义Codex的行为，让它更贴合具体项目的开发规范与测试标准。

Codex的核心模型为codex-1，这是OpenAI o3系列里专为软件工程微调过的版本。

基准测试结果显示，codex-1在SWE-Bench的得分为72.1%，纸面参数优于Claude 3.7以及o3-high。

训练方式也很“实战”，通过在真实开发环境中进行强化学习训练，Codex能够生成更符合人类编码风格和审查偏好的代码，严格按照指令执行，并不断运行测试，直到测试通过为止。

从今天开始，Codex将向ChatGPT Pro、Enterprise和Team用户开放，而Plus和Edu用户的支持也将很快上线。

安全性方面，Codex做得也够克制。执行任务时，它只会访问你提供的代码库和预设依赖，不能联网、不能访问外部API，遇到不确定问题会停下来提示你处理。

并且，Codex经过专门训练，能够识别并拒绝与恶意开发相关的请求，避免被滥用于开发恶意软件。

目前，OpenAI已在内部广泛使用Codex，协助工程师完成重构、命名规范、编写测试等重复性任务，显著提升开发效率。一些外部合作团队也给出了积极反馈，比如Cisco与Temporal借助Codex加快了开发与调试节奏。

在深夜直播中，OpenAI的员工展示了Codex更具实用性的能力：

它能够理解整个代码库的结构，自动定位并修复bug，处理超时设置或拼写错误等常见问题。即使是在命令行报错时，Codex也能分析出错原因，自动生成修复脚本和相应的测试用例。

此外，它还具备代码审查功能，能梳理所有改动点，并指出可能导致测试失败的风险。换句话说，Codex正在逐步进化为一个真正可用的编程协作助手。

OpenAI员工也分享了他们用Codex管理大型代码变更的经验，即使这些变更代码从未跑过本地环境，也能顺利合并、通过测试。

知名科技作者Dan Shipper提前体验了Codex，并用一篇博客分享了他的使用感受。

在他看来，通过Codex，用户可以像管理团队一样分配任务，而不需要编写代码。Codex特别适合资深开发者，在执行任务时能够产生简洁高效的代码变更，并自动生成pull request提交到GitHub。

然而，Codex也有一些局限性，比如对于新手工程师不太友好，不擅长处理后续的修改与补充任务，并且尚未完全整合到主流开发平台如GitHub和Slack。

它的设计主要面向专业开发者，而不是那些喜欢边聊边编程的用户。Codex的核心优势在于提高高级开发者的工作效率，使他们能够同时管理多个任务，从而加速开发进程。

如果你是技术主管、需要在已有项目中添加功能或修复bug，那么Codex是你会常用的工具；但如果你是在从零开始搞一个“一人十亿级美元SaaS”，可能就用不上它。

简单来说，如果你一个人做了一个网站或工具，用户通过订阅使用，每月收入达到几百万，年收入破千万甚至过亿，那么你就是在做“一人十亿级美元SaaS”。

除了云端主力模型之外，OpenAI还同步推出了专为命令行优化的轻量模型codex-mini-latest，支持开发者在本地环境快速接入AI。

Codex CLI登录流程简洁，可直接使用ChatGPT账号接入，并享受基础的免费API配额。目前已向全球范围内的Pro、Enterprise和Team用户开放，未来几周内还将陆续支持Plus与Edu用户。

对于接入codex-mini-latest的开发者，该模型可通过Responses API调用，价格为每百万输入tokens花费1.5美元、每百万输出tokens花费6美元，支持高达75%的提示缓存折扣，进一步降低调用成本。

OpenAI对Codex的长线愿景很明确：

它不仅是一个写代码的工具，更是未来协作模式的雏形。多代理、异步执行、自动汇报进度，这一套逻辑未来可能内嵌进IDE、Git工具、甚至Slack里，成为开发者真正的“副驾驶”。

目前Codex仍处于研究预览阶段，图像输入等高级功能尚未开放。

但过去那些对AI编程助手的畅想，比如自动写代码、提PR、修bug，终于在Codex身上以可用工具的形式落地，成为真正能上手、能跑进实际工作流的产品。

本文来自微信公众号：APPSO （ID：appsolution）

每个人都在教大学生做人，却不在意他们到底想成为什么样的人

电诈“杀猪盘哥”的坦白：我才18，怎么可能爱上50岁的她们

汽车芯片，遇冷

浮费基金第二批上报！11只产品有何不同？热门主题上线

新华社：“大而美”法案的赢家与输家

8月29日美市支撑阻力：金银原油+美元指数等六大货币对

每个人都在教大学生做人，却不在意他们到底想成为什么样的人

证监会同意丙烯期货和期权注册

浮费基金第二批上报！11只产品有何不同？热门主题上线

炳叔：买书修道，推荐《全球科技通史》

为什么抑郁的人总担心自己变贫穷？

炳叔：联想全球化之后，公关的七级浮屠

炳叔：你支持的是哪种华为？

浮费基金第二批上报！11只产品有何不同？热门主题上线

新华社：“大而美”法案的赢家与输家

8月29日美市支撑阻力：金银原油+美元指数等六大货币对

每个人都在教大学生做人，却不在意他们到底想成为什么样的人

证监会同意丙烯期货和期权注册

浮费基金第二批上报！11只产品有何不同？热门主题上线

新华社：“大而美”法案的赢家与输家

8月29日美市支撑阻力：金银原油+美元指数等六大货币对

每个人都在教大学生做人，却不在意他们到底想成为什么样的人

证监会同意丙烯期货和期权注册

更多你感兴趣的

你也许感兴趣