我直接说清楚。"只用 Claude Code 就够了" 的时代已经完全结束了。4 月 24 日,随着 GPT-5.5 的到来,Codex 的准确率已经跃升到了"另一个维度"。海外已经铺天盖地地出现了"只追随 Claude Code 是错失良机,时代属于 Codex"的帖子。
0:53

然而在日本,大多数人还停留在"Codex 是什么?"或者"GPT-5.5 有什么厉害的?"这种状态。
所以这篇文章,我会👇
・解释 Codex 到底是什么
・详细说明 GPT-5.5 改变了什么
・讨论与 Claude Code 的根本区别
・告诉初学者具体该从哪里开始
我会把这些内容拆解到即使从零开始也能理解的程度。
如果你有下面这些疑问,一定要把这篇文章读完👇

・Codex 到底是什么?和 ChatGPT 有什么不同?
・听说 GPT-5.5 很厉害,但具体厉害在哪里我不清楚。
・听说它能生成图片,但那是怎么做到的?
・我想用,但 API 密钥、CLI 这些术语我完全不懂。
・不知道要花多少钱,所以不敢碰。
这些几乎是每个人开始对 Codex 感兴趣时都会遇到的障碍。
官方文档是英文的,信息分散各处,很难知道从哪里开始。而且每周都有新模型和新工具出来,光是跟上节奏就让人筋疲力尽。
这本指南,我阅读了截至 2026 年 4 月 29 日的所有 OpenAI 官方材料、系统卡片、API 文档和开发者指南,将"Codex × GPT-5.5 × 图像生成"的全貌总结成了一本教科书。
从应用安装到提示词设计、图像生成集成、成本管理、IDE 集成——从上到下读完这篇文章,你应该就能从一无所知到完全上手👇
■ 𝗖𝗼𝗱𝗲𝘅 到底是什么?

简单来说,OpenAI Codex 是一个"AI 编码 Agent"。
用简单的说法区分 ChatGPT 和 Codex:ChatGPT 是"会说话的 AI",而 Codex 是"会干活的 AI"。
如果让 ChatGPT "修复这段代码",它会返回一段文本回答。但 Codex 不一样。它会实际打开文件、重写代码、运行测试、确认结果。读取、写入、执行、修复——Codex 都能自动完成。
而且,随着 2026 年 4 月的大版本更新("Codex for (almost) everything"),它现在也支持非编码任务。它已经进化成了一个"几乎万能 AI Agent",能够集成 Jira、Slack、Notion、Google Workspace、HubSpot 等 90 多种工具。
使用 Codex 有三种方式:

・𝗖𝗼𝗱𝗲𝘅 桌面应用 ── 最简单的方式。下载应用后登录即可。无需终端操作。支持 macOS 和 Windows。
・𝗖𝗼𝗱𝗲𝘅 𝗖𝗟𝗜 ── 在终端中运行的 Agent。以开源形式发布(Apache 2.0)。对于习惯终端的人来说更灵活。
・𝗖𝗼𝗱𝗲𝘅 𝗖𝗹𝗼𝘂𝗱 ── 在云端后台执行任务。适合并行运行多个任务,或集成 GitHub 仓库。面向团队开发。
初学者应该从"桌面应用"开始。完全不需要使用终端就能开始。
■ 入门指南(桌面应用版)


最简单的开始方式就是下载桌面应用。
对于 𝗠𝗮𝗰:
通过 Mac App Store 或 Homebrew 安装:
brew install --cask codex
对于 𝗪𝗶𝗻𝗱𝗼𝘄𝘀:
在 Microsoft Store 中搜索"Codex"并安装。
打开应用后,直接用你的 ChatGPT 账号登录即可。浏览器会打开进行身份验证,然后就能立即使用。不需要设置 API 密钥。
是的,只要有 ChatGPT 账号,就可以直接登录。即使是免费版也可以。
应用打开后,试试这样用:
"显示这个文件夹里的文件列表"
"找出这段代码中的 bug 并修复"
"创建一个 README.md"
Codex 会读取文件、思考、执行,然后返回结果。这时你会意识到:"哦,这和 ChatGPT 完全不同。"
■ 入门指南(𝗖𝗟𝗜 版)
对于熟悉终端的用户,Codex CLI 提供了更大的灵活性。
安装:
npm i -g @openai/codex
在 macOS 上:
brew install codex
身份验证:
codex auth
→ 浏览器会打开,你可以通过 ChatGPT 账号登录,或输入 API 密钥。
验证:
codex "请用英语自我介绍。"
如果能得到回复,就成功了。就这么简单。
如果使用 API 密钥进行身份验证,把它设为环境变量会更方便:
export OPENAI_API_KEY="sk-xxxxxxxx"
把它加到 ~/.zshrc(Mac)或 ~/.bashrc(Linux)中,就不用每次都输入了。
API 密钥可以在 platform.openai.com 的 Dashboard → "API Keys" → "Create new secret key" 中生成。密钥只显示一次,所以请复制并安全保存。切勿分享或推送到 GitHub。
■ 创建配置文件

如果想自定义 Codex 的行为,可以创建 ~/.codex/config.toml。桌面应用和 CLI 都通用。
1model = "gpt-5.5"2approval_policy = "on-request"3sandbox_mode = "workspace-write"
各项设置的含义:
𝗺𝗼𝗱𝗲𝗹 ── 使用的模型。gpt-5.5 性能最高。如果想节省成本,也可以选择 gpt-5.4。
𝗮𝗽𝗽𝗿𝗼𝘃𝗮𝗹_𝗽𝗼𝗹𝗶𝗰𝘆:
・"untrusted" ── 只自动执行只读命令。其他操作都会询问确认(最安全)。
・"on-request" ── 根据需要询问确认(推荐)。
・"never" ── 不确认就执行所有操作(面向高级用户)。
𝘀𝗮𝗻𝗱𝗯𝗼𝘅_𝗺𝗼𝗱𝗲:
・"read-only" ── 只读文件。
・"workspace-write" ── 工作区内读写 + 命令执行(推荐)。
・"danger-full-access" ── 无限制(危险,通常不使用)。
初学者应该从 on-request + workspace-write 开始。Codex 在执行任何操作前都会问"我可以这样做吗?",从而防止意外操作。
■ 𝗚𝗣𝗧-𝟱.𝟱 是什么?(为什么被称为"最强的")

GPT-5.5 是 OpenAI 于 2026 年 4 月 23 日发布的最新旗舰模型。代号"Spud",OpenAI 将其定位为适用于"最复杂的商业任务"。
GPT-5.5 是 Codex 底层使用的模型,也是 Codex 的"推荐模型"。换句话说,Codex 之所以强大,是因为 GPT-5.5 强大。
我们来看具体数字。
𝟭. 上下文窗口:𝟭,𝟬𝟱𝟬,𝟬𝟬𝟬 token

一次能读取的数据量是另一个量级的。大约相当于 80 万日文字符。一般一本平装书大约 10 万字,所以它可以一次处理 8 本书的信息。它已经达到了"把整个大规模代码库丢给它,然后说'在这里找 bug'"的水平。
𝟮. 最大输出:𝟭𝟮𝟴,𝟬𝟬𝟬 token
之前的模型有时会"中途截断",或者需要你让它"继续",但 GPT-5.5 几乎不用担心这个问题。这在一次性生成长代码或文档时非常有用。
𝟯. 多模态支持
不仅可以处理文本,还可以处理图像、音频和视频作为输入。你可以截一张 UI 截图说"重新设计这个界面",或者递上一张手写笔记的照片说"把它文字化"——所有这些用例都可行。
𝟰. 推理强度调整

五个级别:none / low / medium / high / xhigh。默认是 medium。简单任务用 low 快速响应,需要深度思考的复杂任务用 high。成本与推理强度成正比,因此根据情况切换很重要。
𝟱. 基准测试
・Terminal-Bench 2.0(Agent 自动化)── GPT-5.5:82.7%(第 1 名),Claude Opus 4.7:69.4%
・GPQA Diamond(研究生级知识)── GPT-5.5:93.6%,Claude Opus 4.7:94.2%,Gemini 3.1 Pro:94.3%
・SWE-Bench Pro(软件工程)── GPT-5.5:58.6%,Claude Opus 4.7:64.3%
Terminal-Bench 的 82.7% 分数尤其重要。这是衡量"作为 Agent 自动完成任务的能力"的指标,直接影响像 Codex 这样的基于 Agent 的开发。虽然没有模型在所有类别中都获胜,但就自动化目的而言,Codex × GPT-5.5 组合目前是最强的。
■ 与 𝗴𝗽𝘁-𝗶𝗺𝗮𝗴𝗲-𝟮 的集成(无缝图像生成)

与 GPT-5.5 同一周(2026 年 4 月 21 日)发布的还有"gpt-image-2"(ChatGPT Images 2.0)。
这个模型令人惊叹的地方在于,它能在图像中准确渲染日语文本。以前,AI 图像中的日语字符乱码是很常见的事,但 gpt-image-2 在 12 种以上语言中实现了超过 95% 的字符级准确率。海报、标志、图表——即使是日语也不会出错。
而最大的优势是与 Codex 集成的便捷性。
从 Codex 调用 gpt-image-2 不需要特殊设置。例如:
"为这个应用创建 3 种图标的样式,并保存到 assets 文件夹"
"基于这些数据创建一个图表"
"为着陆页生成一张英雄图片"
只需这样,Codex 就能处理从图像生成到文件保存的所有事情。如果你在写代码时想到"这里需要一个图表",就可以直接在那里给出指令。工作流不会被打断,这非常方便。
它支持一次提示生成最多 8 张风格一致的图片,从最多 16 张参考图片进行编辑,以及最高 3840px 的高分辨率输出。图像生成的成本大约为每张图片 $0.006 到 $0.21,取决于分辨率和质量。
■ 𝗣𝗿𝗶𝗰𝗶𝗻𝗴(准确理解成本)

金钱是开始 AI 开发时最大的顾虑。不要模糊处理,要清晰地理解。
首先,通过 ChatGPT 订阅(Free / Go / Plus / Pro)使用 Codex 和直接调用 API 的计费结构是不同的。
通过 𝗖𝗵𝗮𝘁𝗚𝗣𝗧 计划(初学者从这里开始):
・Free($0)── 可使用 GPT-5.5。Codex 有限时可用。
・Go($8/月)── 可使用 GPT-5.5。Codex 有限时可用。
・Plus($20/月)── 可使用 GPT-5.5。Codex 可使用。
・Pro($100–$200/月)── 包括 GPT-5.5 Pro 在内的所有功能。
我建议先试用 Free 计划,然后升级到 Plus($20/月)进行正式使用。每月 $20 就能同时获得 GPT-5.5 和 Codex,性价比很高。
直接 𝗔𝗣𝗜 使用(中高级用户):

・GPT-5.5 ── 输入 $5.00 / 输出 $30.00(每 1M token)
・GPT-5.4 ── 输入 $2.50 / 输出 $15.00
・GPT-5.3 ── 输入 $1.75 / 输出 $14.00
GPT-5.5 的成本是 5.4 的两倍。一个聪明的用法是"平时用 5.4,只有复杂处理才用 5.5"。
还有折扣选项:
・Batch ── 标准价 5 折。适用于不需要实时响应的任务。
・Flex ── 也是 5 折。以等待时间可变换取更低价格。
注意,长上下文使用(输入超过 272,000 token)时,输入成本为 2 倍,输出成本为 1.5 倍。在传递大量代码时要记住这一点。
■ 𝗣𝘆𝘁𝗵𝗼𝗻 / 𝗡𝗼𝗱𝗲.𝗷𝘀 𝗦𝗗𝗞(用于直接 API 调用)

如果你想从自己的代码中直接调用 GPT-5.5 API,而不是使用 Codex CLI 或应用,可以安装 SDK。
𝗣𝘆𝘁𝗵𝗼𝗻:
pip install openai
1from openai import OpenAI2client = OpenAI()3response = client.responses.create(4 model="gpt-5.5",5 reasoning={"effort": "medium"},6 input="编写一个用 Python 计算斐波那契数列的函数。"7)8print(response.output_text)
𝗡𝗼𝗱𝗲.𝗷𝘀:
npm install openai
1import OpenAI from "openai";2const client = new OpenAI();3const resp = await client.responses.create({4 model: "gpt-5.5",5 reasoning: { effort: "medium" },6 input: "用 Express.js 创建一个简单的 API 服务器。"7});8console.log(resp.output_text);
当你想要"把 GPT-5.5 嵌入到自己的应用里"时使用。对于初学者来说,Codex CLI 或桌面应用就足够了。
■ 𝗟𝗼𝗰𝗮𝗹 与 𝗖𝗹𝗼𝘂𝗱 的区别

Codex 有两种模式:本地执行和云端执行。
本地执行直接从桌面应用或 CLI 调用模型。它会自动使用本地文件作为上下文,因此用少量提示就能高效工作。速度快,适合个人开发或快速修复。
云端执行(Codex Cloud)在云端后台运行任务。适合并行任务、GitHub 集成和团队开发。需要用 ChatGPT 账号登录。
初学者应该从本地开始,熟悉后再尝试云端。
按 𝗢𝗦 分类的要点:

・macOS ── 桌面应用、CLI 和 IDE 扩展都支持。最完整的环境。
・Windows ── 支持桌面应用、CLI 和 IDE 扩展。推荐 Windows 11 + WSL2。
・Linux ── 不支持桌面应用。CLI 和 IDE 扩展可用。
■ 𝗜𝗗𝗘 集成
除了应用和终端,你还可以在编辑器中直接使用 Codex。
𝗩𝗦 𝗖𝗼𝗱𝗲:
从 Marketplace 安装"Codex - OpenAI's coding agent"。它可以与 Claude Code 或 GitHub Copilot 一起使用。
它会自动使用打开的文件或选中的代码作为上下文,因此无需复制粘贴即可编写提示。
在扩展中,你可以:
・切换模型(GPT-5.5 ↔ 5.4 ↔ 5.3)
・更改推理强度级别
・切换审批模式
・连接到 Cloud 环境
𝗝𝗲𝘁𝗕𝗿𝗮𝗶𝗻𝘀(IntelliJ、PyCharm、WebStorm 等):
自 2026 年 1 月起提供原生集成。在 IDE 2025.3 或更高版本中可用。
■ 𝗣𝗿𝗼𝗺𝗽𝘁 𝗗𝗲𝘀𝗶𝗴𝗻(提示词写法决定结果)

使用 GPT-5.5 时,最大的区别来自提示词的写法。即使使用相同的模型,提示词的不同也会导致输出质量的完全改变。
对于 GPT-5.5,推荐使用包含以下 4 个要素的结构化提示词:
・𝗚𝗼𝗮𝗹 ── 你想要实现什么
・𝗖𝗼𝗻𝘁𝗲𝘅𝘁 ── 情况或环境
・𝗖𝗼𝗻𝘀𝘁𝗿𝗮𝗶𝗻𝘁𝘀 ── 不能做的事或限制
・𝗗𝗼𝗻𝗲 𝘄𝗵𝗲𝗻 ── 什么算"完成"
示例:

Goal:创建一个用户注册 API 端点。
Context:Python + FastAPI + PostgreSQL。插入到现有的 users 表中。
Constraints:不要额外的外部库。用 bcrypt 哈希密码。必须做邮箱重复检查。
Done when:向 POST /users 发送 JSON(name, email, password)后创建用户并返回 201。重复邮箱返回 409。
只说"做一个用户注册 API"也能工作,但像上面这样写能大幅提高准确率。它减少了来回沟通,最终反而更快。
选择推理强度:
・none / low ── 简单的转换或常规任务。响应最快。
・medium ── 一般编码或问答(默认)。
・high ── 复杂算法设计或调试。
・xhigh ── 最高难度的 Agent 任务。
成本与强度成正比,所以把所有任务都设为 xhigh 效率不高。选择适合任务的级别。
■ 𝗗𝗲𝗯𝘂𝗴𝗴𝗶𝗻𝗴 & 𝗧𝗲𝘀𝘁𝗶𝗻𝗴

写完代码之后就是调试和测试。Codex + GPT-5.5 在这方面也很出色。
调试的诀窍是把错误日志原样传给它。
"不行" → 不行
"pytest 中出现了 RuntimeError。堆栈跟踪:(完整错误)。请修复。" → 可以
GPT-5.5 有 1,050,000 token 的上下文,所以长日志也没问题。实际上,信息越多越好。
使用 Codex CLI,在项目文件夹中:
codex "调查这个测试失败的原因并修复它。确认测试通过。"
Codex 会读取文件、运行测试、分析错误、修复它,然后自动再次运行测试。这就是"会干活的 AI"的精髓。
你也可以把测试生成交给它:

codex "为 src/auth/register.py 中的 register_user 函数编写 pytest 测试。包括三种模式:成功、错误和验证。"
它会处理从创建测试文件到验证执行的所有事情。
■ 𝗦𝗲𝗰𝘂𝗿𝗶𝘁𝘆

Codex 有两层安全结构。
① Sandbox Mode ── 从技术上限制它"能做什么"的范围。使用 workspace-write,它无法触及工作区以外的任何东西。
② Approval Policy ── 在跨越边界的操作之前询问"我可以这样做吗?"。防止意外操作。
Codex Cloud 在 OpenAI 管理的隔离容器中运行,因此无法访问主机系统。本地 CLI/IDE 扩展也在 OS 层面被强制沙箱化。
初学者从 on-request + workspace-write 开始是安全的。
■ 实际应用案例

据报道,85% 的 OpenAI 员工每周都在使用 Codex。
・财务团队 ── 用 Codex 处理了 24,771 份 K-1 税务文件(71,637 页)的审核。比前一年提前了 2 周完成。
・营销团队 ── 自动生成每周业务报告。每周节省 5–10 小时。
・开发者示例 ── 用一个提示生成了一个单 HTML 文件的像素艺术游戏。自动生成 Express.js 的电商 CRUD API 及测试套件。
不仅仅是写代码,分析材料、创建报告、整理数据——当前 Codex 的优势在于"知识工作的自动化"。
■ 总结 ── 从零掌握 Codex 的路线图

以上就是 Codex × GPT-5.5 × gpt-image-2 的全貌。
𝗦𝘁𝗲𝗽 𝟭(理解)── 知道 Codex 是什么。
→ ChatGPT 是"会说话的 AI",Codex 是"会干活的 AI"。
𝗦𝘁𝗲𝗽 𝟮(开始)── 下载桌面应用并登录。
→ 5 分钟就能开始。不需要终端。
𝗦𝘁𝗲𝗽 𝟯(基础)── 使用 4 要素提示词(Goal/Context/Constraints/Done when)。
→ 不要模糊地写,养成指定完成条件的习惯。
𝗦𝘁𝗲𝗽 𝟰(实践)── 传递错误日志进行调试 + 自动生成测试 + IDE 集成。
→ 将 Codex 融入你的开发周期。
𝗦𝘁𝗲𝗽 𝟱(优化成本)── 通常用 GPT-5.4,复杂任务用 5.5。
→ 利用 Batch 和 Flex 享受 5 折优惠。
𝗦𝘁𝗲𝗽 𝟲(进阶)── 用 gpt-image-2 生成图像、在 Cloud 中并行任务、用插件实现自动化。
→ 将使用范围扩展到编码之外。
从 Step 2 开始。下载应用,登录,尝试一件事。5 分钟就能开始。一旦让它跑起来,剩下的可以边做边学。
Codex 仍在进化。自从 2026 年初以来,几乎每个月都有重大更新。因此,现在掌握基础,建立适应变化的基础很重要。
给觉得这篇文章有帮助的人:

𝗖𝗼𝗱𝗲𝘅 𝗦𝘁𝘂𝗱𝗶𝗼 (@Codestudiopjbk) 是一个由三位 Codex 爱好者运营的账号。
我们每天发布关于 CLI 实用技巧和自动化的内容。
我们发布的内容包括:
・使用 GPT-5.5 和 OpenAI Codex 的实际产品开发案例
・Codex 用法 / CLI 自动化 / 开发趋势
・GPT-5.5 和 Codex 的最新海外信息
从开发理念到设计、实现、改进,我们汇总一手和海外信息,帮助你发布可运行的产品。
如果你感兴趣,请关注我们!关于开发咨询,请私信我们。






