OpenAI Codex 新手入门指南

我直接说清楚。"只用 Claude Code 就够了" 的时代已经完全结束了。4 月 24 日，随着 GPT-5.5 的到来，Codex 的准确率已经跃升到了"另一个维度"。海外已经铺天盖地地出现了"只追随 Claude Code 是错失良机，时代属于 Codex"的帖子。

0:53

然而在日本，大多数人还停留在"Codex 是什么？"或者"GPT-5.5 有什么厉害的？"这种状态。

所以这篇文章，我会👇

・解释 Codex 到底是什么

・详细说明 GPT-5.5 改变了什么

・讨论与 Claude Code 的根本区别

・告诉初学者具体该从哪里开始

我会把这些内容拆解到即使从零开始也能理解的程度。

如果你有下面这些疑问，一定要把这篇文章读完👇

・Codex 到底是什么？和 ChatGPT 有什么不同？

・听说 GPT-5.5 很厉害，但具体厉害在哪里我不清楚。

・听说它能生成图片，但那是怎么做到的？

・我想用，但 API 密钥、CLI 这些术语我完全不懂。

・不知道要花多少钱，所以不敢碰。

这些几乎是每个人开始对 Codex 感兴趣时都会遇到的障碍。

官方文档是英文的，信息分散各处，很难知道从哪里开始。而且每周都有新模型和新工具出来，光是跟上节奏就让人筋疲力尽。

这本指南，我阅读了截至 2026 年 4 月 29 日的所有 OpenAI 官方材料、系统卡片、API 文档和开发者指南，将"Codex × GPT-5.5 × 图像生成"的全貌总结成了一本教科书。

从应用安装到提示词设计、图像生成集成、成本管理、IDE 集成——从上到下读完这篇文章，你应该就能从一无所知到完全上手👇

■ 𝗖𝗼𝗱𝗲𝘅 到底是什么？

简单来说，OpenAI Codex 是一个"AI 编码 Agent"。

用简单的说法区分 ChatGPT 和 Codex：ChatGPT 是"会说话的 AI"，而 Codex 是"会干活的 AI"。

如果让 ChatGPT "修复这段代码"，它会返回一段文本回答。但 Codex 不一样。它会实际打开文件、重写代码、运行测试、确认结果。读取、写入、执行、修复——Codex 都能自动完成。

而且，随着 2026 年 4 月的大版本更新（"Codex for (almost) everything"），它现在也支持非编码任务。它已经进化成了一个"几乎万能 AI Agent"，能够集成 Jira、Slack、Notion、Google Workspace、HubSpot 等 90 多种工具。

使用 Codex 有三种方式：

・𝗖𝗼𝗱𝗲𝘅 桌面应用 ── 最简单的方式。下载应用后登录即可。无需终端操作。支持 macOS 和 Windows。

・𝗖𝗼𝗱𝗲𝘅 𝗖𝗟𝗜 ── 在终端中运行的 Agent。以开源形式发布（Apache 2.0）。对于习惯终端的人来说更灵活。

・𝗖𝗼𝗱𝗲𝘅 𝗖𝗹𝗼𝘂𝗱 ── 在云端后台执行任务。适合并行运行多个任务，或集成 GitHub 仓库。面向团队开发。

初学者应该从"桌面应用"开始。完全不需要使用终端就能开始。

■ 入门指南（桌面应用版）

最简单的开始方式就是下载桌面应用。

对于 𝗠𝗮𝗰：

通过 Mac App Store 或 Homebrew 安装：

brew install --cask codex

对于 𝗪𝗶𝗻𝗱𝗼𝘄𝘀：

在 Microsoft Store 中搜索"Codex"并安装。

打开应用后，直接用你的 ChatGPT 账号登录即可。浏览器会打开进行身份验证，然后就能立即使用。不需要设置 API 密钥。

是的，只要有 ChatGPT 账号，就可以直接登录。即使是免费版也可以。

应用打开后，试试这样用：

"显示这个文件夹里的文件列表"

"找出这段代码中的 bug 并修复"

"创建一个 README.md"

Codex 会读取文件、思考、执行，然后返回结果。这时你会意识到："哦，这和 ChatGPT 完全不同。"

■ 入门指南（𝗖𝗟𝗜 版）

对于熟悉终端的用户，Codex CLI 提供了更大的灵活性。

安装：

npm i -g @openai/codex

在 macOS 上：

brew install codex

身份验证：

codex auth

→ 浏览器会打开，你可以通过 ChatGPT 账号登录，或输入 API 密钥。

验证：

codex "请用英语自我介绍。"

如果能得到回复，就成功了。就这么简单。

如果使用 API 密钥进行身份验证，把它设为环境变量会更方便：

export OPENAI_API_KEY="sk-xxxxxxxx"

把它加到 ~/.zshrc（Mac）或 ~/.bashrc（Linux）中，就不用每次都输入了。

API 密钥可以在 platform.openai.com 的 Dashboard → "API Keys" → "Create new secret key" 中生成。密钥只显示一次，所以请复制并安全保存。切勿分享或推送到 GitHub。

■ 创建配置文件

如果想自定义 Codex 的行为，可以创建 ~/.codex/config.toml。桌面应用和 CLI 都通用。

text

1model = "gpt-5.5"
2approval_policy = "on-request"
3sandbox_mode = "workspace-write"

各项设置的含义：

𝗺𝗼𝗱𝗲𝗹 ── 使用的模型。gpt-5.5 性能最高。如果想节省成本，也可以选择 gpt-5.4。

𝗮𝗽𝗽𝗿𝗼𝘃𝗮𝗹_𝗽𝗼𝗹𝗶𝗰𝘆：

・"untrusted" ── 只自动执行只读命令。其他操作都会询问确认（最安全）。

・"on-request" ── 根据需要询问确认（推荐）。

・"never" ── 不确认就执行所有操作（面向高级用户）。

𝘀𝗮𝗻𝗱𝗯𝗼𝘅_𝗺𝗼𝗱𝗲：

・"read-only" ── 只读文件。

・"workspace-write" ── 工作区内读写 + 命令执行（推荐）。

・"danger-full-access" ── 无限制（危险，通常不使用）。

初学者应该从 on-request + workspace-write 开始。Codex 在执行任何操作前都会问"我可以这样做吗？"，从而防止意外操作。

■ 𝗚𝗣𝗧-𝟱.𝟱 是什么？（为什么被称为"最强的"）

GPT-5.5 是 OpenAI 于 2026 年 4 月 23 日发布的最新旗舰模型。代号"Spud"，OpenAI 将其定位为适用于"最复杂的商业任务"。

GPT-5.5 是 Codex 底层使用的模型，也是 Codex 的"推荐模型"。换句话说，Codex 之所以强大，是因为 GPT-5.5 强大。

我们来看具体数字。

𝟭. 上下文窗口：𝟭,𝟬𝟱𝟬,𝟬𝟬𝟬 token

一次能读取的数据量是另一个量级的。大约相当于 80 万日文字符。一般一本平装书大约 10 万字，所以它可以一次处理 8 本书的信息。它已经达到了"把整个大规模代码库丢给它，然后说'在这里找 bug'"的水平。

𝟮. 最大输出：𝟭𝟮𝟴,𝟬𝟬𝟬 token

之前的模型有时会"中途截断"，或者需要你让它"继续"，但 GPT-5.5 几乎不用担心这个问题。这在一次性生成长代码或文档时非常有用。

𝟯. 多模态支持

不仅可以处理文本，还可以处理图像、音频和视频作为输入。你可以截一张 UI 截图说"重新设计这个界面"，或者递上一张手写笔记的照片说"把它文字化"——所有这些用例都可行。

𝟰. 推理强度调整

五个级别：none / low / medium / high / xhigh。默认是 medium。简单任务用 low 快速响应，需要深度思考的复杂任务用 high。成本与推理强度成正比，因此根据情况切换很重要。

𝟱. 基准测试

・Terminal-Bench 2.0（Agent 自动化）── GPT-5.5：82.7%（第 1 名），Claude Opus 4.7：69.4%

・GPQA Diamond（研究生级知识）── GPT-5.5：93.6%，Claude Opus 4.7：94.2%，Gemini 3.1 Pro：94.3%

・SWE-Bench Pro（软件工程）── GPT-5.5：58.6%，Claude Opus 4.7：64.3%

Terminal-Bench 的 82.7% 分数尤其重要。这是衡量"作为 Agent 自动完成任务的能力"的指标，直接影响像 Codex 这样的基于 Agent 的开发。虽然没有模型在所有类别中都获胜，但就自动化目的而言，Codex × GPT-5.5 组合目前是最强的。

■ 与 𝗴𝗽𝘁-𝗶𝗺𝗮𝗴𝗲-𝟮 的集成（无缝图像生成）

与 GPT-5.5 同一周（2026 年 4 月 21 日）发布的还有"gpt-image-2"（ChatGPT Images 2.0）。

这个模型令人惊叹的地方在于，它能在图像中准确渲染日语文本。以前，AI 图像中的日语字符乱码是很常见的事，但 gpt-image-2 在 12 种以上语言中实现了超过 95% 的字符级准确率。海报、标志、图表——即使是日语也不会出错。

而最大的优势是与 Codex 集成的便捷性。

从 Codex 调用 gpt-image-2 不需要特殊设置。例如：

"为这个应用创建 3 种图标的样式，并保存到 assets 文件夹"

"基于这些数据创建一个图表"

"为着陆页生成一张英雄图片"

只需这样，Codex 就能处理从图像生成到文件保存的所有事情。如果你在写代码时想到"这里需要一个图表"，就可以直接在那里给出指令。工作流不会被打断，这非常方便。

它支持一次提示生成最多 8 张风格一致的图片，从最多 16 张参考图片进行编辑，以及最高 3840px 的高分辨率输出。图像生成的成本大约为每张图片 $0.006 到 $0.21，取决于分辨率和质量。

■ 𝗣𝗿𝗶𝗰𝗶𝗻𝗴（准确理解成本）

金钱是开始 AI 开发时最大的顾虑。不要模糊处理，要清晰地理解。

首先，通过 ChatGPT 订阅（Free / Go / Plus / Pro）使用 Codex 和直接调用 API 的计费结构是不同的。

通过 𝗖𝗵𝗮𝘁𝗚𝗣𝗧 计划（初学者从这里开始）：

・Free（$0）── 可使用 GPT-5.5。Codex 有限时可用。

・Go（$8/月）── 可使用 GPT-5.5。Codex 有限时可用。

・Plus（$20/月）── 可使用 GPT-5.5。Codex 可使用。

・Pro（$100–$200/月）── 包括 GPT-5.5 Pro 在内的所有功能。

我建议先试用 Free 计划，然后升级到 Plus（$20/月）进行正式使用。每月 $20 就能同时获得 GPT-5.5 和 Codex，性价比很高。

直接 𝗔𝗣𝗜 使用（中高级用户）：

・GPT-5.5 ── 输入 $5.00 / 输出 $30.00（每 1M token）

・GPT-5.4 ── 输入 $2.50 / 输出 $15.00

・GPT-5.3 ── 输入 $1.75 / 输出 $14.00

GPT-5.5 的成本是 5.4 的两倍。一个聪明的用法是"平时用 5.4，只有复杂处理才用 5.5"。

还有折扣选项：

・Batch ── 标准价 5 折。适用于不需要实时响应的任务。

・Flex ── 也是 5 折。以等待时间可变换取更低价格。

注意，长上下文使用（输入超过 272,000 token）时，输入成本为 2 倍，输出成本为 1.5 倍。在传递大量代码时要记住这一点。

■ 𝗣𝘆𝘁𝗵𝗼𝗻 / 𝗡𝗼𝗱𝗲.𝗷𝘀 𝗦𝗗𝗞（用于直接 API 调用）

如果你想从自己的代码中直接调用 GPT-5.5 API，而不是使用 Codex CLI 或应用，可以安装 SDK。

𝗣𝘆𝘁𝗵𝗼𝗻：

pip install openai

python

1from openai import OpenAI
2client = OpenAI()
3response = client.responses.create(
4    model="gpt-5.5",
5    reasoning={"effort": "medium"},
6    input="编写一个用 Python 计算斐波那契数列的函数。"
7)
8print(response.output_text)

𝗡𝗼𝗱𝗲.𝗷𝘀：

npm install openai

javascript

1import OpenAI from "openai";
2const client = new OpenAI();
3const resp = await client.responses.create({
4    model: "gpt-5.5",
5    reasoning: { effort: "medium" },
6    input: "用 Express.js 创建一个简单的 API 服务器。"
7});
8console.log(resp.output_text);

当你想要"把 GPT-5.5 嵌入到自己的应用里"时使用。对于初学者来说，Codex CLI 或桌面应用就足够了。

■ 𝗟𝗼𝗰𝗮𝗹 与 𝗖𝗹𝗼𝘂𝗱 的区别

Codex 有两种模式：本地执行和云端执行。

本地执行直接从桌面应用或 CLI 调用模型。它会自动使用本地文件作为上下文，因此用少量提示就能高效工作。速度快，适合个人开发或快速修复。

云端执行（Codex Cloud）在云端后台运行任务。适合并行任务、GitHub 集成和团队开发。需要用 ChatGPT 账号登录。

初学者应该从本地开始，熟悉后再尝试云端。

按 𝗢𝗦 分类的要点：

・macOS ── 桌面应用、CLI 和 IDE 扩展都支持。最完整的环境。

・Windows ── 支持桌面应用、CLI 和 IDE 扩展。推荐 Windows 11 + WSL2。

・Linux ── 不支持桌面应用。CLI 和 IDE 扩展可用。

■ 𝗜𝗗𝗘 集成

除了应用和终端，你还可以在编辑器中直接使用 Codex。

𝗩𝗦 𝗖𝗼𝗱𝗲：

从 Marketplace 安装"Codex - OpenAI's coding agent"。它可以与 Claude Code 或 GitHub Copilot 一起使用。

它会自动使用打开的文件或选中的代码作为上下文，因此无需复制粘贴即可编写提示。

在扩展中，你可以：

・切换模型（GPT-5.5 ↔ 5.4 ↔ 5.3）

・更改推理强度级别

・切换审批模式

・连接到 Cloud 环境

𝗝𝗲𝘁𝗕𝗿𝗮𝗶𝗻𝘀（IntelliJ、PyCharm、WebStorm 等）：

自 2026 年 1 月起提供原生集成。在 IDE 2025.3 或更高版本中可用。

■ 𝗣𝗿𝗼𝗺𝗽𝘁 𝗗𝗲𝘀𝗶𝗴𝗻（提示词写法决定结果）

使用 GPT-5.5 时，最大的区别来自提示词的写法。即使使用相同的模型，提示词的不同也会导致输出质量的完全改变。

对于 GPT-5.5，推荐使用包含以下 4 个要素的结构化提示词：

・𝗚𝗼𝗮𝗹 ── 你想要实现什么

・𝗖𝗼𝗻𝘁𝗲𝘅𝘁 ── 情况或环境

・𝗖𝗼𝗻𝘀𝘁𝗿𝗮𝗶𝗻𝘁𝘀 ── 不能做的事或限制

・𝗗𝗼𝗻𝗲 𝘄𝗵𝗲𝗻 ── 什么算"完成"

示例：

Goal：创建一个用户注册 API 端点。

Context：Python + FastAPI + PostgreSQL。插入到现有的 users 表中。

Constraints：不要额外的外部库。用 bcrypt 哈希密码。必须做邮箱重复检查。

Done when：向 POST /users 发送 JSON（name, email, password）后创建用户并返回 201。重复邮箱返回 409。

只说"做一个用户注册 API"也能工作，但像上面这样写能大幅提高准确率。它减少了来回沟通，最终反而更快。

选择推理强度：

・none / low ── 简单的转换或常规任务。响应最快。

・medium ── 一般编码或问答（默认）。

・high ── 复杂算法设计或调试。

・xhigh ── 最高难度的 Agent 任务。

成本与强度成正比，所以把所有任务都设为 xhigh 效率不高。选择适合任务的级别。

■ 𝗗𝗲𝗯𝘂𝗴𝗴𝗶𝗻𝗴 & 𝗧𝗲𝘀𝘁𝗶𝗻𝗴

写完代码之后就是调试和测试。Codex + GPT-5.5 在这方面也很出色。

调试的诀窍是把错误日志原样传给它。

"不行" → 不行

"pytest 中出现了 RuntimeError。堆栈跟踪：（完整错误）。请修复。" → 可以

GPT-5.5 有 1,050,000 token 的上下文，所以长日志也没问题。实际上，信息越多越好。

使用 Codex CLI，在项目文件夹中：

codex "调查这个测试失败的原因并修复它。确认测试通过。"

Codex 会读取文件、运行测试、分析错误、修复它，然后自动再次运行测试。这就是"会干活的 AI"的精髓。

你也可以把测试生成交给它：

codex "为 src/auth/register.py 中的 register_user 函数编写 pytest 测试。包括三种模式：成功、错误和验证。"

它会处理从创建测试文件到验证执行的所有事情。

■ 𝗦𝗲𝗰𝘂𝗿𝗶𝘁𝘆

Codex 有两层安全结构。

① Sandbox Mode ── 从技术上限制它"能做什么"的范围。使用 workspace-write，它无法触及工作区以外的任何东西。

② Approval Policy ── 在跨越边界的操作之前询问"我可以这样做吗？"。防止意外操作。

Codex Cloud 在 OpenAI 管理的隔离容器中运行，因此无法访问主机系统。本地 CLI/IDE 扩展也在 OS 层面被强制沙箱化。

初学者从 on-request + workspace-write 开始是安全的。

■ 实际应用案例

据报道，85% 的 OpenAI 员工每周都在使用 Codex。

・财务团队 ── 用 Codex 处理了 24,771 份 K-1 税务文件（71,637 页）的审核。比前一年提前了 2 周完成。

・营销团队 ── 自动生成每周业务报告。每周节省 5–10 小时。

・开发者示例 ── 用一个提示生成了一个单 HTML 文件的像素艺术游戏。自动生成 Express.js 的电商 CRUD API 及测试套件。

不仅仅是写代码，分析材料、创建报告、整理数据——当前 Codex 的优势在于"知识工作的自动化"。

■ 总结 ── 从零掌握 Codex 的路线图

以上就是 Codex × GPT-5.5 × gpt-image-2 的全貌。

𝗦𝘁𝗲𝗽 𝟭（理解）── 知道 Codex 是什么。

→ ChatGPT 是"会说话的 AI"，Codex 是"会干活的 AI"。

𝗦𝘁𝗲𝗽 𝟮（开始）── 下载桌面应用并登录。

→ 5 分钟就能开始。不需要终端。

𝗦𝘁𝗲𝗽 𝟯（基础）── 使用 4 要素提示词（Goal/Context/Constraints/Done when）。

→ 不要模糊地写，养成指定完成条件的习惯。

𝗦𝘁𝗲𝗽 𝟰（实践）── 传递错误日志进行调试 + 自动生成测试 + IDE 集成。

→ 将 Codex 融入你的开发周期。

𝗦𝘁𝗲𝗽 𝟱（优化成本）── 通常用 GPT-5.4，复杂任务用 5.5。

→ 利用 Batch 和 Flex 享受 5 折优惠。

𝗦𝘁𝗲𝗽 𝟲（进阶）── 用 gpt-image-2 生成图像、在 Cloud 中并行任务、用插件实现自动化。

→ 将使用范围扩展到编码之外。

从 Step 2 开始。下载应用，登录，尝试一件事。5 分钟就能开始。一旦让它跑起来，剩下的可以边做边学。

Codex 仍在进化。自从 2026 年初以来，几乎每个月都有重大更新。因此，现在掌握基础，建立适应变化的基础很重要。

给觉得这篇文章有帮助的人：

𝗖𝗼𝗱𝗲𝘅 𝗦𝘁𝘂𝗱𝗶𝗼 (@Codestudiopjbk) 是一个由三位 Codex 爱好者运营的账号。

我们每天发布关于 CLI 实用技巧和自动化的内容。

我们发布的内容包括：

・使用 GPT-5.5 和 OpenAI Codex 的实际产品开发案例

・Codex 用法 / CLI 自动化 / 开发趋势

・GPT-5.5 和 Codex 的最新海外信息

从开发理念到设计、实现、改进，我们汇总一手和海外信息，帮助你发布可运行的产品。

如果你感兴趣，请关注我们！关于开发咨询，请私信我们。

使用 YouMind 深度阅读爆款文章

近期爆款文章

Anthropic engineers 8x output. Here's the context engineering system behind it.

5 Mind-Blowing AI Techniques from DeNA Chair Tomoko Namba

How To Build Anything With Claude Fable 5: All You Need To Know About The Most Powerful AI Model

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

Everything Fable 5.

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN