OpenAI Codex 初學者終極指南

我直接說清楚。所謂「只要用 Claude Code 就好」的時代，已經完全結束了。4 月 24 日，隨著 GPT-5.5 的到來，Codex 的準確度已經躍升到「不同次元」。海外已經開始湧現「只追 Claude Code 是錯失良機，這個時代屬於 Codex」的貼文。

0:53

然而，在日本，大多數人仍然卡在「Codex 是什麼？」或是「GPT-5.5 到底厲害在哪？」的階段。

因此，在這篇文章中，我將會👇

・解釋 Codex 到底是什麼

・詳細說明 GPT-5.5 帶來了哪些改變

・探討它與 Claude Code 的根本差異

・為初學者指出具體的起步方向

我會將這些內容拆解到 即使從零開始也能理解 的程度。

如果你有任何以下這些疑問，請務必將這篇文章讀到最後👇

・Codex 到底是什麼？跟 ChatGPT 有什麼不同？

・聽說 GPT-5.5 很厲害，但我不清楚具體厲害在哪裡。

・聽說它可以生成圖片，但那是怎麼運作的？

・我想用用看，但什麼 API 金鑰、CLI 之類的術語我完全聽不懂。

・因為不知道費用多少，所以不敢輕易嘗試。

這些幾乎是每個人開始對 Codex 產生興趣時都會遇到的障礙。

官方文件是英文的，資訊散落在各處，很難知道從哪裡開始。再加上每週都有新模型和新工具問世，光是跟上進度就讓人筋疲力盡。

為了這份指南，我已經閱讀了截至 2026 年 4 月 29 日的所有 OpenAI 官方資料、系統卡、API 文件和開發者指南，將「Codex × GPT-5.5 × 圖片生成」的全貌濃縮成一本教科書。

從應用程式安裝到提示詞設計、圖片生成整合、成本管理，再到 IDE 整合——從頭到尾閱讀這篇文章，你應該就能從一無所知到完全上手👇

■ 𝗖𝗼𝗱𝗲𝘅 到底是什麼？

簡而言之，OpenAI Codex 是一個「AI 程式碼 Agent」。

要簡單說明它與 ChatGPT 的差別：ChatGPT 是「會說話的 AI」，而 Codex 是「會動手的 AI」。

如果你請 ChatGPT「修復這段程式碼」，它會回傳一段文字回應。Codex 則不同。它會實際打開檔案、改寫程式碼、執行測試，並確認結果。讀取、寫入、執行、修復——Codex 全自動完成。

此外，隨著 2026 年 4 月的大型更新（「Codex for (almost) everything」），它現在也支援非程式碼任務。它已經進化成一個「幾乎萬能的 AI Agent」，可以整合超過 90 種工具，包括 Jira、Slack、Notion、Google Workspace 和 HubSpot。

使用 Codex 有三種方式：

・𝗖𝗼𝗱𝗲𝘅 桌面應用程式 ── 最簡單的方式。只需下載應用程式並登入即可。不需要操作終端機。支援 macOS 和 Windows。

・𝗖𝗼𝗱𝗲𝘅 𝗖𝗟𝗜 ── 在終端機中運行的 Agent。它以開源方式發布（Apache 2.0）。對於習慣使用終端機的人來說，這更靈活。

・𝗖𝗼𝗱𝗲𝘅 𝗖𝗹𝗼𝘂𝗱 ── 在雲端背景執行任務。適合並行執行多個任務或與 GitHub 儲存庫整合。目標對象是團隊開發。

初學者應該從「桌面應用程式」開始。你可以在完全不使用終端機的情況下開始使用。

■ 入門指南（桌面應用程式版）

最簡單的開始方式就是下載桌面應用程式。

對於 𝗠𝗮𝗰：

透過 Mac App Store 或 Homebrew 安裝：

brew install --cask codex

對於 𝗪𝗶𝗻𝗱𝗼𝘄𝘀：

在 Microsoft Store 中搜尋「Codex」並安裝。

打開應用程式後，只需用你的 ChatGPT 帳號登入即可。瀏覽器會開啟進行驗證，之後你就可以立即使用。不需要設定 API 金鑰。

是的，如果你有 ChatGPT 帳號，可以直接登入。即使是免費方案也沒問題。

應用程式打開後，試試看像這樣的指令：

「顯示這個資料夾中的檔案列表」

「找出並修復這段程式碼中的錯誤」

「建立一個 README.md」

Codex 會讀取檔案、思考、執行，並回傳結果。在這個時候，你就會意識到：「哦，這跟 ChatGPT 完全不一樣。」

■ 入門指南（𝗖𝗟𝗜 版）

對於熟悉終端機的人來說，Codex CLI 提供了更高的靈活性。

安裝：

npm i -g @openai/codex

在 macOS 上：

brew install codex

驗證身份：

codex auth

→ 瀏覽器會開啟，讓你透過 ChatGPT 帳號登入或輸入 API 金鑰。

驗證：

codex "請用英文介紹你自己。"

如果能收到回應，就表示成功了。就是這麼簡單。

如果你使用 API 金鑰進行驗證，將其設定為環境變數會很方便：

export OPENAI_API_KEY="sk-xxxxxxxx"

將這行加到你的 ~/.zshrc（Mac）或 ~/.bashrc（Linux）中，就不需要每次都輸入了。

你可以在 platform.openai.com 的「儀表板」→「API 金鑰」→「建立新的密鑰」來發行 API 金鑰。金鑰只會顯示一次，請複製並安全儲存。絕對不要分享它或將它推送到 GitHub。

■ 建立設定檔

如果你想自訂 Codex 的行為，請建立 ~/.codex/config.toml。這對桌面應用程式和 CLI 都通用。

text

1model = "gpt-5.5"
2approval_policy = "on-request"
3sandbox_mode = "workspace-write"

各設定的含義：

𝗺𝗼𝗱𝗲𝗹 ── 要使用的模型。gpt-5.5 是效能最高的。如果想節省成本，gpt-5.4 也是一個選項。

𝗮𝗽𝗽𝗿𝗼𝘃𝗮𝗹_𝗽𝗼𝗹𝗶𝗰𝘆：

・"untrusted" ── 僅自動執行唯讀指令。其他所有操作都會要求確認（最安全）。

・"on-request" ── 在需要時要求確認（推薦）。

・"never" ── 不經確認執行所有操作（適用於進階使用者）。

𝘀𝗮𝗻𝗱𝗯𝗼𝘅_𝗺𝗼𝗱𝗲：

・"read-only" ── 僅讀取檔案。

・"workspace-write" ── 在工作區內讀取/寫入 + 執行指令（推薦）。

・"danger-full-access" ── 無限制（危險，通常不使用）。

初學者應從 on-request + workspace-write 開始。Codex 在執行任何操作前都會詢問「我可以這樣做嗎？」，以防止意外操作。

■ 𝗚𝗣𝗧-𝟱.𝟱 是什麼？（為何被稱為「最強」）

GPT-5.5 是 OpenAI 於 2026 年 4 月 23 日發布的最新旗艦模型。代號為「Spud」，OpenAI 將其定位為處理「最複雜的商業任務」。

GPT-5.5 是 Codex 底層使用的模型，也是 Codex 的「推薦模型」。換句話說，Codex 之所以厲害，是因為 GPT-5.5 厲害。

讓我們來看看具體的數據。

𝟭. 上下文視窗：𝟭,𝟬𝟱𝟬,𝟬𝟬𝟬 個 token

它一次能讀取的數據量是不同層級的。這相當於大約 80 萬個日文字元。由於一本典型的平裝書大約有 10 萬字，它可以同時處理 8 本書的資訊。這已經達到你可以將整個大型程式碼庫餵給它，然後說「在這裡找出錯誤」的程度。

𝟮. 最大輸出：𝟭𝟮𝟴,𝟬𝟬𝟬 個 token

使用先前的模型時，有時會發生「中途中斷」或需要請它「繼續」的情況，但有了 GPT-5.5，這種顧慮幾乎消失了。這在一次性生成較長的程式碼或文件時非常有幫助。

𝟯. 多模態支援

它不僅可以處理文字，還可以處理圖像、音訊和影片作為輸入。你可以展示一個 UI 截圖並說「重現這個設計」，或者遞上一張手寫筆記的照片並說「將此文字化」——所有這些用例都是可行的。

𝟰. 推理強度調整

五個等級：none / low / medium / high / xhigh。預設為 medium。對於簡單任務使用 low 以獲得快速回應，對於需要深度思考的複雜任務使用 high。由於成本與推理強度成正比，根據情況切換是很重要的。

𝟱. 基準測試

・Terminal-Bench 2.0（Agent 自動化）── GPT-5.5：82.7%（第 1 名），Claude Opus 4.7：69.4%

・GPQA Diamond（研究所等級知識）── GPT-5.5：93.6%，Claude Opus 4.7：94.2%，Gemini 3.1 Pro：94.3%

・SWE-Bench Pro（軟體工程）── GPT-5.5：58.6%，Claude Opus 4.7：64.3%

Terminal-Bench 82.7% 的得分尤其重要。這是一個衡量「作為 Agent 自動完成任務的能力」的指標，它直接影響像 Codex 這樣的基於 Agent 的開發。雖然沒有任何模型能在所有類別中獲勝，但就自動化目的而言，Codex × GPT-5.5 組合目前是最強的。

■ 與 𝗴𝗽𝘁-𝗶𝗺𝗮𝗴𝗲-𝟮 的整合（無縫圖片生成）

與 GPT-5.5 同一週（2026 年 4 月 21 日）發布的是「gpt-image-2」（ChatGPT Images 2.0）。

這個模型的驚人之處在於它能夠在圖片中準確渲染日文字元。以前，AI 圖片中的日文字元亂碼是常態，但 gpt-image-2 在 12 種以上的語言中實現了超過 95% 的字元級準確度。海報、標誌、圖表——即使在日文中也不會出錯。

而最大的優勢在於與 Codex 的整合便利性。

從 Codex 呼叫 gpt-image-2 不需要特殊設定。例如：

「為這個應用程式的圖示建立 3 種樣式，並儲存在 assets 資料夾中」

「根據這些資料建立一個圖表」

「為登陸頁面生成一個主視覺圖片」

只需這樣，Codex 就能處理從圖片生成到檔案儲存的所有事情。如果你在寫程式碼時想到「我想要一個圖表在這裡」，你可以直接在那裡下指令。工作流程不會中斷，這非常方便。

它支援在一個提示中生成最多 8 張一致的圖片，從最多 16 張參考圖片中進行編輯，以及高達 3840px 的高解析度輸出。圖片生成的成本根據解析度和品質，每張圖片大約在 0.006 美元到 0.21 美元之間。

■ 𝗣𝗿𝗶𝗰𝗶𝗻𝗴（準確了解成本）

金錢是開始 AI 開發時最大的擔憂。不要含糊其辭，要清楚地了解它。

首先，透過 ChatGPT 訂閱（Free / Go / Plus / Pro）使用 Codex 和直接使用 API 的計費結構是不同的。

透過 𝗖𝗵𝗮𝘁𝗚𝗣𝗧 方案（初學者從這裡開始）：

・Free（0 美元）── 可使用 GPT-5.5。Codex 限時可用。

・Go（8 美元/月）── 可使用 GPT-5.5。Codex 限時可用。

・Plus（20 美元/月）── 可使用 GPT-5.5。Codex 可用。

・Pro（100–200 美元/月）── 包含 GPT-5.5 Pro 在內的所有功能。

我建議先試用 Free 方案，然後在認真使用時升級到 Plus（20 美元/月）。每月花 20 美元就能同時擁有 GPT-5.5 和 Codex，非常划算。

直接使用 𝗔𝗣𝗜（中階以上使用者）：

・GPT-5.5 ── 輸入 5.00 美元 / 輸出 30.00 美元（每 100 萬個 token）

・GPT-5.4 ── 輸入 2.50 美元 / 輸出 15.00 美元

・GPT-5.3 ── 輸入 1.75 美元 / 輸出 14.00 美元

GPT-5.5 的成本是 5.4 的兩倍。一個聰明的使用方式是「通常使用 5.4，只在複雜處理時使用 5.5」。

還有折扣選項：

・Batch ── 比標準價格便宜 50%。適用於不需要即時回應的任務。

・Flex ── 也便宜 50%。以等待時間不固定為代價換取更低的價格。

請注意，長上下文使用（輸入超過 272,000 個 token）會導致輸入成本變為 2 倍，輸出成本變為 1.5 倍。在傳遞大量程式碼時請記住這一點。

■ 𝗣𝘆𝘁𝗵𝗼𝗻 / 𝗡𝗼𝗱𝗲.𝗷𝘀 𝗦𝗗𝗞（用於直接 API 使用）

如果你想從自己的程式碼中直接呼叫 GPT-5.5 API，而不是使用 Codex CLI 或應用程式，請安裝 SDK。

𝗣𝘆𝘁𝗵𝗼𝗻：

pip install openai

python

1from openai import OpenAI
2client = OpenAI()
3response = client.responses.create(
4    model="gpt-5.5",
5    reasoning={"effort": "medium"},
6    input="寫一個 Python 函數來計算費氏數列。"
7)
8print(response.output_text)

𝗡𝗼𝗱𝗲.𝗷𝘀：

npm install openai

javascript

1import OpenAI from "openai";
2const client = new OpenAI();
3const resp = await client.responses.create({
4    model: "gpt-5.5",
5    reasoning: { effort: "medium" },
6    input: "使用 Express.js 建立一個簡單的 API 伺服器。"
7});
8console.log(resp.output_text);

當你想要「將 GPT-5.5 嵌入到你自己的應用程式中」時使用這個。對於初學者來說，Codex CLI 或桌面應用程式就足夠了。

■ 𝗟𝗼𝗰𝗮𝗹 𝘃𝘀 𝗖𝗹𝗼𝘂𝗱（差異）

Codex 有兩種模式：本地執行和雲端執行。

本地執行直接從桌面應用程式或 CLI 呼叫模型。它會自動使用本地檔案作為上下文，因此可以用最少的提示詞高效運作。它速度很快，適合個人開發或快速修復。

雲端執行（Codex Cloud）在雲端背景執行任務。它擅長並行任務、GitHub 整合和團隊開發。需要使用 ChatGPT 帳號登入。

初學者應從本地開始，習慣後再嘗試雲端。

各 𝗢𝗦 的重點：

・macOS ── 支援桌面應用程式、CLI 和 IDE 擴充功能。最完整的環境。

・Windows ── 支援桌面應用程式、CLI 和 IDE 擴充功能。建議使用 Windows 11 + WSL2。

・Linux ── 不支援桌面應用程式。CLI 和 IDE 擴充功能可用。

■ 𝗜𝗗𝗘 整合

除了應用程式和終端機，你還可以在編輯器內部直接使用 Codex。

𝗩𝗦 𝗖𝗼𝗱𝗲：

從 Marketplace 安裝「Codex - OpenAI's coding agent」。它可以與 Claude Code 或 GitHub Copilot 一起使用。

它會自動使用開啟的檔案或選取的程式碼作為上下文，因此你無需複製貼上即可編寫提示詞。

在擴充功能內部，你可以：

・切換模型（GPT-5.5 ↔ 5.4 ↔ 5.3）

・更改推理強度等級

・切換核准模式

・連接到 Cloud 環境

𝗝𝗲𝘁𝗕𝗿𝗮𝗶𝗻𝘀（IntelliJ、PyCharm、WebStorm 等）：

自 2026 年 1 月起提供原生整合。在 IDE 版本 2025.3 或更高版本中可用。

■ 𝗣𝗿𝗼𝗺𝗽𝘁 𝗗𝗲𝘀𝗶𝗴𝗻（提示詞的寫法會改變結果）

使用 GPT-5.5 時，最大的差異來自於你如何編寫提示詞。即使使用相同的模型，根據提示詞的不同，輸出品質也會完全改變。

對於 GPT-5.5，建議使用包含以下 4 個元素的結構化提示詞：

・𝗚𝗼𝗮𝗹 ── 你想要達成的目標

・𝗖𝗼𝗻𝘁𝗲𝘅𝘁 ── 情況或環境

・𝗖𝗼𝗻𝘀𝘁𝗿𝗮𝗶𝗻𝘁𝘀 ── 不該做的事或限制

・𝗗𝗼𝗻𝗲 𝘄𝗵𝗲𝗻 ── 什麼定義了「完成」

範例：

Goal：建立一個使用者註冊 API 端點。

Context：Python + FastAPI + PostgreSQL。INSERT 到現有的 users 資料表。

Constraints：不新增外部函式庫。使用 bcrypt 對密碼進行雜湊處理。必須檢查電子郵件是否重複。

Done when：將 JSON（name, email, password）發送到 POST /users 會建立使用者並回傳 201。重複的電子郵件會回傳 409。

只說「建立一個使用者註冊 API」也可以，但像上面這樣寫可以大幅提高準確度。它可以減少來回溝通，最終速度更快。

選擇推理強度：

・none / low ── 簡單的轉換或例行任務。回應最快。

・medium ── 一般的程式碼編寫或問答（預設）。

・high ── 複雜的演算法設計或除錯。

・xhigh ── 最高難度的 Agent 任務。

成本與強度成正比，所以將所有設定都設為 xhigh 是沒有效率的。選擇適合任務的等級。

■ 𝗗𝗲𝗯𝘂𝗴𝗴𝗶𝗻𝗴 & 𝗧𝗲𝘀𝘁𝗶𝗻𝗴

寫完程式碼之後就是除錯和測試。Codex + GPT-5.5 在這裡也表現出色。

除錯的訣竅是直接傳遞錯誤日誌。

「它不能用」→ NG

「pytest 中發生 RuntimeError。堆疊追蹤：（完整錯誤）。請修復。」→ OK

GPT-5.5 有 1,050,000 個 token 的上下文，所以長日誌也沒問題。事實上，資訊越多越好。

使用 Codex CLI，在專案資料夾中：

codex "調查這個測試為什麼失敗並修復它。確認測試通過。"

Codex 會讀取檔案、執行測試、分析錯誤、修復它，然後自動再次執行測試。這就是「會動手的 AI」的精髓。

你也可以把測試生成交給它：

codex "為 src/auth/register.py 中的 register_user 函數編寫 pytest 測試。包含三種模式：成功、錯誤和驗證。"

它會處理從建立測試檔案到驗證執行的一切。

■ 𝗦𝗲𝗰𝘂𝗿𝗶𝘁𝘆

Codex 具有雙層安全結構。

① 沙箱模式 ── 從技術上限制它「可以做的事」的範圍。使用 workspace-write，它無法觸及工作區之外的任何東西。

② 核准政策 ── 在執行跨越邊界的操作之前，會詢問「我可以這樣做嗎？」。防止意外操作。

Codex Cloud 在 OpenAI 管理的隔離容器中運行，因此無法存取主機系統。本地 CLI/IDE 擴充功能也在作業系統層級被強制進入沙箱。

初學者從 on-request + workspace-write 開始是安全的。

■ 實際應用案例

據報導，85% 的 OpenAI 員工每週使用 Codex。

・財務團隊 ── 使用 Codex 處理了 24,771 份 K-1 稅務文件（71,637 頁）的審查。比前一年提前 2 週完成。

・行銷團隊 ── 自動化了每週業務報告的生成。每週節省 5–10 小時。

・開發者範例 ── 用一個提示詞在單一 HTML 檔案中生成了像素藝術遊戲。自動生成了一個使用 Express.js 的電子商務 CRUD API 及其測試套件。

不僅是編寫程式碼，分析資料、建立報告、整理數據——當前 Codex 的優勢在於「知識工作的自動化」。

■ 總結 ── 從零開始掌握 Codex 的路線圖

以上就是 Codex × GPT-5.5 × gpt-image-2 的全貌。

𝗦𝘁𝗲𝗽 𝟭（理解）── 了解 Codex 是什麼。

→ ChatGPT 是「會說話的 AI」，Codex 是「會動手的 AI」。

𝗦𝘁𝗲𝗽 𝟮（開始）── 下載桌面應用程式並登入。

→ 5 分鐘內開始。不需要終端機。

𝗦𝘁𝗲𝗽 𝟯（基礎）── 使用 4 元素提示詞（Goal / Context / Constraints / Done when）。

→ 不要含糊地寫，養成指定完成條件的習慣。

𝗦𝘁𝗲𝗽 𝟰（實踐）── 傳遞錯誤日誌進行除錯 + 自動生成測試 + IDE 整合。

→ 將 Codex 融入你的開發週期。

𝗦𝘁𝗲𝗽 𝟱（最佳化成本）── 通常使用 GPT-5.4，複雜任務使用 5.5。

→ 利用 Batch 和 Flex 獲得 50% 折扣。

𝗦𝘁𝗲𝗽 𝟲（進階）── 使用 gpt-image-2 進行圖片生成、在 Cloud 中進行並行任務、使用外掛程式進行自動化。

→ 將使用範圍擴展到程式碼編寫之外。

從 Step 2 開始。下載應用程式，登入，然後嘗試一件事。你可以在 5 分鐘內開始。一旦讓它動起來，你就可以邊做邊學剩下的部分。

Codex 仍在進化中。自 2026 年初以來，幾乎每個月都有重大更新。這就是為什麼現在掌握基礎知識並建立一個能夠適應變化的基礎很重要。

給覺得這篇文章有幫助的人：

𝗖𝗼𝗱𝗲𝘅 𝗦𝘁𝘂𝗱𝗶𝗼（@Codestudiopjbk）是一個由三位 Codex 愛好者經營的帳號。

我們每天發布關於 CLI 實際用法和自動化的內容。

我們發布的內容包括：

・使用 GPT-5.5 和 OpenAI Codex 的實際產品開發範例

・Codex 用法 / CLI 自動化 / 開發趨勢

・關於 GPT-5.5 和 Codex 的最新海外資訊

從開發理念到設計、實作和改進，我們彙整第一手和海外資訊，幫助你發布可運作的產品。

如果你有興趣，請追蹤我們！如有開發諮詢，請發送私訊。

使用 YouMind 深度閱讀爆款文章

近期爆款文章

A Guide to Practicing 'Self-Responsibility' Without Breaking Your Spirit

Scaling Laws, Honestly

The Fable Loop Library: 25 Workflows on Autopilot

I Gave My Second Brain 1,500 Conversations and It Changed Everything

Anthropic engineers 8x output. Here's the context engineering system behind it.

Fable 5 Practical Guide: Discovering Your Unknowns