GPT Image 2 泄露实测：Arena 盲测 vs Nano Banana Pro 深度对比

TL; DR 核心要点

GPT Image 2 以 maskingtape-alpha、gaffertape-alpha、packingtape-alpha 三个代号悄然出现在 Arena 盲测平台，社区实测显示其文字渲染和世界知识能力大幅超越前代

在与 Nano Banana Pro 的盲测对比中，GPT Image 2 在文字准确性、UI 还原度和世界知识方面表现领先，但空间推理（如魔方镜面反射）仍有不足

三个模型已从 LMArena 移除，结合 OpenAI 近期关停 Sora 释放算力的动作，正式发布可能近在咫尺

GPT Image 2 是怎么被发现的？

2026 年 4 月 4 日，独立开发者 Pieter Levels（ @levelsio）在 X 上率先爆料：Arena 盲测平台上出现了三个神秘的图像生成模型，代号分别是 maskingtape-alpha、gaffertape-alpha 和 packingtape-alpha。1 这三个名字听起来像五金店的胶带货架，但生成的图片质量让整个 AI 社区炸了锅。

本文适合正在关注 AI 生图领域最新动态的创作者、设计师和技术爱好者。如果你用过 Nano Banana Pro 或 GPT Image 1.5，这篇文章会帮你快速了解下一代模型的真实水平。

Reddit r/singularity 板块的讨论帖在 24 小时内获得了 366 票和 200+ 条评论，用户 ThunderBeanage 发帖称：“从我的测试来看，这个模型绝对疯狂，远超 Nano Banana。” 2 更关键的线索是：当用户直接询问模型身份时，它自称来自 OpenAI。

图片来源： @levelsio 首发泄露的 GPT Image 2 Arena 盲测截图 *1*

文字渲染：AI 生图最大痛点被攻克？

如果你经常用 AI 生图，一定深有体会：让模型在图片里正确渲染文字，一直是最令人抓狂的难题。拼写错误、字母变形、排版混乱，几乎是所有生图模型的通病。GPT Image 2 在这个方向上的突破，是社区讨论最集中的焦点。

@PlayingGodAGI 分享了两张极具说服力的测试图：一张是人体前侧肌肉解剖图，每一块肌肉、骨骼、神经和血管的标注都达到了教科书级别的精度；另一张是 YouTube 首页截图，UI 元素、视频缩略图和标题文字没有任何失真。3 他在推文中写道：“这消除了 AI 生成图像的最后一个破绽。”

图片来源： @PlayingGodAGI 展示的解剖图与 YouTube 截图对比 *3*

@avocadoai_co 的评价更加直接：“文字渲染简直是疯了（The text rendering is just absolutely insane）。” 4 @0xRajat 也指出：“这个模型的世界知识好得吓人，文字渲染接近完美。如果你用过任何图像生成模型，你就知道这个痛点有多深。” 5

图片来源：日本博主 @masahirochaen 独立测试的网站界面还原效果 *6*

日本博主 @masahirochaen 也进行了独立测试，确认模型在现实世界描写和网站界面还原方面表现出色，甚至日文假名和汉字的渲染也是准确的。6 Reddit 用户同样注意到了这一点，评论称“令我印象深刻的是，汉字和片假名都是有效的”。

盲测对比：GPT Image 2 vs Nano Banana Pro

这是所有人最关心的问题：GPT Image 2 真的超越了 Nano Banana Pro 吗？

@AHSEUVOU15 做了一组直观的三图对比测试，将 Nano Banana Pro、GPT Image 2（来自 A/B 测试）和 GPT Image 1.5 的输出并排展示。7

图片来源： @AHSEUVOU15 的三图对比，从右到左依次为 NBP、GPT Image 2、GPT Image 1.5 *7*

@AHSEUVOU15 的结论比较审慎：“在这个案例中 NBP 仍然更好，但 GPT Image 2 相比 1.5 确实是明显的进步。” 这说明两个模型之间的差距已经非常小，胜负取决于具体的 prompt 类型。

根据 OfficeChai 的深度报道，社区测试发现了更多细节 8：

手表时间渲染： packingtape-alpha 能正确渲染手表上的时间，Nano Banana Pro 则失败

Minecraft 截图： 在以曼哈顿为背景的第一人称 Minecraft 游戏截图测试中，maskingtape-alpha 超越了所有同系列模型和 Nano Banana Pro

世界知识： 投资人 Justine Moore（ @venturetwins）用“普通工程师的屏幕”和“年轻女性与 Sam Altman 自拍”两个 prompt 测试，模型展现了异常强大的世界知识

@socialwithaayan 分享的海滩自拍和 Minecraft 截图进一步印证了这些发现，他总结道：“文字渲染终于能用了，世界知识和真实感是下一个级别。” 9

图片来源： @socialwithaayan 分享的 GPT Image 2 Minecraft 游戏截图生成效果 [9](https://x.com/socialwithaayan/status/2040434305487507475)

短板在哪？空间推理仍是硬伤

GPT Image 2 并非没有弱点。OfficeChai 报道指出，该模型在魔方镜面反射测试（Rubik‘s Cube reflection test）中仍然失败。这是图像生成领域的经典压力测试，要求模型理解三维空间中的镜像关系，准确渲染魔方在镜子中的倒影。

Reddit 用户的反馈也印证了这一点。有人在测试“设计一个能存在于真实生态系统中的全新生物”时发现，模型虽然能生成视觉上极其复杂的图像，但内部的空间逻辑并不总是自洽的。正如一位用户所说：“文本到图像模型本质上是视觉合成器，不是生物模拟引擎。”

此外，36Kr 此前报道的早期盲测版本（代号 Chestnut 和 Hazelnut）曾收到“塑料感太强”的批评。10 不过从最新 tape 系列的社区反馈来看，这个问题似乎已经得到了显著改善。

为什么是现在？Sora 关停后的算力重分配

GPT Image 2 泄露的时间点耐人寻味。2026 年 3 月 24 日，OpenAI 宣布关停上线仅 6 个月的视频生成应用 Sora。迪士尼在公告前不到一小时才得知这个消息，而 Sora 当时每天烧掉约 100 万美元，用户数从峰值的 100 万跌至不到 50 万。

关停 Sora 释放了大量算力。OfficeChai 分析认为，下一代图像模型是这些算力最合理的去向。OpenAI 的 GPT Image 1.5 在 2025 年 12 月已经登顶 LMArena 图像排行榜，超越了 Nano Banana Pro。如果 tape 系列确实是 GPT Image 2，那么 OpenAI 正在图像生成这个“唯一仍有可能实现病毒式大众传播”的消费级 AI 领域加倍押注。

值得注意的是，三个 tape 模型目前已从 LMArena 移除。Reddit 用户认为这可能意味着正式发布即将到来。结合此前流传的路线图，新一代图像模型极有可能与传闻中的 GPT-5.2 同步推出。

如何亲自体验和对比 AI 生图模型

虽然 GPT Image 2 尚未正式上线，但你现在就可以用现有工具做好准备：

关注 Arena 盲测平台： 访问 arena.ai 参与图像模型的盲测投票。新模型可能随时以匿名代号重新上线，你的每一票都在塑造排行榜

横向对比现有模型： 用同一组 prompt 分别测试 Nano Banana Pro、GPT Image 1.5、Seedream 等模型，建立自己的评测基准。重点关注文字渲染、UI 还原、人物细节三个维度

保存和管理你的 prompt 库： 在 YouMind 中，你可以将测试用的 prompt 和生成结果保存到 Board，方便后续对比。YouMind 目前支持 Nano Banana Pro、GPT Image 1.5、Seedream 4.5 等多个生图模型，等 GPT Image 2 正式发布后可以直接在同一平台内切换对比

参考社区 prompt 库： awesome-nano-banana-pro-prompts 提供了 10,000+ 精选 prompt，支持 16 种语言，可以作为你测试新模型的起点

需要注意的是，Arena 盲测中的模型表现可能与正式发布版本存在差异。模型在盲测阶段通常还在调优，最终的参数设置和功能集可能会有变化。

FAQ

Q: GPT Image 2 什么时候正式发布？

A: OpenAI 尚未官方确认 GPT Image 2 的存在。但三个 tape 代号模型已从 Arena 移除，社区普遍认为这是正式发布前 1 到 3 周的信号。结合 GPT-5.2 的发布传闻，最早可能在 2026 年 4 月中下旬上线。

Q: GPT Image 2 和 Nano Banana Pro 哪个更好？

A: 目前的盲测结果显示两者各有优势。GPT Image 2 在文字渲染、UI 还原和世界知识方面领先，Nano Banana Pro 在部分场景下的整体画面质量仍然更优。最终结论需要等正式版发布后进行更大规模的系统测试。

Q: maskingtape-alpha、gaffertape-alpha、packingtape-alpha 有什么区别？

A: 这三个代号可能代表同一模型的不同配置或版本。从社区测试来看，maskingtape-alpha 在 Minecraft 截图等测试中表现最突出，但三者整体水平接近。命名风格与 OpenAI 此前的 gpt-image 系列一致。

Q: 在哪里可以试用 GPT Image 2？

A: 目前 GPT Image 2 尚未公开可用，三个 tape 模型也已从 Arena 移除。你可以关注 arena.ai 等待模型重新上线，或等待 OpenAI 官方发布后通过 ChatGPT 或 API 使用。

Q: AI 生图模型的文字渲染为什么一直是难题？

A: 传统扩散模型在像素级别生成图像，对文字这种需要精确笔画和间距的内容天然不擅长。GPT Image 系列采用自回归架构而非纯扩散模型，能更好地理解文字的语义和结构，因此在文字渲染上取得了突破性进展。

总结

GPT Image 2 的泄露标志着 AI 图像生成领域的竞争进入了新阶段。文字渲染和世界知识这两个长期痛点正在被快速攻克，Nano Banana Pro 不再是唯一的标杆。空间推理仍然是所有模型的共同短板，但进步的速度远超预期。

对于 AI 生图用户来说，现在是建立自己评测体系的最佳时机。用同一组 prompt 跨模型测试，记录每个模型的优势场景，这样当 GPT Image 2 正式上线时，你能在第一时间做出准确判断。

想要系统管理你的 AI 生图 prompt 和测试结果？试试 YouMind，把不同模型的输出保存到同一个 Board，随时对比回顾。

参考资料

[1] @levelsio: OpenAI 新图像模型 GPT-Image-2 泄露

[2] Reddit r/singularity: GPT-IMAGE-2 疑似出现在 LMArena

[3] @PlayingGodAGI：GPT-Image-2 泄露，终结文字渲染缺陷时代

[4] @avocadoai_co:GPT Image 2 文字渲染展示

[5] @0xRajat:GPT Image 2 盲测截图

[6] @masahirochaen:GPT-Image-2 精度测试

[7] @AHSEUVOU15:Nano Banana Pro vs GPT Image 2 vs GPT Image 1.5 三图对比

[8] OfficeChai：三个胶带命名模型在 Arena 引发热议，传闻为 OpenAI 的 GPT-Image 2

[9] @socialwithaayan:GPT Image 2 海滩自拍与 Minecraft 截图

[10] 36Kr:OpenAI 盲测新模型，曝 Altman 要暂停 Sora 死磕 ChatGPT

GPT Image 2 泄露实测：盲测超越 Nano Banana Pro？

GPT Image 2 是怎么被发现的？

文字渲染：AI 生图最大痛点被攻克？

盲测对比：GPT Image 2 vs Nano Banana Pro

短板在哪？空间推理仍是硬伤

为什么是现在？Sora 关停后的算力重分配

如何亲自体验和对比 AI 生图模型

FAQ

总结

参考资料

对这篇文章有疑问？

相关文章

黄仁勋宣布"已实现AGI"：真相、争议与深度解读

AI 虚拟网红崛起：创作者必须知道的趋势与机会

Kling 3.0 实战指南：个人创作者如何做出广告级 AI 视频

黄仁勋宣布"已实现AGI"：真相、争议与深度解读

AI 虚拟网红崛起：创作者必须知道的趋势与机会

Kling 3.0 实战指南：个人创作者如何做出广告级 AI 视频