Uma frase, uma tarde: como o Codex me ajudou a criar um jogo completo do zero

@op7418
CHINÊShá 2 meses · 01/05/2026
277K
304
44
22
429

TL;DR

Um desenvolvedor documenta sua jornada usando o Codex para criar 'Night Patrol', um jogo de cartas desenvolvido inteiramente por meio de prompts de IA. A IA gerenciou a codificação, a geração de recursos e até a resolução de problemas complexos, como a criação de folhas de contato visual.

Ontem de manhã, tive um tempo livre e quis fazer um jogo de cartas roguelike parecido com Slay the Spire.

Não escrevi uma única linha de código de jogo nem toquei em uma engine; apenas joguei minhas ideias no Codex e deixei que ele cuidasse do resto.

Uma hora depois, um roguelike com tema de folclore chinês intitulado "Night Patrol: Desolate Temple" já estava jogável.

Da página inicial ao mapa, passando por batalhas normais, elites, eventos, lojas e descansos, até o chefe no salão principal do Templo Desolado.

Sete monstros, cerca de vinte cartas e quatro cadeias de dano explosivo — Selos, Incenso, Queima de Talismãs e Invocação de Deuses — estão todos funcionais.

As poucas horas restantes foram gastas para fazer com que parecesse menos uma demonstração.

Feedback de acerto, efeitos sonoros, música, arte das cartas, animações de idle e vídeos de finalização — esses pequenos detalhes determinam se um jogador acredita que "isso é um jogo de verdade".

<video preload="none" tabindex="-1" playsinline="" aria-label="Embedded video" poster="https://pbs.twimg.com/amplify_video_thumb/2049902752332148736/img/UYqr6qERhvORGBJP.jpg" src="https://video.twimg.com/amplify_video/2049902752332148736/pl/o3zbWtmjJ3875EPf.m3u8?tag=27&amp;v=cfc&amp;variant_version=1" style="width: 100%; height: 100%; position: absolute; background-color: black; top: 0%; left: 0%; transform: rotate(0deg) scale(1.005);"></video>

0:22

O projeto agora é open-source, com instaladores para desktop tanto para macOS quanto para Windows prontos:

https://github.com/op7418/Night-Patrol/releases

Houve vários momentos ao longo da tarde que realmente me chocaram.

As capacidades do modelo do Codex já não são novidade.

O que chamou minha atenção foi seu navegador integrado, o GPT-Image 2.0 integrado e aquela implacável unidade de execução para alcançar o objetivo.

Com essas três coisas combinadas, sua capacidade já é totalmente diferente do Claude Code.

A seguir, vou falar sobre como desenvolvi isso junto com a IA, e algumas coisas chocantes que aconteceram durante o processo:

1. Eu disse apenas sete palavras, e ele construiu todo o pipeline de personagens

!Image

Apenas conversei com ele sobre Slay the Spire e perguntei se ele poderia me ajudar a fazer um jogo parecido.

!Image

Como resultado, ele usou diretamente recursos existentes para gerar uma demo muito parecida através de código.

Não pedi um fundo verde, mas ele gerou imagens com fundo verde diretamente.

Depois, pedi ao Codex para usar o GPT-Image 2.0 integrado para gerar os assets de imagem.

Não especifiquei um estilo, quais monstros incluir ou quais assets eram necessários.

Quando as imagens saíram, fiquei atordoado por um momento.

Os personagens estavam em um fundo verde sólido — um chroma key padrão de cinema e televisão: uniforme, limpo, com bordas nítidas.

Sem névoa, sem montanhas distantes, sem elementos visuais extras.

!Image

A parte assustadora é que ele sabia desde o início que deveria gerar imagens com fundo verde para facilitar a pós-produção.

Nunca disse a ele que "as ilustrações dos personagens usadas no jogo precisam ser PNGs transparentes", nem disse "por favor, gere um fundo verde para que eu possa removê-lo depois". Ele estava planejando esse pipeline sozinho.

Desde que tipo de personagem gerar, até como posicioná-los no palco de batalha, passando pelo processamento necessário antes do posicionamento — ele pensou em tudo no momento em que chamou o GPT-Image e engenharia reversa dos prompts.

Ele até encontrou a ferramenta de remoção de fundo sozinho.

Não instalei nenhuma ferramenta de processamento de imagem para ele, não dei a ele rembg, nem dependências especiais no ambiente Python.

Ele pesquisou, instalou e configurou tudo sozinho, e então colocou os arquivos processados ordenadamente em tmp/imagegen/.

Usar fundos verdes para geração, encontrar suas próprias ferramentas e categorizar por nome de arquivo — essas três ações juntas formaram um pipeline completo de assets de personagens.

Do início ao fim, eu só disse as palavras "use GPT-Image 2.0 para gerar assets".

!Image

Anteriormente, a sensação era "o modelo pode escrever código, mas eu tenho que fornecer as ferramentas e o contexto".

Agora, é mais como você declarar um objetivo, e ele completa o caminho sozinho.

Eu sou responsável apenas pela estética; ele cuida da cadeia de suprimentos.

2. Para baixar alguns ícones, ele quase hackeou um site de assets pagos

Comprar uma assinatura não foi suficiente; ele começou a analisar a estrutura do site.

Gerar visuais principais como arte de personagens com modelos de imagem é ok.

Mas os jogos têm muitos itens pequenos — bordas de cartas, gemas de custo, fundos de baralho, poções de vida, botões de Bagua, painéis de talismãs — gerar um por um com um modelo de imagem seria caro, lento e inconsistente em textura.

Eu disse a ele: por que você não encontra assets existentes online por conta própria?

Ele começou a pesquisar seriamente. Encontrou um site de assets que gostou, então comprei uma assinatura e dei a conta para ele.

!Image

Os próximos dez minutos foram como um evento paranormal.

Ele fez login, encontrou os assets que queria e se preparou para clicar em download. Mas havia um CAPTCHA antes do botão de download — uma, duas, três vezes, ele não conseguiu passar.

Um modelo típico voltaria e diria: "Não consigo lidar com CAPTCHAs, você pode me ajudar a baixá-los?"

O Codex começou a analisar a estrutura do site, tentando contornar as restrições de clique do front-end e construir requisições diretamente para buscar recursos estáticos.

Então, as próprias salvaguardas de segurança do Codex intervieram.

A geração atual de modelos GPT encerrará imediatamente uma tarefa se ela envolver potencial violação de segurança cibernética, exibindo um prompt para certificação empresarial para provar que você é um usuário legal.

!Image

Fiquei olhando para a tela por alguns segundos.

Uma IA que pede para você ajudá-la a obter um cartão de assinatura e depois tenta escrever seu próprio crawler é, francamente, um pouco louca.

Não é "má"; ela apenas tratou "obter esses assets" como uma tarefa de ciclo fechado que deve ser concluída.

Quando encontrou resistência, atualizou automaticamente seus métodos até atingir a linha vermelha de segurança.

A solução final foi simples: ela me enviou os links dos assets de que gostou, e eu cliquei em download e os arrastei para ela. Naquele momento, me senti como um estagiário da IA.

!Image

3. Ela combinou centenas de assets em uma única imagem grande — este foi o movimento mais brilhante

Uma pasta com cem imagens — como o modelo escolhe?

Remoção de fundo e crawling foram mais demonstrações de capacidade.

Esta próxima parte, acredito, é um verdadeiro "insight para resolução de problemas" — o tipo de movimento que faz você fechar o laptop e aplaudir silenciosamente.

Encontrei um arquivo zip enorme de assets de jogo e o enviei.

Continha milhares de imagens, aproximadamente categorizadas em "Interface de UI", "Ícones de Tesouros Mágicos", "Personagens" e "Distintivos".

Os problemas eram:

  • Uma pasta de categoria geralmente tinha dezenas ou centenas de PNGs.
  • Os nomes dos arquivos eram em sua maioria pouco informativos, como ui_001.png ou icon_047.png.
  • O contexto do modelo multimodal não suportava alimentá-los um por um.

!Image

As formas antigas eram basicamente duas:

  • Ler um por um: Enviá-los individualmente para o modelo; o contexto explode após dezenas.
  • Adivinhar pelo nome: Os nomes dos arquivos não tinham informação, então adivinhar era inútil.

O Codex seguiu um terceiro caminho.

Ele escreveu um pequeno script para diagramar e combinar automaticamente todas as imagens pequenas em uma pasta em uma única imagem de grade gigante.

Cada imagem pequena era rotulada com seu nome de arquivo original abaixo, como um catálogo.

Então ele leu apenas esta imagem grande.

O modelo multimodal podia ver a aparência de cem assets em um único olhar.

Depois que gostava de um, ele apenas lia o nome do arquivo abaixo e o referenciava pelo nome na pasta original.

!Image

Um consumo visual substituiu cem recuperações.

Ele percebeu seu próprio gargalo.

Quando aquela folha de contato gigante foi gerada, fiquei olhando para ela por um longo tempo.

A ação em si não é complexa.

É a mesma lógica de uma folha de contato de fotógrafo ou de uma parede de miniaturas de uma biblioteca de filmes antiga.

O ponto chave é que o modelo percebeu: "Minha largura de banda visual é limitada, preciso comprimir o problema em uma imagem" — e fez isso de forma independente.

Estar ciente das limitações de sua ferramenta e então criar ativamente uma entrada melhor para si mesmo é muito próximo de ser um engenheiro que pode construir suas próprias ferramentas.

Como usuário, não participei de nada; apenas vi um quebra-cabeça aparecer na mesa.

No final, muitos assets de UI no jogo — gemas de custo, baralhos, poções de vida, botões e bordas de talismãs — foram selecionados através desse processo.

Olhando para aqueles cortes limpos em assets/vendor/aigei/ mais tarde, senti que aquela folha de contato foi a etapa mais valiosa de todo o projeto.

4. Seedance 2.0 criou animações de execução para sete chefes

Depois que os visuais foram polidos até um certo nível, quis adicionar um senso de cerimônia ao final das batalhas.

O plano final: toda vez que um monstro é derrotado, uma cutscene é reproduzida com alguns segundos de animação de execução.

Esta tarefa é atualmente melhor tratada pelo Seedance 2.0.

!Image

Processo

  • GPT-Image gerou um freeze-frame de vitória para cada um dos sete monstros.
  • Esses pôsteres foram alimentados no Seedance 2.0 para gerar vídeos curtos correspondentes.
  • Os vídeos foram colocados em assets/generated/cinematics/ e são reproduzidos automaticamente após uma vitória em batalha.

!Image

5. Após a primeira versão jogável, o trabalho real começou

A primeira versão era, na verdade, "jogável" o suficiente.

Quando o protótipo foi concluído em três horas, o jogo tinha tudo o que precisava.

Página inicial, mapa, combate, recompensas, eventos, lojas, descansos, chefe e resultados — o ciclo completo estava lá, e os ganchos de jogabilidade estavam presentes.

Pelos padrões anteriores, esta versão já poderia ser lançada para enganar as pessoas e fazê-las jogar.

!Image

Mas esta versão parecia mais um fluxograma do que um jogo. Cada etapa funcionava, mas cada etapa era seca.

As horas restantes foram gastas naqueles detalhes que são difíceis de nomear individualmente, mas que juntos determinam se "isso parece um jogo de verdade".

Música do Suno v5.5

Toda a música de fundo foi gerada pelo Suno v5.5; nenhum asset de banco de som foi usado.

Dei a ele uma descrição direcional — "estrada noturna de folclore chinês, mokugyo, sinos, drone de baixa frequência, escala pentatônica, contido e não melodramático".

Ele executou algumas versões, e eu escolhi uma para o jogo. O tom da página inicial é mais pesado, enquanto o fundo de batalha é mais leve para não distrair.

!Image

Também adicionei algum processamento de detalhes: o volume da música é mais alto na página de espera; assim que "Iniciar Jogo" é clicado, o volume cai e se torna áudio de fundo.

Animações de acerto e sons de impacto

No combate inicial, quando uma carta era jogada, o monstro apenas perdia números. Não havia feedback, nem peso.

O Codex realizou um polimento completo:

  • Os personagens tremem quando atingidos, a câmera vibra ligeiramente e a tela pisca brevemente em vermelho.
  • Cada tipo de ataque tem um som de impacto diferente — espadas, talismãs, relâmpagos e socos têm texturas diferentes.
  • As resoluções de Bloqueio e Selo têm seus próprios sons para que não se misturem.
  • Há um breve freeze-frame no momento em que um inimigo morre antes de entrar no vídeo de execução.

Essas coisas são pequenas individualmente. Juntas, elas transformam a "sensação" do combate de um formulário web em um jogo de cartas.

!Image

Seedance 2.0 também criou animações de idle

Este passo foi meu uso favorito da ferramenta durante a fase de polimento.

Além dos vídeos de execução do chefe, também mandei criar o fundo da página inicial — fogo queimando no ambiente, lanternas balançando e nuvens fluindo ao longe.

O Seedance 2.0 padrão gera um vídeo com início e fim, que saltaria na emenda se fosse repetido em loop.

Enviei a mesma imagem como o primeiro e o último quadro. O vídeo começa a partir desta imagem e termina nela, criando um loop infinito sem emendas.

!Image

A animação de fundo da página inicial foi criada desta forma. O fogo queima, as lanternas balançam e as nuvens fluem para sempre — você poderia olhar para ela por três minutos e nunca ver a emenda.

Esta técnica existia antes da geração de vídeo; é assim que cenas em loop eram feitas em animações antigas.

!Image

Conclusão: Esta tarde me chocou várias vezes

Todo este projeto foi concluído em uma única sessão do Codex; nunca abri uma segunda janela.

Protótipo de jogabilidade, máquina de estados, arquitetura React + Phaser, pipeline de assets, remoção de fundo, raspagem de assets, criação de folha de contato, ajuste de GPT-Image, execuções do Seedance 2.0, integração com Suno v5.5, empacotamento Electron, builds de Release do GitHub Actions, README, ícones, materiais promocionais — tudo ali.

Eu fiz muito pouco pessoalmente:

  • Escolhi a direção: tema de folclore chinês, foco em Selos e Incenso.
  • Dei feedback estético: onde estava áspero, onde parecia um formulário web, onde a iluminação colidia.
  • Atuei como um guardião: quais assets estavam em conformidade, quais crawlers evitar, quais permissões negar.

O Codex cuidou do resto. E cada etapa teve um momento que me fez parar e olhar fixamente.

Ele gerou imagens com fundo verde desde o início porque sabia que os personagens precisavam ter seus fundos removidos antes de entrar no jogo.

Ele tentou escrever um crawler para contornar CAPTCHAs, só sendo parado por sua própria política de segurança.

Ele combinou milhares de assets em uma única imagem de índice gigante para poder usar um consumo visual para substituir cem recuperações.

Nenhuma dessas coisas são invenções inovadoras por si só, mas todas apontam para a mesma mudança:

Anteriormente, você tinha que configurar as ferramentas para ele, e ele era responsável por escrever código; agora, você apenas declara o objetivo, e ele encontra, configura e constrói as ferramentas sozinho.

Essa sensação foi além do reino de um "assistente de codificação".

Parece mais um protótipo de software AGI em ação.

Devo empacotar este processo em uma Skill?

Depois de executar este projeto, tenho um processo relativamente estável em mente:

Estou pensando em envolver este processo em uma Skill do Codex especificamente para fazer demos de jogos indie.

Você apenas jogaria uma ideia de jogabilidade, e ela poderia executar uma versão jogável, empacotável e distribuível para você em algumas horas.

Se alguém estiver interessado, vou tirar um tempo para construir esta Skill e torná-la open-source. De qualquer forma, vou usá-la eu mesmo.

Demo do Jogo

O código é open-source e os pacotes de instalação estão prontos:

https://github.com/op7418/Night-Patrol/releases

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
Para criadores

Transforme o seu Markdown num artigo 𝕏 impecável

Quando publica os seus próprios textos longos, formatar imagens, tabelas e blocos de código para o 𝕏 é uma dor de cabeça. O YouMind transforma um rascunho completo em Markdown num artigo 𝕏 impecável e pronto a publicar.

Experimente Markdown para 𝕏

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais