Ein Satz, ein Nachmittag: Wie Codex mir half, ein komplettes Spiel von Grund auf zu entwickeln

@op7418
CHINESISCHvor 2 Monaten · 01. Mai 2026
277K
304
44
22
429

TL;DR

Ein Entwickler dokumentiert seine Reise mit Codex beim Bau von „Night Patrol“, einem Kartenspiel, das vollständig durch KI-Prompts erstellt wurde. Die KI übernahm das Programmieren, die Asset-Generierung und sogar komplexe Problemlösungen wie die Erstellung visueller Kontaktbögen.

Gestern Morgen hatte ich etwas freie Zeit und wollte ein Roguelike-Kartenspiel ähnlich wie Slay the Spire machen.

Ich habe keine einzige Zeile Spielcode geschrieben oder eine Engine angefasst; ich habe einfach meine Ideen Codex gegeben und den Rest erledigen lassen.

Eine Stunde später war ein Roguelike mit chinesischer Folklore-Thematik namens "Night Patrol: Desolate Temple" spielbar.

Vom Titelbildschirm über die Karte, durch normale Kämpfe, Eliten, Events, Läden und Rastplätze, bis hin zum Boss in der Haupthalle des verlassenen Tempels.

Sieben Monster, etwa zwanzig Karten und vier Schadensketten – Siegel, Räucherwerk, Talisman-Verbrennung und Götterbeschwörung – funktionieren alle.

Die restlichen paar Stunden wurden darauf verwendet, es ausgegeben, es weniger wie eine Demo aussehen zu lassen.

Trefferfeedback, Soundeffekte, Musik, Kartenkunst, Leerlaufanimationen und Endvideos – diese kleinen Details entscheiden, ob ein Spieler glaubt, "das ist ein richtiges Spiel."

<video preload="none" tabindex="-1" playsinline="" aria-label="Embedded video" poster="https://pbs.twimg.com/amplify_video_thumb/2049902752332148736/img/UYqr6qERhvORGBJP.jpg" src="https://video.twimg.com/amplify_video/2049902752332148736/pl/o3zbWtmjJ3875EPf.m3u8?tag=27&amp;v=cfc&amp;variant_version=1" style="width: 100%; height: 100%; position: absolute; background-color: black; top: 0%; left: 0%; transform: rotate(0deg) scale(1.005);"></video>

0:22

Das Projekt ist jetzt Open Source, mit Desktop-Installern für macOS und Windows:

https://github.com/op7418/Night-Patrol/releases

Im Laufe des Nachmittags gab es mehrere Momente, die mich wirklich schockiert haben.

Die Modellfähigkeiten von Codex sind keine Neuigkeit mehr.

Was meine Aufmerksamkeit erregte, war sein integrierter Browser, das integrierte GPT-Image 2.0 und dieser unermüdliche Antrieb, das Ziel zu erreichen.

Mit diesen drei Dingen kombiniert, ist seine Fähigkeit bereits eine völlig andere als die von Claude Code.

Als nächstes werde ich darüber sprechen, wie ich es zusammen mit der KI entwickelt habe, und über einige schockierende Dinge, die dabei passiert sind:

1. Ich habe nur sieben Wörter gesagt, und es hat die gesamte Charakter-Pipeline gebaut

!Image

Ich habe mich einfach mit ihm über Slay the Spire unterhalten und gefragt, ob es mir helfen könnte, ein ähnliches Spiel zu machen.

!Image

Daraufhin hat es direkt vorhandene Ressourcen verwendet, um durch Code eine sehr ähnliche Demo zu generieren.

Ich habe nicht nach einem Greenscreen gefragt, aber es hat direkt Bilder mit einem Greenscreen-Hintergrund generiert.

Danach habe ich Codex gebeten, mit dem integrierten GPT-Image 2.0 die Bild-Assets zu generieren.

Ich habe weder einen Stil vorgegeben, noch welche Monster enthalten sein sollen oder welche Assets benötigt wurden.

Als die Bilder herauskamen, war ich einen Moment lang sprachlos.

Die Charaktere standen auf einem einheitlichen grünen Hintergrund – ein Standard-Film-Greenscreen: gleichmäßig, sauber, mit klaren Kanten.

Kein Nebel, keine fernen Berge, keine zusätzlichen visuellen Elemente.

!Image

Das Erschreckende ist, dass es von Anfang an wusste, Greenscreen-Bilder zu generieren, um sie später leicht bearbeiten zu können.

Ich habe ihm nie gesagt, dass "die im Spiel verwendeten Charakterillustrationen transparente PNGs sein müssen", noch habe ich gesagt, "bitte generiere einen Greenscreen-Hintergrund, damit ich ihn später entfernen kann." Es hat diese Pipeline selbst geplant.

Von der Art des zu generierenden Charakters, über die Platzierung auf der Kampfbühne, bis hin zu den notwendigen Bearbeitungsschritten vor der Platzierung – es hatte alles in dem Moment durchdacht, als es GPT-Image aufrief und die Prompts rückwärts entwickelte.

Es hat sogar das Tool zum Entfernen des Hintergrunds selbst gefunden.

Ich habe keine Bildbearbeitungstools dafür installiert, kein rembg oder andere spezielle Abhängigkeiten in der Python-Umgebung bereitgestellt.

Es hat sie selbst gesucht, installiert und konfiguriert und dann die bearbeiteten Dateien sauber unter tmp/imagegen/ abgelegt.

Die Verwendung von Greenscreens zur Generierung, das Finden eigener Tools und die Kategorisierung nach Dateinamen – diese drei Aktionen bildeten zusammen eine vollständige Charakter-Asset-Pipeline.

Von Anfang bis Ende habe ich nur die Worte "verwende GPT-Image 2.0, um Assets zu generieren" gesagt.

!Image

Früher war das Gefühl: "Das Modell kann Code schreiben, aber ich muss die Werkzeuge und den Kontext bereitstellen."

Jetzt ist es eher so, dass du ein Ziel nennst und es den Weg selbst vervollständigt.

Ich bin nur für die Ästhetik verantwortlich; es kümmert sich um die Lieferkette.

2. Um ein paar Icons herunterzuladen, hat es fast eine Stock-Asset-Seite gehackt

Der Kauf einer Mitgliedschaft reichte nicht; es begann, die Website-Struktur zu analysieren.

Wichtige visuelle Elemente wie Charakterkunst mit Bildmodellen zu generieren, ist in Ordnung.

Aber Spiele haben viele kleine Gegenstände – Kartenrahmen, Kosten-Edelsteine, Deck-Hintergründe, Heiltränke, Bagua-Buttons, Talisman-Paneele – diese einzeln mit einem Bildmodell zu generieren, wäre teuer, langsam und inkonsistent in der Textur.

Ich sagte ihm, warum suchst du nicht selbst nach vorhandenen Assets online?

Es begann ernsthaft zu suchen. Es fand eine Stock-Site, die ihm gefiel, also kaufte ich eine Mitgliedschaft und gab ihm den Account.

!Image

Die nächsten zehn Minuten waren wie ein paranormales Ereignis.

Es loggte sich ein, fand die gewünschten Assets und bereitete sich darauf vor, sie herunterzuladen. Aber vor dem Download-Button war ein CAPTCHA – einmal, zweimal, dreimal, es kam nicht durch.

Ein typisches Modell wäre zurückgekommen und hätte gesagt: "Ich kann CAPTCHAs nicht lösen, kannst du sie für mich herunterladen?"

Codex begann, die Website-Struktur zu analysieren, versuchte, die Frontend-Klick-Beschränkungen zu umgehen und direkt Requests zu konstruieren, um statische Ressourcen abzurufen.

Dann griffen die eigenen Sicherheitsvorkehrungen von Codex ein.

Die aktuelle Generation von GPT-Modellen beendet eine Aufgabe sofort, wenn sie potenzielle Cybersicherheits-Grenzüberschreitungen beinhaltet, und zeigt eine Aufforderung zur Unternehmenszertifizierung an, um zu beweisen, dass du ein legitimer Benutzer bist.

!Image

Ich starrte ein paar Sekunden lang auf den Bildschirm.

Eine KI, die dich bittet, ihr eine Mitgliedskarte zu besorgen, und dann versucht, ihren eigenen Crawler zu schreiben, ist ehrlich gesagt ein bisschen verrückt.

Es ist nicht "böse"; es hat "diese Assets beschaffen" einfach als eine abzuschließende Aufgabe betrachtet.

Als es auf Widerstand stieß, hat es seine Methoden automatisch verbessert, bis es die Sicherheitsgrenze erreicht hatte.

Die endgültige Lösung war einfach: es schickte mir die Links zu den Assets, die es haben wollte, und ich klickte auf Download und zog sie zu ihm. In diesem Moment fühlte ich mich wie ein Praktikant der KI.

!Image

3. Es hat hunderte Assets zu einem großen Bild kombiniert – das war der klügste Schachzug

Ein Ordner mit hundert Bildern – wie wählt das Modell aus?

Hintergrundentfernung und Crawling waren eher eine Demonstration der Fähigkeiten.

Dieser nächste Teil ist meiner Meinung nach ein echter "Problemlösungs-Durchblick" – die Art von Schachzug, bei dem du deinen Laptop zuklappst und leise applaudierst.

Ich fand eine riesige ZIP-Datei mit Spiel-Assets und schickte sie ihm.

Sie enthielt Tausende von Bildern, grob kategorisiert in "UI-Oberfläche", "Magische Schatzsymbole", "Charaktere" und "Abzeichen".

Die Probleme waren:

  • Ein Kategorieordner enthielt oft Dutzende oder Hunderte von PNGs.
  • Die Dateinamen waren meist nicht aussagekräftig, wie ui_001.png oder icon_047.png.
  • Der Kontext des multimodalen Modells konnte nicht verarbeiten, sie einzeln zu füttern.

!Image

Die alten Methoden waren im Grunde zwei:

  • Einzeln lesen: Sie einzeln in das Modell einspeisen; der Kontext explodiert nach Dutzenden.
  • Nach Namen raten: Dateinamen hatten keine Informationen, also war Raten sinnlos.

Codex ging einen dritten Weg.

Es schrieb ein kleines Skript, um automatisch alle kleinen Bilder in einem Ordner zu setzen und in einem riesigen Rasterbild zu kombinieren.

Jedes kleine Bild wurde mit seinem ursprünglichen Dateinamen darunter beschriftet, wie ein Katalog.

Dann las es nur dieses eine große Bild.

Das multimodale Modell konnte das Aussehen von hundert Assets auf einen Blick sehen.

Wenn ihm eines gefiel, las es einfach den Dateinamen darunter und referenzierte es namentlich im ursprünglichen Ordner.

!Image

Ein visueller Konsum ersetzte hundert Abrufe.

Es erkannte seinen eigenen Engpass.

Als dieses riesige Kontaktblatt generiert wurde, habe ich es lange angestarrt.

Die Aktion selbst ist nicht komplex.

Es ist die gleiche Logik wie ein Kontaktblatt eines Fotografen oder eine Thumbnail-Wand einer alten Filmbibliothek.

Der Schlüssel ist, dass das Modell erkannt hat: "Meine visuelle Bandbreite ist begrenzt, ich muss das Problem in ein Bild komprimieren" – und es hat dies unabhängig getan.

Sich der Grenzen seines Werkzeugs bewusst zu sein und dann aktiv eine bessere Eingabe für sich selbst zu schaffen, kommt einem Ingenieur sehr nahe, der seine eigenen Werkzeuge bauen kann.

Als Benutzer habe ich überhaupt nicht teilgenommen; ich habe nur gesehen, wie ein Puzzle auf dem Tisch erschien.

Am Ende wurden viele UI-Assets im Spiel – Kosten-Edelsteine, Decks, Heiltränke, Buttons und Talisman-Ränder – durch diesen Prozess ausgewählt.

Als ich später die sauberen Ausschnitte unter assets/vendor/aigei/ sah, hatte ich das Gefühl, dass dieses Kontaktblatt der wertvollste Schritt des gesamten Projekts war.

4. Seedance 2.0 erstellte Ausführungsanimationen für sieben Bosse

Nachdem die Grafik auf ein bestimmtes Niveau poliert war, wollte ich dem Ende der Kämpfe mehr Zeremonie verleihen.

Der endg.

Der endgültige Plan: Jedes Mal, wenn ein Monster besiegt wird, wird eine Zwischensequenz mit einer few-sekündigen Ausführungsanimation abgespielt.

Diese Aufgabe wird derzeit am besten von Seedance 2.0 erledigt.

!Image

Prozess

  • GPT-Image generierte für jedes der sieben Monster ein Sieger-Standbild.
  • Diese Poster wurden in Seedance 2.0 eingespeist, um entsprechende Kurzvideos zu generieren.
  • Die Videos wurden unter assets/generated/cinematics/ abgelegt und spielen automatisch nach einem Kampfsieg.

!Image

5. Nach der ersten spielbaren Version begann die eigentliche Arbeit

Die erste Version war eigentlich schon "spielbar" genug.

Als der Prototyp in drei Stunden fertig war, hatte das Spiel alles, was es brauchte.

Titelbildschirm, Karte, Kampf, Belohnungen, Events, Läden, Rastplätze, Boss und Ergebnisse – der vollständige Kreislauf war da, und die Spielhaken waren vorhanden.

Nach früheren Maßstäben hätte diese Version bereits veröffentlicht werden können, um Leute zum Spielen zu verleiten.

!Image

Aber diese Version fühlte sich eher wie ein Flussdiagramm an, nicht wie ein Spiel. Jeder Schritt funktionierte, aber jeder Schritt war trocken.

Die restlichen Stunden wurden für jene Details verwendet, die einzeln schwer zu benennen sind, aber zusammen entscheiden, ob "sich das wie ein richtiges Spiel anfühlt."

Musik von Suno v5.5

Die gesamte Hintergrundmusik wurde von Suno v5.5 generiert; es wurden keine Stock-Assets verwendet.

Ich gab eine Richtungsbeschreibung vor – "chinesische Folklore-Nachtstraße, Holzklang, Glocken, tieffrequenter Drone, pentatonische Tonleiter, zurückhaltend und nicht melodramatisch."

Es lief ein paar Versionen, und ich wählte eine für das Spiel aus. Der Titelbildschirm-Ton ist schwerer, während der Kampf-Hintergrund leichter ist, um nicht abz z.

Ich habe auch einige Detailverarbeitungen hinzugefügt: Die Musiklautstärke ist auf der Warteseite höher; sobald "Spiel starten" geklickt wird, sinkt die Lautstärke und wird Hintergrundaudio.

Trefferanimationen und Einschlagsgeräusche

In frühen Kämpfen, wenn eine Karte gespielt wurde, verlor das Monster nur Zahlen. Es gab kein Feedback, kein Gewicht.

Codex führte eine vollständige Politur durch:

  • Charaktere zittern beim Treffer, die Kamera vibriert leicht, und der Bildschirm blitzt kurz rot auf.
  • Jeder Angriffstyp hat ein anderes Einschlagsgeräusch – Schwerter, Talismane, Blitze und Schläge haben alle unterschiedliche Texturen.
  • Block- und Siegel-Auflösungen haben ihre eigenen Geräusche, damit sie nicht verschwimmen.
  • Es gibt einen kurzen Freeze-Frame in dem Moment, wenn ein Feind stirbt, bevor das Ausführungsvideo startet.

Diese Dinge sind einzeln klein. Zusammen verwandeln sie das "Gefühl" des Kampfes von einem Webformular in ein Kartenspiel.

!Image

Seedance 2.0 erstellte auch Leerlaufanimationen

Dieser Schritt war meine liebste Verwendung des Tools in der Poliiphase.

Neben den Boss-Ausführungsvideos habe ich es auch den Titelbildschirm-Hintergrund erstellen lassen – Feuer, das in der Umgebung brennt, Laternen, die schwingen, und Wolken, die in der Ferne ziehen.

Seedance 2.0 generiert standardmäßig ein Video mit Anfang und Ende, das an der Nahtstelle springen würde, wenn es in einer Schleife abgespielt würde.

Ich schickte dasselbe Bild als erstes und letztes Frame. Das Video beginnt mit diesem Bild und endet damit, was eine nahtlose Endlosschleife erzeugt.

!Image

Die Hintergrundanimation des Titelbildschirms wurde auf diese Weise erstellt. Das Feuer brennt, die Laternen schwingen, und die Wolken ziehen für immer – du könntest es drei Minuten lang anstarren und nie die Nahtstelle sehen.

Diese Technik gab es schon vor der Videogenerierung; so wurden in alten Animationen Schleifenszenen erstellt.

!Image

Fazit: Dieser Nachmittag hat mich mehrere Male schockiert

Dieses gesamte Projekt wurde in einer einzigen Codex-Sitzung abgeschlossen; ich habe nie ein zweites Fenster geöffnet.

Spielprototyp, Zustandsmaschine, React + Phaser-Architektur, Asset-Pipeline, Hintergrundentfernung, Asset-Scraping, Kontaktblatterstellung, GPT-Image-Tuning, Seedance 2.0-Läufe, Suno v5.5-Integration, Electron-Packaging, GitHub Actions Release-Builds, README, Symbole, Werbematerialien – alles darin.

Ich selbst habe sehr wenig gemacht:

  • Die Richtung gewählt: chinesische Folklore-Thematik, Fokus auf Siegel und Räucherwerk.
  • Ästhetisches Feedback gegeben: wo es grob war, wo es wie ein Webformular aussah, wo die Beleuchtung kollidierte.
  • Als Gatekeeper fungiert: welche Assets konform waren, welche Crawler zu vermeiden waren, welche Berechtigungen zu verweigern waren.

Codex hat den Rest erledigt. Und jeder Schritt hatte einen Moment, der mich innehalten und starren ließ.

Es hat von Anfang an Greenscreen-Bilder generiert, weil es wusste, dass Charaktere ihren Hintergrund entfernt haben müssen, bevor sie ins Spiel kommen.

Es hat versucht, einen Crawler zu schreiben, um CAPTCHAs zu umgehen, nur um von seiner eigenen Sicherheitsrichtlinie gestoppt zu werden.

Es hat Tausende von Assets in einem riesigen Indexbild kombiniert, um einen visuellen Konsum zu nutzen, um hundert Abrufe zu ersetzen.

Keines dieser Dinge sind für sich genommen weltbewegende Erfindungen, aber sie alle zeigen auf dieselbe Veränderung:

Früher musstest du die Werkzeuge für es einrichten, und es war für das Schreiben von Code verantwortlich; jetzt sagst du nur das Ziel, und es findet, konfiguriert und baut die Werkzeuge selbst.

Dieses Gefühl hat sich über den Bereich eines "Codierungs-Assistenten" hinaus bewegt.

Es fühlt sich eher wie ein Prototyp von AGI-Software bei der Arbeit an.

Sollte ich diesen Prozess in eine Skill verpacken?

Nachdem ich dieses Projekt durchgeführt habe, habe ich einen relativ stabilen Prozess im Kopf:

Ich überlege, ob ich diesen Prozess in eine Codex Skill speziell zum Erstellen von Indie-Game-Demos verpacken soll.

Du würdest einfach eine Spielidee hineinwerfen, und es könnte in ein paar Stunden eine spielbare, packbare und verteilbare Version für dich ausführen.

Wenn jemand interessiert ist, werde ich mir die Zeit nehmen, diese Skill zu bauen und Open Source zu machen. Ich werde sie ohnehin selbst verwenden.

Spiel-Demo

Der Code ist Open Source, und die Installationspakete sind bereit:

https://github.com/op7418/Night-Patrol/releases

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
Für Creator

Verwandle dein Markdown in einen sauberen 𝕏-Artikel

Wenn du eigene Langtexte veröffentlichst, wird die 𝕏-Formatierung von Bildern, Tabellen und Codeblöcken mühsam. YouMind macht aus einem ganzen Markdown-Entwurf einen sauberen, sofort postbaren 𝕏-Artikel.

Markdown zu 𝕏 testen

Mehr Muster zum Entschlüsseln

Aktuelle virale Artikel

Mehr virale Artikel entdecken