„Louvre Cat“ KI-Video: Ein tiefer Einblick in den viralen Entstehungsprozess

@Khazix0918
CHINESISCHvor 6 Monaten · 16. Jan. 2026
319K
851
209
60
1.4K

TL;DR

Die Digitalkünstler Hai Xin und A Wen enthüllen ihren vollständigen Workflow für die „Louvre Cat“-KI-Filme und erläutern ihren Einsatz von Suno, Nano Banana und Flow, um klassische Kunst mit moderner Technologie zu verschmelzen.

Gestern Abend war ich super, super glücklich, meine beiden guten Freunde und Vorbilder, Hai Xin und A Wen, zu einem gemeinsamen Live-Stream einzuladen.

Sie kamen, um den gesamten kreativen Prozess ihres KI-Videowerks „Louvre-Katze“ zu teilen.

数字生命卡兹克 - inline image

Ich war nach dem Zuhören sprachlos. Ich sagte, ihr erzählt ja wirklich alles, haltet nichts zurück, teilt es einfach so mit uns...

Im Ernst, dieser Live-Stream war randvoll mit praktischen Informationen. Ich wollte es gar nicht erst zusammenfassen, weil es einfach zu viel war. Ich habe die ganze Nacht damit verbracht, dieses Transkript im Detail zu erstellen, es mit ihrer Präsentations-PPT abzugleichen, und jetzt teile ich es mit eurer aller Genehmigung mit allen.

Ich hoffe, diese wertvollen Erfahrungen können uns allen etwas Inspiration für die Nutzung von KI und unsere kreative Arbeit geben.

Schließlich gibt es nicht viele so talentierte Menschen wie sie, die bereit sind, rauszukommen und alles ohne Vorbehalte zu teilen.

Alles beginnt mit dem Film. Das ist der Ausgangspunkt.

数字生命卡兹克 - inline image

Ring Hyacinth

@ring_hyacinth

·

15. Nov. 2025

Auf Einladung des Pudong Art Museum haben wir mit KI einen offiziellen Werbefilm für die erste Ausstellung des Louvre in Shanghai erstellt. Wir hoffen, er gefällt euch!

Louvre-Museum-Debüt in Shanghai: „Wunder der Muster: Meisterwerke indischer, iranischer und osmanischer Kunst aus dem Louvre“

  1. Dezember 2025 bis 6. Mai 2026, große Ankunft im Pudong Art Museum.
数字生命卡兹克 - inline image

Gastgeber: Louvre-Museum, Pudong Art Museum

数字生命卡兹克 - inline image

Produzent: Lujiazui Group

数字生命卡兹克 - inline image

Mehr anzeigen

73 162 992 135K

Diese beiden Filme haben mich damals wirklich umgehauen.

Kunst, das ist wahre Kunst.

Dieser Live-Stream ist eine kompromisslose Aufteilung der beiden Hauptschöpfer dieser beiden Filme, Hai Xin und A Wen, bezüglich der „Louvre-Katze“.

Im Folgenden finden Sie das Live-Transkript, ganz in den Worten von Hai Xin & A Wen:

————

Hallo zusammen, wir sind Hai Xin und A Wen. Wir sind digitale Künstler und ein kreatives Duo, das mit KI arbeitet.

Heute möchten wir den gesamten Prozess teilen – von der Konzeption über das Storyboarding bis hin zur Ausführung mit KI-Tools – der offiziellen Werbevideos, die wir kürzlich für das Pudong Art Museum erstellt haben.

Wir haben zuvor zwei relativ bekannte Kurzfilme gemacht. Der erste war Anfang letzten Jahres, als uns die Beijing Daily einlud, eine Stadtzivilisations-Werbung für Peking mit dem Titel „Die Verbotene-Stadt-Katze geht zur Arbeit“ zu erstellen. Nach der Fertigstellung verbreitete er sich sehr gut im Internet und brachte viele Gelegenheiten mit sich, darunter eine Ausstellung auf der Osaka Expo und die Eröffnungsfilm für Einheit 9 am Hauptveranstaltungsort der TED 2025.

Während dieser TED-Veranstaltung gab Sam Altman auch ein Interview in Einheit 11, daher waren wir geehrt, für kurze Zeit dieselbe Bühne zu teilen. Wir hätten uns nie träumen lassen, dass unsere Filme in Länder reisen würden, die wir selbst noch nicht besucht haben.

数字生命卡兹克 - inline image

Der zweite Film war die diesjährige Stadtzivilisations-Werbung für Pudong, Shanghai, die das „Kätzchen“-Thema fortsetzt, mit dem Titel „Zivilisiertes Kätzchen tourt durch Pudong“. Er sorgte bei seiner Veröffentlichung für ziemliches Aufsehen, mit Reposts von offiziellen Accounts wie Shanghai Release und Pudong Civilization, und die Daten waren ausgezeichnet.

Offline erschien er auf den ultralangen Bildschirmen im U-Bahn-Unterführung von Lujiazui und dem riesigen Bildschirm im Super Brand Mall gegenüber dem Oriental Pearl Tower, rotierend im Kernbereich von Lujiazui. Er lief auch auf dem 12-Bildschirm-Array unter der Oriental Pearl. Wir erhielten sogar einen „Internet High-Quality Communication Work Award“ von der Stadtverwaltung von Shanghai für Cybersicherheit. Wir hatten schon immer eine Serie rund um Kätzchen; man könnte sagen, wir sind Profis im Katzenmachen.

Am Ende des Jahres kam das Pudong Art Museum auf uns zu. Sie veranstalteten eine große offizielle Louvre-Ausstellung in Shanghai – die erste große Ausstellung dieser Art in der Stadt – und wollten, dass wir den offiziellen Werbespot erstellen. Das Museum wünschte sich zwei Kurzfilme, um einen langen Förderzeitraum von etwa ein bis zwei Monaten abzudecken.

Wir haben letztlich zwei Filme abgeliefert. Die erste Hälfte erzählt die Geschichte eines „weißen Kätzchens aus Frankreich, das nach Shanghai kommt“, während sie Ostereier für die zweite Hälfte platziert.

Die zweite Hälfte erzählt die Geschichte eines „orangefarbenen Katzen-Sprechers für Pudong, der ins Pudong Art Museum geht, um die Ausstellung zu sehen.“

Beide Filme drehen sich um tatsächliche Exponate für das narrative Design. Die erste Hälfte konzentriert sich auf den Pfauenmuster-Teller. Die zweite Hälfte konzentriert sich auf die „Poesie-Wettbewerb-Stele“. In der zweiten Hälfte haben wir auch die Musik neu bearbeitet, Saxophon für eine Jazz-Variation hinzugefügt, um ihr mehr Shanghai-Flair zu verleihen.

Nach der Veröffentlichung verbreiteten sich die Filme auf verschiedenen Plattformen, und die Daten des offiziellen Videokanals des Museums waren großartig. Unsere eigenen Accounts erhielten viele private Nachrichten von Zuschauern, die sagten, sie hätten sich aufgrund dieser beiden Kurzfilme entschieden, die Ausstellung zu sehen.

数字生命卡兹克 - inline image

Es gibt auch Offline-Wiedergabeszenarien, wie die Bildschirme am Bund, die bis nächsten Mai in einer Schleife laufen werden.

Als Nächstes möchten wir unseren gesamten kreativen Prozess und einige Erkenntnisse teilen, in der Hoffnung, dass sie für Sie nützlich sind.

I. Besetzung

Der erste Punkt, den wir teilen möchten, ist die Besetzung und warum wir uns letztendlich für eine weiße Katze plus eine orangefarbene Katze entschieden haben.

Obwohl wir uns entschieden haben, das Katzenthema fortzusetzen, steckt viel Denken hinter den Katzen selbst. Ursprünglich sind wir von den Themenfarben des Pudong Art Museums ausgegangen. Das Museum ist hauptsächlich schwarz und weiß, also war unser erster Gedanke für einen Protagonisten eine Kuhkatze (schwarz und weiß).

Die Geschichte in der ersten Version war völlig anders als der endgültige Film. Die Kernexponate waren nicht die Pfauenplatte und die Poesie-Stele; wir wählten ein Ölgemälde. Wir stellten es so dar, dass die Kuhkatze ursprünglich zu Füßen des Königs im Gemälde schlief und dann „abgeschüttelt“ wurde, als Museumspersonal das Gemälde bewegte. Die Katze beginnt, den Louvre zu erkunden und sieht schließlich die Exponate, die den Louvre in einem Lastwagen nach Shanghai verlassen. Die Kuhkatze beschließt, auf ein Skateboard zu springen, um den Lastwagen zu jagen, wobei viele aufregende kleine Ereignisse auf dem Weg passieren. Wir haben sogar einen Demo gemacht.

Wir haben diesen Plan später aus mehreren Gründen aufgegeben. Der direkteste war der lange Förderzeitraum; das Museum wollte zwei Filme. Wenn wir die Lastwagenjagd gemacht hätten, würde der zweite Teil nach der Teilung wie ein Roadmovie aussehen, was den Ton verzerren und zu viel Energie auf die Jagd verbrauchen würde, was nicht mit der Stimmung eines „offiziellen Museumswerbespots“ übereinstimmt. Also haben wir den Kuhkatzenplan komplett verworfen.

Nachdem das Museum zwei Filme wünschte, war unsere erste intuitive Lösung einfach: Die Kuhkatze in eine weiße Katze und eine schwarze Katze aufteilen. Im weiteren Verlauf stellten wir fest, dass eine schwarze Katze im endgültigen Film zu dunkel erscheinen und nicht ins Auge fallen würde. Wir wollten, dass der Protagonist „heller“ ist, um die Aufmerksamkeit des Publikums schneller zu erregen, also passten wir von „einer schwarzen, einer weißen“ zu „einer weißen, einer orangefarbenen“ an. Auch die orangefarbene Katze spiegelt die Rolle der orangefarbenen Katze als Shanghai-Sprecher aus unserem vorherigen Film wider, was sie für den Shanghai-Teil geeigneter macht. Der französische Teil war besser für die weiße Katze geeignet.

数字生命卡兹克 - inline image

II. Festlegung des Tons

Der zweite Punkt ist die Festlegung des Tons.

Entscheiden Sie sich zuerst für die Bilder und die Musik, dann gehen Sie mit allen Storyboards voran.

Bei der Erstellung eines Films ist ein sehr notwendiger Schritt die Entscheidung des „Filmtons“. Der Ton besteht aus zwei Teilen. Der erste ist, wie die Kernbilder aussehen und das Gefühl der Kinematografie. Der zweite ist die Musik. Bei einem TVC sagt die Musik dem Publikum direkt, wie es sich fühlen soll, und bestimmt umgekehrt den Schnittrhythmus, d. h., ob Aufnahmen schnell oder langsam geschnitten werden.

Dieses Projekt beinhaltete viele Informationen: Pudong Art Museum, den Louvre, islamische Kunst, Shanghai, Paris usw.

Wir bemerkten zuerst den „Spiegelsaal“ des Pudong Art Museum und fanden, dass das Konzept der Spiegel für die Struktur perfekt sei. Der Louvre und das Pudong Art Museum könnten eine Spiegelbeziehung haben, ebenso wie Shanghai und Paris und die beiden Kätzchen. Also wollten wir ursprünglich einen „Split-Screen-Film“ machen, der auf der einen Seite Paris und auf der anderen Seite Shanghai zeigt, die sich schließlich im Pudong Art Museum treffen.

Wir haben einige frühe explorative Bilder gemacht, wie den Bund, der oben auf das Pudong Art Museum und unten auf den Louvre blickt. Wir haben auch eine Komposition von zwei Katzen gemacht, die an ihren jeweiligen Schreibtischen auf Poster schauen.

Später führte A Wen eine „radikale Überarbeitung“ basierend auf diesen Bildern durch, indem er den „Louvre“ oben und das „Pudong Art Museum“ als Spiegelung unten platzierte. Das Bild war sehr luftig, mit einer filmischen Textur, elegantem Temperament und realistischer, heller Beleuchtung. Eine andere Reihe von Bildern wurde optimiert, indem das „Poster“ vom Schreibtisch auf das Gebäude selbst verlegt wurde, um die Umgebungsinformationen natürlicher zu machen.

Darauf aufbauend bestimmten wir die visuelle Atmosphäre des gesamten Films.

数字生命卡兹克 - inline image

III. Musik

Der dritte Punkt ist die Musik.

Wir machen Musik im Allgemeinen sehr früh, weil sie den Rhythmus bestimmt, der die Anzahl der Aufnahmen und die Schnittstrategie bestimmt. Für dieses Projekt entschieden wir, dass das Hauptinstrument das Klavier sein soll. Dafür gibt es zwei Gründe. Einer ist, dass wir die „Wasserwellen“-Spiegelungstextur in den gespiegelten Bildern mögen, die uns an saubere Klavierakkorde erinnert. Der andere ist, dass die Gitterstruktur des Spiegelsaals uns an die Ordnung einer Klaviertastatur erinnert.

Narrative Kurzfilm-Partituren brauchen einen „Bogen“; sie können nicht von Anfang bis Ende den gleichen Rhythmus wie weißes Rauschen haben. Eine Geschichte muss einen Anfang, eine Entwicklung, einen Höhepunkt und einen Schluss haben, und die Musik muss eine entsprechende Struktur haben.

Wir haben Suno verwendet, weil es gut klingende Musik erzeugt und eine feine Kontrolle über Segmente ermöglicht. Sie können die Länge jeder Melodie angeben und ihm klar sagen, welche Emotion es an einem bestimmten Punkt hervorrufen soll, wie eine plötzliche Wendung, Spannung oder Suspense.

Unsere Musikstruktur war diesmal ungefähr wie folgt: Der Anfang verwendet sehr einfache Klavierakkorde, um das Publikum langsam in die Geschichte zu ziehen. Dann folgt ein Segment, das den Protagonisten und die Umgebung begleitet. Danach gibt es ein Übergangssegment, das einen kleinen Rückschlag erzeugt, um das Publikum bei der Stange zu halten. Dann geht es in die zweite Melodie über, die die Handlungen des Protagonisten und den Höhepunkt trägt. Schließlich das Ende – wir wollten zu einem schönen Klavierakkord zurückkehren, also haben wir speziell einen Outro hinzugefügt.

Ein Vorteil von Suno ist, dass Sie Segmente, mit denen Sie unzufrieden sind, unbegrenzt neu generieren können. Nachdem wir die französische Musik fertiggestellt hatten, exportierten wir das gesamte Lied und luden es zurück zu Suno hoch, um eine Variation für den Shanghai-Teil zu erstellen, während wir die Melodie beibehielten. Wir setzten den Audio-Einfluss auf 50 %, um sicherzustellen, dass die Grundmelodie erhalten blieb, und sagten ihm dann, es solle Saxophon hinzufügen und es wie alten Shanghai-Jazz klingen lassen. Es machte sehr passende Variationen der ursprünglichen Melodie.

Es gab einmal ein ziemlich übertriebenes Ende, aber wir änderten es schließlich zurück zum ursprünglichen Ende, um es zurückhaltender zu halten.

Außerdem veröffentlichen wir diese Partituren online unter der Identität unserer Katze, Nika. Nika gilt als „legendärer Musiker auf dem Katzenplaneten“, und es enthält einige TVC-Partituren, die wir für Kunden gemacht haben.

数字生命卡兹克 - inline image

IV. Storyboarding

Als Nächstes kommt die Frage, wie man an das Storyboarding herangeht.

Unsere persönliche Ästhetik ist sehr stark ausgeprägt, daher geht es hier mehr darum, Erfahrungen zu teilen.

Unsere grundlegende Anforderung an das Eröffnungs-Storyboard ist „hohe Informationsdichte“.

Versuchen Sie, in der allerersten Einstellung anzudeuten, worum es in der Geschichte geht. Zum Beispiel ist die erste Einstellung von „Verbotene-Stadt-Katze geht zur Arbeit“ die Katze, die ihre Augen öffnet, mit der Spiegelung der Verbotenen Stadt in ihren Pupillen, was schnell „Katze und Verbotene Stadt“ erklärt. Der Beginn von „Zivilisiertes Kätzchen tourt durch Pudong“ ist die Katze, die eine Karte von Shanghai aufschiebt, was schnell erklärt: „Katze kommt zum Tourismus nach Shanghai.“

Für den Teil mit dem weißen Louvre-Kätzchen wollten wir die Geschichte innerhalb von drei Aufnahmen erklären. Die erste Aufnahme zeigt die Katze, die auf das Poster schaut, und pflanzt das Schlüsselbild des „Ausstellungsplakats“ im Kopf des Publikums. Die zweite Aufnahme verwendet eine Nahaufnahme, um den Protagonisten vorzustellen. Die dritte Aufnahme verwendet eine Totale, um die Umgebung zu etablieren, während die Spiegelbeziehung „Louvre spiegelt Pudong Art Museum“ gezeigt wird.

Storyboarding braucht auch ein Gefühl für Rhythmus. Rhythmus kommt weitgehend von Änderungen der Einstellungsgröße. Totale nach Totale wirkt sehr eintönig, also schneiden wir hin und her zwischen Totalen und Nahaufnahmen, um ein Gefühl von Ausdehnung und Kontraktion zu erzeugen. Wenn die Eröffnungsaufnahme zu viele Informationen enthält, weiß das Publikum in der ersten Sekunde nicht, wohin es schauen soll; wir verwenden einfache Animationen, um das Auge zu führen. Die erste Hälfte verwendet eine „Vorhang zurückziehen“-Methode, und die zweite Hälfte verwendet auch ein klassisches Eröffnungsdesign.

Dann kommt der erste Teil der Geschichte, der ein Kernteil und eine Reihe von Storyboards ist, mit denen wir sehr zufrieden sind.

Der Zweck dieser Sequenz ist es, die weiße Katze zu zeigen, die den Louvre verlässt, sich in die Pfauenmusterplatte verliebt und eine fantastische Vorstellung hat.

Diese Sequenz muss zwei Informationen vermitteln: Der Protagonist ist im Louvre, und der Protagonist mag die Pfauenplatte.

Die erste Einstellung verwendet ein klassisches Louvre-Exponat, um den Ort zu etablieren. Wir wählten die Geflügelte Siegesgöttin von Samothrake, eine sehr klassische Skulptur. Wir haben bewusst nicht die Mona Lisa gewählt, weil sie zu gewöhnlich ist und zu klischeehaft wirken würde. In Bezug auf die Komposition haben wir die Kamera nicht ausschließlich auf die Skulptur gerichtet, weil wir wollten, dass sich das Publikum auf die Katze konzentriert. Also platzierten wir die Skulptur im Hintergrund als Verzierung und verwendeten eine extreme Untersicht, sodass die weiße Katze im Vordergrund mehr Volumen im Bild einnimmt, was das Publikum zwingt, sich auf die Katze zu konzentrieren, während es immer noch sofort erkennt: „Das ist der Louvre.“

Die zweite Einstellung beginnt, islamische Kunst subtil einzuführen. Wir bezogen uns auf einen auf Instagram bekannten Künstler, dessen gängige Praxis darin besteht, Alltagsszenen zu filmen und dann die Symbole darin zum Leben zu erwecken.

Dieses Gefühl ist wunderbar, weil es fantastisch ist und sich dennoch so anfühlt, als könnte es im wirklichen Leben passieren. Wir haben zunächst eine übertriebenere Version gemacht, wie die ganze Szene, die sich in Muster verwandelt, während die Katze vorbeirutscht, aber später fanden wir, dass es zu viel Bewegung war und sich nicht wie das wirkliche Leben anfühlte, also änderten wir es zu einem zurückhaltenderen Plan mit fester Kamera, wobei wir die Hintergrundmuster subtil bewegen ließen, während die Katze vorbeigeht.

Wir haben viele Versionen ausprobiert: magische kreisförmige Muster, die Kamera, die in eine islamische Kunstwelt hinunterschwenkt, Muster, die aus dem Bildschirm herausragen, usw. Später erkannten wir, dass „interessant“ nicht ausreichte; wir brauchten auch emotionalen Gewinn. Also verwendeten wir ein Kontrastdesign: Beginnend mit einer bedrückenden extremen Aufsicht, und während sich die Kamera zur Endbild bewegt, gelangt sie in einen riesigen offenen Raum, der dem Publikum ein Gefühl plötzlicher Erleuchtung gibt. In der letzten Einstellung bewegen sich die Muster auf beiden Seiten wie ein Förderband und bringen die Katze in einen offenen Ausstellungsraum.

Wir haben auch einen Kompromiss gemacht: keine Porträts in den Bildern. Sobald ein menschliches Porträt im Bild erscheint, sucht das Publikum unwillkürlich nach allen Porträts, und ihre Aufmerksamkeit wird von der Katze abgelenkt. Wir wollten, dass das Publikum der Katze folgt, also entfernten wir Elemente, die leicht die Show stehlen, so weit wie möglich, um den Ausdruck subtil zu halten.

数字生命卡兹克 - inline image

Im Endbild-Design dieser Einstellung führte A Wen eine sehr clevere Operation durch: Er platzierte die Pfauenmusterplatte direkt im Ausstellungsraum, sodass das Kernexponat während des Höhepunkts früh erscheint. Nachdem wir das Endbild bestimmt hatten, gingen wir zurück und entwarfen das erste Bild und die Kamerabewegung neu, wodurch die Einstellung kontrollierter wurde.

Nach dem emotionalen Höhepunkt mussten wir ein wenig neue Stimulation hinzufügen. Wir dachten daran, dass die Katze den Raum sieht, nachdem sie hochgegangen ist, oder ein anderes Exponat sieht, aber nichts war berührend genug.

Später dachten wir daran, dass die Katze einen Pfau sieht und der Pfau lebendig ist. Dieser Punkt ließ uns sofort fühlen, dass das Kunstwerk zum Leben erwacht war. In Bezug auf den Rhythmus haben wir auch eine schrittweise Progression gemacht: Der Pfau dreht zuerst den Kopf, dann den Körper und breitet schließlich die Flügel aus, wobei die Überraschung für die letzte Sekunde aufgespart wird.

Nach dem Höhepunkt muss es zur Realität zurückkehren. Wir verwendeten eine sehr einfache Methode: Rückschnitt zu einer Nahaufnahme der Katze, als ob sie sich etwas vorstellt, dann Schnitt zu einer objektiven Einstellung, die die Realität etabliert – die Katze steht tatsächlich vor der Pfauenplatte und schaut sich das Exponat an. Das Publikum versteht dann, dass das Fantasy-Segment aus der Vorstellungskraft der Katze stammt.

Dann kommt das Übergangssegment, das erklären soll, dass „das Exponat nach Shanghai geht“ und „die Katze beschließt, in die Kiste zu steigen und mitzukommen“.

Wir verwendeten Montage und Split-Screen-Verarbeitung, weil sie in kurzer Zeit viele Informationen vermitteln können. Bei solchen Aufnahmen schneiden wir die Menschen so weit wie möglich heraus. In Tierfilmen stehlen menschliche Gesichter leicht die Show; das Publikum identifiziert sich eher mit Menschen, und ihre Aufmerksamkeit wird abgelenkt, also behielten wir nur Nahaufnahmen und Aktionen bei, ohne Gesichter zu zeigen.

数字生命卡兹克 - inline image

Das zweite Segment sollte ursprünglich darum gehen, was mit der Katze in der Flugzeugfrachtbox passiert.

Bevor wir die Handlung vollständig festlegten, verwendeten wir Sora, um einige Proben zu laufen lassen, um Rhythmus und Komposition schnell zu überprüfen und nach Überraschungen und Referenzen zu suchen. Nachdem wir sie laufen ließen, gefiel es uns nicht, weil die Bilder nicht luftig waren, die Farben gelblich, alt und dunkel waren, nicht im Einklang mit dem zuvor festgelegten Ton. Auch die Handlungslogik funktionierte nicht, weil die Katze in der Box die Exponate draußen nicht sehen konnte und die Exponate auch in Boxen sein sollten.

Also verwarfen wir das gesamte Segment „Spähen in die Box“ und verlagerten den Fokus zurück auf die Kerngeschichte: die weiße Katze, die die Pfauenplatte nach Shanghai begleitet.

Für die Ankunft in Shanghai wollten wir ursprünglich einen realistischen Übergang eines Flugzeugs machen, das vom Louvre nach Shanghai fliegt, und ließen es mit VEO 3 laufen. Wir probierten auch eine klassische Karten-Mikro-Animation. Aber diese Pläne wurden von uns alle abgelehnt.

Weil eine Karte das Publikum besonders um Rationalität besorgt macht, z. B. ob die Positionen von Paris und Shanghai und die Flugstrecke korrekt sind, was die Aufmerksamkeit ablenkt. Wir probierten auch einen abstrakteren „Feuerpunkt-Karte mit Fußabdrücken“-Plan, aber wir mochten die Einstellung nicht, die zu weit war; wir bevorzugten, dass das Publikum das Hauptmotiv sieht, das einen größeren Teil des Bildes einnimmt.

Schließlich entschieden wir, direkt zwischen dem „Louvre-Erstbild“ und dem „Pudong Art Museum-Erstbild“ zu wechseln, wodurch der Übergang näher und fokussierter wurde.

Wir testeten viele Arten von Übergangsanimationen: wie einen Teppich, der sich entrollt, umklappende Fliesen, Flugzeugbilder usw. Wir wählten schließlich das Flugzeug, weil das Flugzeugbild in den Aufnahmen vor und nach dem Übergang erschien. Kontinuierliche Bilder lassen das Publikum sich wohler fühlen, selbst wenn es in der Mitte von realistisch zu einem Mosaik-Kunststil springt, wird es nicht abrupt sein.

数字生命卡兹克 - inline image

Nach der Ankunft in Shanghai ist das Storyboarding direkter: zuerst das Pudong Art Museum von fern nach nah sehen, dann die Katze sehen, die auf das Museum zuläuft. Wir mögen eine der Aufnahmen sehr: die Katze, die am Wasser entlangläuft, mit der Spiegelung im Wasser als Pfau.

Diese Idee war anfangs „wilder“. Wir hofften, dass die Katze, während sie läuft, die Schatten vieler Tiere sehen kann, wie Pfauen, Pferde, Kamele usw., was das Gefühl hervorruft, dass „die gesamte islamische Kunst gemeinsam in Shanghai angekommen ist“. Wir probierten Text-zu-Bild und Text-zu-Video, aber nichts funktionierte. Wir dachten auch daran, dass die Katze sich selbst als Tiger in ihrem Herzen sieht, wobei der Schatten ein Tiger ist, aber dies war zu schwach mit dem Film verbunden und wurde schnell entfernt.

Wir fanden später heraus, dass es unzuverlässig ist, eine so kreative Kernaufgabe direkt auf einmal an KI zu übergeben und sie in Teilschritten ausgeführt werden muss. Wir zeichneten zuerst das Storyboard von Hand und entschieden uns für eine leicht erhöhte Kameraperspektive, sodass die Aufmerksamkeit des Publikums natürlich auf die Seespiegelung fällt.

Die Komposition wurde vereinfacht auf „der Schatten der Katze ist ein Pfau“, was am direktesten mit der Haupthandlung zusammenhängt. Wir würden zuerst mit Photoshop die gewünschte Beziehung zusammenstellen und sie dann dem Modell übergeben, um den einheitlichen Stil und die Dynamik zu vervollständigen. Während des gesamten Prozesses hatten wir stark das Gefühl, dass selbst eine grobe Handzeichnung für KI intuitiver zu verstehen und für Menschen zu kommunizieren ist.

Für den Abschluss griffen wir erneut das Konzept der „Spiegel“ auf und endeten mit einem zurückhaltenderen und schöneren Bild.

数字生命卡兹克 - inline image

Das war es fürs Storyboarding.

Als Nächstes wird der Kunstteil an A Wen übergeben.

V. Kunst

Ich (A Wen) mache hauptsächlich zwei Dinge.

Erstens, die Storyboard-Manuskripte von Hai Xin in endgültige Bilder umwandeln. Zweitens, den gesamten Kunststil kontrollieren.

Nach Erhalt des Projekts haben wir uns sofort über islamische Kunst informiert. Es ist ein Kunststil, mit dem wir normalerweise wenig zu tun haben, aber er ist sehr unverwechselbar. Nachdem wir einige Kernbegriffe beherrschten, ist es einfach, Mosaik-Kunst mit exotischen Merkmalen zu erstellen. Wir haben im Live-Stream 4 sehr nützliche Schlüsselwörter zusammengefasst; die beiden am häufigsten verwendeten sind „Iznik-Stil“ und „Mosaik-Kunst“. Mosaik bezieht sich hier auf Mosaik-Kunst, die sich von Pixelkunst unterscheidet.

Wir haben zwei Prinzipien für die Erstellung von Filmen. Es muss auf den ersten Blick gut aussehen und bei zweitem Hinsehen haltbar sein. Im KI-Zeitalter ist es eine wertvolle Sache, dass ein Publikum bereit ist, Ihren Kurzfilm zu Ende zu schauen. Gut auszusehen bedeutet für uns ein filmisches Gefühl. Haltbar bedeutet so viele Details und kreative Details wie möglich, einschließlich Kunst-Details.

Jeder ist tatsächlich sehr empfindlich gegenüber einem filmischen Gefühl. Für dasselbe Bild und denselben Prompt mit Ergebnissen verschiedener Modelle können Sie leicht beurteilen, welches mehr filmisches Gefühl hat. Der erste Schritt in der Kunst ist also die Wahl des richtigen Modells. Unser aktuelles Hauptbildgenerierungsmodell ist im Grunde Nano Banana Pro. Für Bildmodifikationen verwenden wir es meist direkt mit Textmodifikationen, manchmal in Kombination mit Photoshop. Ich feine auch manuell einige Teile nach.

Die Wahl des richtigen Modells ist so wertvoll wie die Wahl des richtigen Anbieters. Es kann die Arbeit gut erledigen und viele mühsame Modifikationen bewältigen. Zum Beispiel gab es eine Einstellung, mit der wir sehr zufrieden waren, aber nach Einreichung des ersten Entwurfs sagte das Museum, diese Einstellung müsse entfernt werden, weil sie den Transport der Exponate unprofessionell aussehen ließe, und sie wollten dem Publikum dieses Gefühl nicht vermitteln. Erzählerisch brauchten wir diese Einstellung, um zu erklären, dass die Katze sich in der Kiste versteckt, um den Exponaten nach Shanghai zu folgen. Schließlich verwendeten wir Nano Banana, um die Exponate zu „verpacken“, wodurch der Transport professioneller aussah, und es wurde genehmigt.

Ein weiteres Beispiel: Das letzte Bild ist sehr schön, aber Sie werden feststellen, dass die Aufmerksamkeit für eine lange Zeit auf dem Hintern der weißen Katze verweilt; dies war ein Problem, das erst nach dem Wechsel zur weißen Katze zutage trat. Die Lösung war einfach: Lassen Sie den Schwanz im ersten Bild herunterhängen, und es wird kein Problem sein, wenn er später hochläuft.

Noch extremer war die Rettung des Tages durch das Ändern der Katze. Als wir den Protagonisten mitten im Prozess von einer schwarzen auf eine weiße Katze umstellten, waren viele Standbilder und Animationen bereits fertig.

Es klingt verrückt, aber KI kann es wirklich ändern.

Zu dieser Zeit waren die Werkzeuge, die wir verwenden konnten, begrenzt, nur die erste Generation von Nano Banana, die wir normalerweise in Googles Whisk verwendeten. Unsere Gewohnheit ist ein Ordner pro Einstellung, also gingen wir nacheinander in jeden Ordner, um die Farbe der Katze zu ändern, und machten alles in anderthalb Tagen fertig.

Später, bei der Überprüfung, kam Banana Pro heraus, und wir stellten fest, dass noch extremere Effizienz bevorstand. KI kann es nicht nur ändern, sondern es auch immer schneller ändern. Auf Drittanbieterplattformen können Sie alle Standbilder auf einmal hochladen und mit nur einem Satz den schwarzen Katzenprotagonisten in eine weiße Katze ändern, was effizienter ist.

数字生命卡兹克 - inline image

Viele fragen, wo Nano Banana Pro am besten eingesetzt wird.

Unsere Erfahrung zeigt, dass Googles eigenes Mitgliedschaftssystem einige Fallstricke hat. Wir haben die Top-Tier-Google-Ultra-Mitgliedschaft seit ihrem Start und nutzen sie bis heute. Man hört oft, dass Google Rabatte anbietet, wie 79 $ pro Monat für drei Monate oder einen Halbjahrespreis, aber wenn man auf den eigenen Abopreis schaut, ändert sich der vielleicht gar nicht und bleibt sehr teuer, sogar noch höher mit Steuern.

Ein weiterer Punkt, der uns sehr unglücklich macht, ist, dass der 4K-Einstiegspunkt unklar ist. Manche sagen, es sei in Flow, aber Flows Standardgenerierung ist 1K und skaliert nur beim Herunterladen auf 4K hoch. Wir sind uns nicht sicher, ob das Hochskalierung oder natives 4K ist. Google AI Studio kann nativer 4K ausgeben, wird aber separat abgerechnet.

Wenn du wie wir ein Ultra-Mitglied bist, hier unsere pragmatischere Herangehensweise: Flow für schnelle Gacha-artige Generierung nutzen, weil es mit einer 1K-Basis schnell ist. Gemini für mehrfache Iterationen verwenden; die Dialogrunden sind sehr praktisch. Wenn du ein gutes Gefühl für das Ergebnis hast, kannst du zu AI Studio für natives 4K gehen.

Außerdem werden unsere Prompts immer einfacher. Das multimodale Verständnis des Modells ist sehr stark und erfordert oft keine langen Aufsätze. Zum Beispiel werfe ich ein Bild rein, lasse es die Katze und den Schmetterling extrahieren, setze sie auf einen einfarbigen Hintergrund und verwandle das Ganze in Pixel-Art. Nachdem der Stil stabilisiert ist, ist das Erweitern des Materials sehr effizient.

Und brauchen Prompts heutzutage wirklich lange Aufsätze?

Wir hatten eine Einstellung, die eine Frontansicht eines Exponats benötigte, aber während der Aufbauphase konnte niemand hinein; das Personal konnte uns nur zwei schnelle Schnappschüsse von weitem schicken.

Diese beiden waren für uns schon sehr wertvoll, also haben wir sie als Ausgangsmaterial genutzt und Gemini direkt angewiesen, basierend auf den beiden Fotos eine Frontansicht des Exponats im 16:9-Format zu generieren.

Das Ergebnis war sehr gut, und wir haben damit die finale Einstellung umgesetzt.

Noch überraschender war, als wir am Eröffnungstag vor Ort waren und feststellten, dass es fast identisch mit dem tatsächlichen Ort war. Menschen konnten sich nicht hineinzwängen, aber die KI schon.

数字生命卡兹克 - inline image

Wenn ein Modell leistungsstark genug ist, ist ihm der Ursprung des Storyboards egal. Das heißt, manchmal gibst du ihm ziemlich ausgefallene Storyboards, und es versteht sofort, was du willst, und generiert direkt einige sehr schöne Visualisierungen. Das sind alles Visualisierungen, die das Modell direkt mit Hai Xins Storyboards ausgegeben hat, und sie sind alle sehr gut.

数字生命卡兹克 - inline image

Aber für komplexe Kreativität muss man in Etappen iterieren.

Nehmen wir das Beispiel der Einstellung „die Katze läuft am Ufer entlang, mit dem Spiegelbild eines Pfaus im Wasser".

Zuerst würde ich die Perspektive der Storyboard-Skizze verstehen.

Ich bin es gewohnt, in PPT eine sehr grobe Skizze zu bauen. Ich hatte zufällig ein transparentes PNG einer weißen Katze als „alter Hase" zur Hand; wenn ich es in den Rahmen setze, ergibt sich die Perspektive. Dann werfe ich diese grobe Skizze in das Modell, um sie in einen realistischen Stil zu verwandeln, und erhalte zuerst eine einfache Szene „eine Katze läuft am Ufer entlang, mit einem See in der Nähe".

Der zweite Schritt ist das Verlegen der Bodenfliesen. Ich habe tatsächlich Prompts verwendet, um Betonboden mit Fliesen zu versehen, und viele Schlüsselwörter ausprobiert, bis ich eine Version mit der „genau richtigen Dichte" gefunden habe. Nachdem sie verlegt waren, nahm das Bild Gestalt an, aber mehrere Iterationen verformten die Haltung der Katze, also ließ ich die KI sie erneut anpassen.

Der dritte Schritt ist das Hinzufügen von Ausstellungsinformationen. Der einfachste Weg ist, sie in PS zu überlagern und den Ebenenstil anzupassen. Aber wir stellten fest, dass sich das Pfauen-Spiegelbild im See schwer in Bewegung versetzen ließ, weil stilisierte Pfauen nicht leicht in realistische Dynamiken umgewandelt werden können. Also ging ich zurück zu PS, löschte den Pfau, ersetzte ihn durch einen realistischen Pfauenschatten und warf ihn zurück ins Modell, um es weiterlaufen zu lassen.

Später musste die Farbe der Katze geändert werden. Nach der Änderung stellte ich fest, dass die Bodenfliesen die weiße Katze „verschluckt" hatten, also verlegte ich die Bodenfliesen erneut, um den finalen statischen Frame zu erhalten.

数字生命卡兹克 - inline image

Schließlich war die Animation eigentlich der einfachste Teil. Normalerweise ist es direkte Ausgabe; zwei oder drei Versuche können gute Dynamiken liefern, wie die Katze, die am Ufer entlangläuft, und der Pfau im Wasser, der ihr folgt.

Dann noch etwas Erfahrung aus der Kunst bezüglich der Compositing von realen Szenen.

Es gibt viele Wahrzeichen und Exponate im Kurzfilm, die nicht falsch sein dürfen, also brauchen wir Sicherheit. Oft setzen wir die Katze auf reale, existierende Wahrzeichen.

Diese Art von Compositing ist jetzt sehr einfach; du sagst Nano Banana Pro einfach, dass es eine orange Katze gibt, die mit dem Rücken zur Kamera einem Schmetterling einer bestimmten Farbe hinterherjagt, und es generiert es.

Zwei kleine Tipps zur Verbesserung der Erfolgsquote. Erstens: Beschneiden vor dem Generieren. Zum Beispiel brauchten wir die Dekorationen am unteren Rand des Peace-Hotel-Materials nicht, also schnitt ich sie aus, bevor ich es dem Modell gab. Viele Innenaufnahmen sind genauso; schneide zuerst unnötige Bereiche aus, und das Modell wird fokussierter.

Zweitens: Wenn du einen Match Cut machen oder ein Motiv wiederholt verwenden möchtest, empfiehlt es sich, zuerst die Katze und den Schmetterling auf einem einfarbigen Hintergrund zu extrahieren und dann verschiedene Hintergründe zu ändern. Das Modell ständig Szenen direkt im selben Bild wechseln zu lassen, frisst leicht den Schmetterling, frisst die Katze oder ändert die Farbe der Katze. Das Motiv zuerst zu extrahieren und dann den Hintergrund zu ändern, hat eine viel höhere Erfolgsquote.

数字生命卡兹克 - inline image

Viele fragen, warum wir keine Multi-Image-Referenz für die Videogenerierung verwenden.

Was Multi-Reference-Videoprodukte angeht, haben wir bei der Erstellung dieser beiden Kurzfilme fast alles auf dem Markt ausprobiert, und das Schärfeproblem ist schwer zu beheben; Elemente werden bei der geringsten Bewegung unscharf.

Selbst mit der neuen Multi-Reference-Funktion, die kürzlich bei Flow eingeführt wurde, haben wir es versucht, und es ist schwer sicherzustellen, dass die gewünschten Exponate unverändert bleiben. Wir haben zu viele stabile Motive zu erhalten, darunter mehrere Exponate, die Katze und den Schmetterling, daher ist am Ende die Routine mit erstem und letztem Frame stabiler.

Viele Freunde fragen auch: Braucht man PS noch?

Ich denke, PS ist immer noch nützlich, aber wir öffnen es immer seltener. Ich empfehle sehr eine Funktion, die nicht viele Leute nutzen, namens „Harmonize".

Du fügst ein PNG oder Bild in einen statischen Frame ein, klickst auf Harmonize, und es passt automatisch die Umgebungsbeleuchtung an, wodurch das Compositing integrierter wirkt. Zum Beispiel bei der Einstellung mit der schwebenden Platte klicke ich auf Harmonize, und der Unterschied in der Beleuchtung davor und danach ist sehr deutlich; die Effizienz ist hoch.

Gleichzeitig ist Banana Pro leistungsstark genug, dass viele Dinge direkt damit erledigt werden können. Zum Beispiel gibt es im Orangenen-Katzen-Film eine Einstellung, bei der ich zuerst Vidu verwendet habe, um eine Vorschau zu generieren; die Schärfe reichte nicht aus, und die Exponate waren nicht stabil, aber die Beziehung zwischen der Bewegung der Katze und den Exponaten stimmte.

Also warf ich sowohl die Vorschau als auch die Exponatmaterialien in Banana Pro, ließ es die Komposition unverändert lassen und die schwebenden Exponate durch diese von mir bereitgestellten ersetzen, sodass sie wiederholt und verstreut erscheinen konnten. Das Ergebnis war ein sehr gutes Bild in der ersten Version, und es fügte sogar automatisch Vorder-/Hintergrund-Tiefenschärfe und Bewegungsunschärfe hinzu, was im Grunde den Produktionsanforderungen entsprach.

数字生命卡兹克 - inline image

VI. Animation

Unser Hauptvideotool ist Flow. Unser häufig verwendetes Videomodell ist VEO 3.1.

Flow hat kürzlich auch eine 4K-Funktion eingeführt, die die Bildqualität verbessert. Als unterstützende Videomodelle verwenden wir auch Kling, Hailuo, Jimeng, Wanxiang, Luma usw., aber Flow ist bequemer zu bedienen, und die Bilder haben eher ein filmisches Gefühl.

Wir haben das Gefühl, in eine Ära eingetreten zu sein, in der man „Videos bearbeiten" kann. Viele Videotools können Videos direkt bearbeiten. Es gibt eine versteckte Funktion in Flow, mit einem tiefen Einstiegspunkt; es gibt einen „Bearbeiten"-Button oben links im generierten Video. Wenn man hineingeht, kann man dem Video Dinge hinzufügen, Dinge herausschneiden und sogar die Kameraposition und -bewegung ändern; es ist ein bisschen experimentell, aber manchmal nützlich.

Die Einschränkungen sind auch offensichtlich; zum Beispiel kann es hinzufügen und herausschneiden, aber es ist schwer, „Bearbeiten und Ersetzen" durchzuführen, wie eine schwarze Katze in eine weiße zu verwandeln. Um das zu erreichen, muss man zuerst entfernen und dann einfügen, was sich sehr umständlich anfühlt.

In Flow nutzen wir auch oft die Kritzel-Funktion. Reiner Text reicht nicht aus, um die Katze bestimmte Aktionen ausführen zu lassen, wie zum Beispiel, dass die Katze direkt hinüberspringt; wir haben es nach vielen Versuchen nicht hinbekommen.

数字生命卡兹克 - inline image

Aber indem man im ersten Frame eine Kritzelzeichnung macht, um Bewegungsanweisungen zu geben, wie wohin der Schmetterling fliegen soll und die Katze ihm folgt, und dann einen Prompt hinzufügt: „Befolge die Anweisungen in der Annotation und lösche dann meine Annotation", generiert das Modell gemäß den von dir annotierten Bewegungsregeln, und die Katze kann fließend aus dem Bild laufen.

Und Lumas Ray3 ist überraschend nützlich. Wir haben zu Weihnachten einen Test gemacht, eine sehr grobe Vorschau hochgeladen und einen Prompt hinzugefügt; es generierte sehr schön mit hoher Schärfe und erschuf sogar etwas aus dem Nichts im Originalvideo.

Der Nachteil ist die langsame Generierung, aber der Vorteil ist die hohe Compositing-Qualität, geeignet für die Produktion.

Wan 2.6s neue Funktion zur Charaktererstellung ist ebenfalls erwähnenswert. Seine menschlichen Charaktere neigen immer noch dazu, aus dem Charakter zu fallen, aber Tierfiguren sind viel aufregender als Menschen. Ich habe zufällig ein sehr verschwommenes und dunkles Video meiner Katze Nika hochgeladen, und nachdem ich den Charakter erstellt hatte, konnte ich @ verwenden, um ihn in Wan 2.6 zu beschwören; die Generierungsqualität war auf einem „meisterhaft genehmigten" Niveau und sehr hochauflösend. Wir ließen es viele Dinge tun, wie zum Beispiel einen Dinosaurier, der zur Rettung kommt. Diese Funktion wurde eingeführt, nachdem unsere beiden Kurzfilme bereits veröffentlicht waren, was ein etwas ungünstiges Timing war.

Ein weiterer kleiner Tipp: Wenn man Mikroanimationen für den Abspann erstellt, kann man ein „etwas schlechteres Modell" wählen, d.h. ein Modell der vorherigen Generation. Die Bewegungsamplituden der vorherigen Generation sind normalerweise kleiner, was manchmal genau richtig für den Abspann ist. Zum Beispiel möchten wir beim Abspann, dass sich die Umgebung leicht bewegt, aber Flow könnte viele erfundene Muster hinzufügen und sich zu stark bewegen.

Ein Modell der vorherigen Generation bewegt sich tatsächlich genau richtig. Ich habe diesmal Jimeng 3.0 verwendet, und diese Mikrobewegungsamplitude war sehr passend.

VII. Verworfene Entwürfe

Es gab diesmal viele verworfene Entwürfe, besonders beim Orangenen-Katzen-Film, denn nachdem Pro herauskam, war die Umsetzung einiger Ideen schnell, und der Erkundungsumfang war größer. Hier sind ein paar, die wir besonders mochten, aber schmerzhaft gelöscht haben.

Einer ist der „Schmetterlings-Blätterteig", nach dem das Shanghai-Publikum gerne fragt. Shanghais Schmetterlings-Blätterteig ist sehr berühmt, und wir haben tatsächlich einen riesigen Schmetterlings-Blätterteig gemacht, und die Optik gefiel uns sehr. Aber in KI verwandelt sich der Schmetterlings-Blätterteig, sobald er sich bewegt, zurück in einen echten Schmetterling und fliegt nie, also mussten wir ihn aufgeben.

Ein weiterer ist ein sehr beliebter Foto-Spot im Pudong Art Museum, wo man den Oriental Pearl fotografieren kann. Wir machten eine Einstellung, bei der ein Schmetterling einen halben Flügel von außen durchs Fenster steckt, und die andere Hälfte des Flügels wird durch den Schatten des Sonnenlichts vervollständigt, sodass ein kompletter Schmetterling entsteht. Die Optik war schön, aber als es sich bewegte, flog der Schmetterling immer noch nicht, also wurde es gelöscht.

Ein weiterer war eine Einstellung der Islamischen Kunstgalerie des Louvre; wir wollten sie anfangs übertriebener machen, sogar mit tsunamiartiger Dynamik, aber später fanden wir es zu fantastisch und nicht passend für das „dezent, aber fantastisch" Gefühl, das wir wollten, also wurde es ebenfalls gelöscht.

数字生命卡兹克 - inline image

Abschließend

Zum Schluss der Kernpunkt, den wir vermitteln möchten:

Je bequemer das Modell, desto mehr solltest du dich anspornen, es besser zu machen.

Da Modelle jetzt immer bequemer werden, neigen viele Kreative dazu, Agenten zu nutzen, um ganze Storyboard-Lösungen direkt auszugeben oder sie mehr von der Kreation erledigen zu lassen. Aber was wir sagen wollen, ist, dass Bequemlichkeit des Modells keine Ausrede für Faulheit sein sollte.

Es ist eher eine Erinnerung: Du hast mehr Fähigkeiten, deine Arbeit besser zu machen.

Enden mit einem Satz, den wir oft sagen:

Solange du in Aktion bist, bewegst du dich vorwärts.

Vielen Dank an alle, unser heutiger Beitrag endet hier.

Wenn du ihn nützlich fandest, leite ihn gerne an deine Freunde weiter, damit sie einen Blick darauf werfen; das ist eine große Hilfe für uns!

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
Für Creator

Verwandle dein Markdown in einen sauberen 𝕏-Artikel

Wenn du eigene Langtexte veröffentlichst, wird die 𝕏-Formatierung von Bildern, Tabellen und Codeblöcken mühsam. YouMind macht aus einem ganzen Markdown-Entwurf einen sauberen, sofort postbaren 𝕏-Artikel.

Markdown zu 𝕏 testen

Mehr Muster zum Entschlüsseln

Aktuelle virale Artikel

Mehr virale Artikel entdecken