Vídeo de IA "Louvre Cat": Un análisis profundo del proceso de creación viral

@Khazix0918
CHINOhace 6 meses · 16 ene 2026
319K
851
209
60
1.4K

TL;DR

Los artistas digitales Hai Xin y A Wen revelan su flujo de trabajo completo para las películas de IA "Louvre Cat", detallando el uso de Suno, Nano Banana y Flow para fusionar el arte clásico con la tecnología moderna.

Anoche, estuve súper, súper feliz de invitar a mis dos buenos amigos e ídolos, Hai Xin y A Wen, a hacer una transmisión en vivo con nosotros.

Vinieron a compartir el proceso completo de creación de su obra de video con IA, "Gato del Louvre".

数字生命卡兹克 - inline image

Me quedé atónito después de escucharlos. Les dije: chicos, realmente lo cuentan todo, sin reservas, compartiéndolo así, sin más...

En serio, esta transmisión en vivo estaba repleta de información práctica. Ni siquiera quise resumirla porque era demasiado. Pasé toda la noche organizando esta transcripción en detalle, combinándola con su presentación en PPT, y ahora, con su autorización, la comparto con todos.

Espero que estas valiosas experiencias puedan brindar algo de inspiración para nuestro uso de la IA y nuestro trabajo creativo.

Después de todo, no hay muchas personas tan talentosas como ellos que estén dispuestas a salir y compartir todo sin reservas.

Todo comienza con la película. Este es el punto de partida.

数字生命卡兹克 - inline image

Ring Hyacinth

@ring_hyacinth

·

15 de noviembre de 2025

Por invitación del Museo de Arte de Pudong, creamos un video promocional oficial para la primera exposición del Louvre en Shanghái usando IA. ¡Esperamos que les guste!

Debut del Museo del Louvre en Shanghái: "Milagros de los Patrones: Obras Maestras del Arte Indio, Iraní y Otomano del Louvre"

Del 13 de diciembre de 2025 al 6 de mayo de 2026, un gran aterrizaje en el Museo de Arte de Pudong.

数字生命卡兹克 - inline image

Anfitrión: Museo del Louvre, Museo de Arte de Pudong

数字生命卡兹克 - inline image

Productor: Grupo Lujiazui

数字生命卡兹克 - inline image

Mostrar más

73 162 992 135K

Estas dos películas me dejaron sin aliento en ese momento.

Arte, esto es verdadero arte.

Esta transmisión en vivo es una charla sin reservas de los dos creadores principales de estas dos películas, Hai Xin y A Wen, sobre "Gato del Louvre".

A continuación, la transcripción de la transmisión en vivo, todo en las voces de Hai Xin y A Wen:

————

Hola a todos, somos Hai Xin y A Wen. Somos artistas digitales y un dúo creativo que trabaja con IA.

Hoy, queremos compartir el proceso completo—desde el concepto hasta el storyboard y la ejecución con herramientas de IA—de los videos promocionales oficiales que produjimos recientemente para el Museo de Arte de Pudong.

Anteriormente, hicimos dos cortometrajes relativamente famosos. El primero fue a principios del año pasado, cuando Beijing Daily nos invitó a crear un promo de civilización urbana para Pekín titulado "El Gato de la Ciudad Prohibida va a Trabajar". Después de completarlo, se difundió muy bien en internet y nos trajo muchas oportunidades, incluyendo una exposición en la Expo de Osaka y ser la película de apertura de la Unidad 9 en el recinto principal de TED 2025.

Durante ese evento de TED, Sam Altman también dio una entrevista en la Unidad 11, así que tuvimos el honor de compartir el mismo escenario por un breve tiempo. Nunca imaginamos que nuestras películas viajarían a países que ni siquiera hemos visitado nosotros mismos.

数字生命卡兹克 - inline image

La segunda película fue el promo de civilización urbana de este año para Pudong, Shanghái, continuando con el tema del "gatito", titulada "Gatito Civilizado Recorre Pudong". Causó bastante revuelo en su lanzamiento, con republicaciones de cuentas oficiales como Shanghai Release y Pudong Civilization, y los datos fueron excelentes.

Fuera de línea, apareció en las pantallas ultra largas del paso subterráneo de la estación de metro de Lujiazui y en la pantalla gigante de Super Brand Mall frente al Perla Oriental, rotando en el área central de Lujiazui. También se reprodujo en el conjunto de 12 pantallas bajo el Perla Oriental. Incluso recibimos un "Premio a la Obra de Comunicación de Alta Calidad en Internet" de la Administración del Ciberespacio de Shanghái. Siempre hemos tenido una serie relacionada con gatitos; se podría decir que somos profesionales haciendo gatos.

A finales de año, el Museo de Arte de Pudong se puso en contacto con nosotros. Estaban organizando una gran exposición oficial del Louvre en Shanghái—la primera exposición a gran escala de este tipo en la ciudad—y querían que creáramos el promo oficial. El museo quería dos cortometrajes para cubrir un largo ciclo de promoción de aproximadamente uno o dos meses.

Finalmente, entregamos dos películas. La primera mitad cuenta la historia de un "gatito blanco de Francia que viene a Shanghái", mientras siembra pistas para la segunda mitad.

La segunda mitad cuenta la historia de un "gato naranja portavoz de Pudong que va al Museo de Arte de Pudong a ver la exposición".

Ambas películas giran en torno a exhibiciones reales para el diseño narrativo. La primera mitad se centra en el Plato del Patrón de Pavo Real. La segunda mitad se centra en la "Estela del Concurso de Poesía". En la segunda mitad, también reprocesamos la música, añadiendo saxofón para una variación de jazz para darle más un sabor a Shanghái.

Después del lanzamiento de las películas, se difundieron en varias plataformas, y los datos de la cuenta de video oficial del museo fueron excelentes. Nuestras propias cuentas recibieron muchos mensajes privados de espectadores diciendo que decidieron ver la exposición gracias a estos dos cortometrajes.

数字生命卡兹克 - inline image

También hay escenarios de reproducción fuera de línea, como las pantallas del Bund, que se repetirán hasta mayo próximo.

A continuación, queremos compartir nuestro proceso creativo completo y algunas ideas, esperando que les sean útiles.

I. Elenco

El primer punto que queremos compartir es el elenco, y por qué finalmente elegimos un gato blanco más un gato naranja.

Aunque decidimos continuar con el tema del gato, hay mucha reflexión detrás de los propios gatos. Inicialmente, partimos de los colores temáticos del Museo de Arte de Pudong. El museo es principalmente blanco y negro, así que nuestro primer pensamiento para un protagonista fue un gato blanco y negro.

La historia en la versión inicial era completamente diferente de la película final. Las exhibiciones centrales no eran el Plato del Pavo Real y la Estela de Poesía; elegimos una pintura al óleo. Establecimos que el gato blanco y negro estaba originalmente durmiendo a los pies del rey en la pintura, luego fue "sacudido" cuando el personal del museo movió la pintura. El gato comienza a explorar el Louvre y finalmente ve las exhibiciones saliendo del Louvre en un camión con destino a Shanghái. El gato blanco y negro decide subirse a una patineta para perseguir el camión, con muchos pequeños eventos emocionantes que ocurren en el camino. Incluso hicimos un demo.

Más tarde abandonamos este plan por varias razones. La más directa fue el largo período de promoción; el museo quería dos películas. Si hacíamos la persecución del camión, la segunda parte parecería una película de carretera después de dividirse, lo que sesgaría el tono y consumiría demasiada energía en la persecución, inconsistente con la vibra de un "promo oficial del museo". Así que descartamos el plan del gato blanco y negro por completo.

Después de que el museo solicitara dos películas, nuestra primera solución intuitiva fue simple: dividir el gato blanco y negro en un gato blanco y un gato negro. Al avanzar, descubrimos que un gato negro se vería demasiado oscuro en la película final y no llamaría la atención. Queríamos que el protagonista fuera "más brillante" para captar la atención del público más rápido, así que ajustamos de "uno negro, uno blanco" a "uno blanco, uno naranja". Además, el gato naranja se relaciona con el papel del gato naranja como portavoz de Shanghái de nuestra película anterior, lo que lo hace más adecuado para la parte de Shanghái. La parte francesa era más adecuada para el gato blanco.

数字生命卡兹克 - inline image

II. Estableciendo el Tono

El segundo punto es establecer el tono.

Decidir primero los elementos visuales y la música, luego avanzar con todos los storyboards.

Al hacer una película, un paso muy necesario es decidir el "tono de la película". El tono consta de dos partes. La primera es cómo se ven los elementos visuales centrales y la sensación de la cinematografía. La segunda es la música. Para un TVC, la música le dice directamente al público cómo sentirse y, a la inversa, guía el ritmo de edición, determinando si los planos son cortes rápidos o lentos.

Este proyecto involucró mucha información: Museo de Arte de Pudong, el Louvre, arte islámico, Shanghái, París, etc.

Primero notamos la "Sala de los Espejos" del Museo de Arte de Pudong y sentimos que el concepto de espejos era perfecto para la estructura. El Louvre y el Museo de Arte de Pudong podrían tener una relación de espejo, al igual que Shanghái y París, y los dos gatitos. Así que inicialmente queríamos hacer una "animación de pantalla dividida", contando París en un lado y Shanghái en el otro, encontrándose finalmente en el Museo de Arte de Pudong.

Hicimos algunos elementos visuales exploratorios tempranos, como el Bund mirando al Museo de Arte de Pudong en la parte superior y el Louvre en la inferior. También hicimos una composición de dos gatos mirando carteles en sus respectivos escritorios.

Más tarde, A Wen hizo una "revisión radical" basada en estos elementos visuales, colocando el "Louvre" en la parte superior y el "Museo de Arte de Pudong" como un reflejo en la parte inferior. La imagen era muy aireada, con una textura cinematográfica, un temperamento elegante y una iluminación realista y brillante. Otro conjunto de elementos visuales se optimizó, moviendo el "cartel" del escritorio al propio edificio para hacer que la información ambiental fuera más natural.

Basándonos en esto, determinamos la atmósfera visual de toda la película.

数字生命卡兹克 - inline image

III. Música

El tercer punto es la música.

Generalmente hacemos la música muy temprano porque determina el ritmo, que a su vez determina el número de planos y la estrategia de edición. Para este proyecto, decidimos que el instrumento principal sería el piano. Hay dos razones. Una es que nos gusta la textura de reflejo de "ondulación de agua" en los elementos visuales de espejo, que nos recuerda a acordes de piano limpios. La otra es que la estructura de cuadrícula de la Sala de los Espejos nos recuerda el orden de un teclado de piano.

Las partituras de cortometrajes narrativos necesitan un "arco"; no pueden tener el mismo ritmo de principio a fin como el ruido blanco. Una historia debe tener un principio, desarrollo, clímax y conclusión, y la música debe tener una estructura correspondiente.

Usamos Suno porque genera música que suena bien y permite un control fino sobre los segmentos. Puedes especificar la duración de cada melodía y decirle claramente qué emoción evocar en un punto determinado, como un giro repentino, tensión o suspenso.

Nuestra estructura musical esta vez fue aproximadamente: la apertura usa acordes de piano muy simples para atraer lentamente al público a la historia. Luego, un segmento sigue al protagonista y al entorno. Después de eso, hay un segmento de transición que crea un pequeño contratiempo para mantener al público mirando. Luego entra en la segunda melodía, que lleva las acciones del protagonista y el clímax. Finalmente, el final—queríamos volver a un hermoso acorde de piano, así que añadimos un outro específicamente.

Una ventaja de Suno es que puedes regenerar infinitamente los segmentos con los que no estés satisfecho. Después de terminar la música francesa, exportamos toda la canción y la subimos de nuevo a Suno para hacer una variación para la parte de Shanghái manteniendo la melodía. Configuramos la Influencia de Audio al 50%, asegurando que la melodía básica permaneciera, luego le dijimos que añadiera saxofón y que sonara como jazz antiguo de Shanghái. Hizo variaciones muy apropiadas sobre la melodía original.

Una vez dio un final bastante exagerado, pero finalmente lo cambiamos de vuelta al final original para mantenerlo más contenido.

Además, publicamos estas partituras en línea bajo la identidad de nuestro gato, Nika. Se considera que Nika es un "músico legendario en el Planeta de los Gatos", e incluye algunas partituras de TVC que hemos hecho para clientes.

数字生命卡兹克 - inline image

IV. Storyboard

A continuación, cómo abordar el storyboard.

Nuestras estéticas personales son muy fuertes, así que esto se trata más de compartir experiencia.

Nuestro requisito básico para el storyboard de apertura es "alta densidad de información".

Intenta insinuar de qué trata la historia en el primer plano. Por ejemplo, el primer plano de "El Gato de la Ciudad Prohibida va a Trabajar" es el gato abriendo los ojos con el reflejo de la Ciudad Prohibida en sus pupilas, explicando rápidamente "gato y Ciudad Prohibida". El comienzo de "Gatito Civilizado Recorre Pudong" es el gato empujando un mapa de Shanghái, explicando rápidamente "gato viene a Shanghái para hacer turismo".

Para la parte del gatito blanco del Louvre, queríamos explicar la historia en tres planos. El primer plano muestra al gato mirando el cartel, plantando el elemento visual clave del "cartel de la exposición" en la mente del público. El segundo plano usa un primer plano para presentar al protagonista. El tercer plano usa un plano general para establecer el entorno mientras muestra la relación de espejo de "Louvre reflejando el Museo de Arte de Pudong".

El storyboard también necesita un sentido del ritmo. El ritmo proviene en gran medida de los cambios en el tamaño del plano. Plano general tras plano general se siente muy monótono, así que alternamos entre planos generales y primeros planos para crear una sensación de expansión y contracción. Si el plano de apertura tiene demasiada información, el público no sabrá dónde mirar en el primer segundo; usamos animación simple para guiar la mirada. La primera mitad usa un método de "correr la cortina", y la segunda mitad también usa un diseño de apertura clásico.

Luego viene la primera parte de la historia, que es una parte central y un conjunto de storyboards con los que estamos muy satisfechos.

El propósito de esta secuencia es mostrar al gato blanco saliendo del Louvre, enamorándose del Plato del Patrón de Pavo Real y teniendo una imaginación fantástica.

Esta secuencia necesita transmitir dos informaciones: el protagonista está en el Louvre y al protagonista le gusta el plato de pavo real.

El primer plano usa una exhibición clásica del Louvre para establecer la ubicación. Elegimos la Victoria de Samotracia, una escultura muy clásica. Deliberadamente no elegimos la Mona Lisa porque es demasiado común y parecería demasiado cliché. En términos de composición, no enfocamos la cámara únicamente en la escultura porque queríamos que el público se centrara en el gato. Así que colocamos la escultura en el fondo como un adorno y usamos un plano contrapicado extremo, haciendo que el gato blanco en primer plano ocupe más volumen en el encuadre, obligando al público a centrarse en el gato mientras aún reconoce instantáneamente "esto es el Louvre".

El segundo plano comienza a introducir sutilmente el arte islámico. Hicimos referencia a un artista famoso en Instagram cuya práctica común es filmar escenas de la vida cotidiana y luego hacer que los símbolos dentro de ellas se muevan.

Esa sensación es maravillosa porque es fantástica pero se siente como algo que podría suceder en la vida real. Inicialmente hicimos una versión más exagerada, como que toda la escena se convirtiera en patrones mientras el gato se desliza, pero luego sentimos que era demasiado movimiento y no se sentía como la vida real, así que lo cambiamos a un plan de cámara fija más contenido, dejando que los patrones de fondo se movieran sutilmente mientras el gato camina.

Probamos muchas versiones: patrones como círculos mágicos, la cámara bajando a un mundo de arte islámico, patrones sobresaliendo de la pantalla, etc. Más tarde nos dimos cuenta de que "interesante" no era suficiente; también necesitábamos una ganancia emocional. Así que usamos un diseño de contraste: comenzando con un plano picado extremo opresivo, y a medida que la cámara se mueve al encuadre final, entra en un enorme espacio abierto, dando al público una sensación de iluminación repentina. En el plano final, los patrones en ambos lados se mueven como una cinta transportadora, llevando al gato a un espacio de exposición abierto.

También hicimos una concesión: sin retratos en los encuadres. Una vez que aparece un retrato humano en el encuadre, el público buscará involuntariamente todos los retratos, y su atención será robada del gato. Queríamos que el público siguiera al gato, así que eliminamos los elementos que roban fácilmente la atención tanto como fue posible para mantener la expresión sutil.

数字生命卡兹克 - inline image

En el diseño del encuadre final de este plano, A Wen realizó una operación muy inteligente: colocar el Plato del Patrón de Pavo Real directamente en el espacio de exposición, dejando que la exhibición central apareciera temprano durante el clímax. Después de determinar el encuadre final, volvimos y rediseñamos el primer encuadre y el movimiento de la cámara, haciendo el plano más controlado.

Después del clímax emocional, necesitábamos añadir un poco de nuevo estímulo. Pensamos en el gato viendo el espacio después de subir, o viendo otra exhibición, pero ninguna fue lo suficientemente conmovedora.

Más tarde pensamos en el gato viendo un pavo real, y el pavo real está vivo. Este punto inmediatamente nos hizo sentir que la obra de arte había cobrado vida. En términos de ritmo, también hicimos una progresión paso a paso: el pavo real primero gira la cabeza, luego el cuerpo, y finalmente abre las alas, guardando la sorpresa para el último segundo.

Después del clímax, necesita volver a la realidad. Usamos una forma muy simple: cortar a un primer plano del gato, como si estuviera imaginando, luego cortar a un plano objetivo que establece la realidad—el gato está realmente parado frente al plato de pavo real mirando la exhibición. El público entonces entiende que el segmento de fantasía provino de la imaginación del gato.

Luego viene el segmento de transición, con el objetivo de explicar que "la exhibición va a Shanghái" y "el gato decide meterse en la caja e irse".

Usamos montaje y procesamiento de pantalla dividida porque puede transmitir mucha información en poco tiempo. Al hacer tales planos, recortamos a las personas tanto como sea posible. En las películas de animales, los rostros humanos roban fácilmente la atención; el público es más propenso a empatizar con las personas, y su atención se desviará, así que solo mantuvimos primeros planos y acciones sin mostrar rostros.

数字生命卡兹克 - inline image

El segundo segmento originalmente iba a tratar sobre lo que le sucede al gato en la caja de carga del avión.

Antes de determinar completamente la trama, usamos Sora para ejecutar algunas muestras para verificar rápidamente el ritmo y la composición, buscando sorpresas y referencias. Después de ejecutarlas, no nos gustaron porque las imágenes no eran aireadas, los colores eran amarillentos, viejos y oscuros, inconsistentes con el tono que establecimos anteriormente. La lógica de la trama tampoco funcionaba porque el gato en la caja no podía ver las exhibiciones afuera, y las exhibiciones también deberían estar en cajas.

Así que descartamos todo el segmento de "asomarse dentro de la caja" y volvimos a centrarnos en la narrativa central: el gato blanco acompañando al plato de pavo real a Shanghái.

Para la llegada a Shanghái, inicialmente queríamos hacer una transición realista de un avión volando del Louvre a Shanghái, y lo ejecutamos con VEO 3. También probamos una microanimación de mapa clásico. Pero estos planes fueron rechazados por nosotros.

Porque un mapa hace que el público se preocupe particularmente por la racionalidad, como si las posiciones de París y Shanghái y la distancia de vuelo son correctas, lo que distrae la atención. También probamos un plan más abstracto de "mapa de puntos de fuego con huellas", pero no nos gustó que el plano fuera demasiado amplio; preferíamos que el público viera el sujeto clave ocupando una porción más grande del encuadre.

Finalmente, decidimos cambiar directamente entre el "primer encuadre del Louvre" y el "primer encuadre del Museo de Arte de Pudong", haciendo la transición más cercana y enfocada.

Probamos muchos tipos de animaciones de transición: como una alfombra desplegándose, azulejos volteándose, imágenes de aviones, etc. Finalmente elegimos el avión porque la imagen del avión apareció en los planos antes y después de la transición. Las imágenes continuas hacen que el público se sienta más cómodo, incluso si salta de realista a un estilo de arte de mosaico en el medio, no será abrupto.

数字生命卡兹克 - inline image

Después de llegar a Shanghái, el storyboard es más directo: primero ver el Museo de Arte de Pudong de lejos a cerca, luego ver al gato corriendo hacia el museo. Nos gusta mucho uno de los planos: el gato corriendo junto al agua, con el reflejo en el agua siendo un pavo real.

Esta idea inicialmente era "más salvaje". Esperábamos que mientras el gato corría, pudiera ver las sombras de muchos animales, como pavos reales, caballos, camellos, etc., trayendo una sensación de que "todo el arte islámico ha llegado a Shanghái junto". Probamos texto a imagen y texto a video, pero ninguno funcionó. También pensamos en el gato viéndose a sí mismo como un tigre en su corazón, con la sombra siendo un tigre, pero esto estaba demasiado débilmente relacionado con la película y se eliminó rápidamente.

Más tarde descubrimos que entregar una creatividad tan central directamente a la IA de una sola vez no es confiable y necesita ser desglosada para su ejecución. Primero dibujamos el storyboard a mano, decidiendo un plano ligeramente picado para que la atención del público caiga naturalmente en el reflejo del lago.

La composición se simplificó a "la sombra del gato es un pavo real", que está más directamente relacionada con la línea principal. Primero usaríamos Photoshop para componer la relación deseada, luego se la entregaríamos al modelo para completar el estilo unificado y la dinámica. Durante todo el proceso, sentimos firmemente que incluso un dibujo a mano tosco es más intuitivo para que la IA lo entienda y para que las personas se comuniquen.

Para el cierre, hicimos eco del concepto de "espejos" nuevamente, terminando con una imagen más contenida y hermosa.

数字生命卡兹克 - inline image

Eso es todo para el storyboard.

A continuación, la parte de arte se la entregamos a A Wen.

V. Arte

Yo (A Wen) hago principalmente dos cosas.

Primero, convertir los storyboards manuscritos de Hai Xin en elementos visuales finales. Segundo, controlar el estilo artístico general.

Después de recibir el proyecto, inmediatamente fuimos a aprender sobre el arte islámico. Es un estilo artístico con el que normalmente tenemos poco contacto, pero es muy distintivo. Después de dominar algunas palabras clave centrales, es fácil crear arte de estilo mosaico con características exóticas. Resumimos 4 palabras clave muy útiles en la transmisión en vivo; las dos más utilizadas son "estilo Iznik" y "arte Mosaico". Aquí, mosaico se refiere al arte Mosaico, que es diferente del arte Pixel.

Tenemos dos principios para hacer películas. Debe verse bien a primera vista y ser duradero en una segunda mirada. En la era de la IA, es algo precioso que un público esté dispuesto a terminar de ver tu cortometraje. Verse bien para nosotros equivale a una sensación cinematográfica. Ser duradero equivale a tantos detalles y detalles creativos como sea posible, incluyendo detalles artísticos.

Todos son en realidad muy sensibles a una sensación cinematográfica. Para la misma imagen y el mismo prompt, con resultados de diferentes modelos, puedes juzgar fácilmente cuál tiene más sensación cinematográfica. Así que el primer paso en el arte es elegir el modelo correcto. Nuestro modelo de generación de imágenes principal actual es básicamente Nano Banana Pro. Para la modificación de imágenes, lo usamos principalmente directamente con modificación de texto, a veces combinado con Photoshop. También ajusto manualmente algunas partes.

Elegir el modelo correcto es tan valioso como elegir el proveedor correcto. Puede hacer el trabajo bien y manejar muchas modificaciones agotadoras. Por ejemplo, había un plano con el que estábamos muy satisfechos, pero después de enviar el primer borrador, el museo dijo que este plano tenía que eliminarse porque haría que mover las exhibiciones pareciera poco profesional, y no querían transmitir esa sensación al público. Narrativamente, necesitábamos este plano para explicar que el gato se esconde en la caja para seguir las exhibiciones a Shanghái. Finalmente, usamos Nano Banana para "envolver" las exhibiciones, haciendo que el manejo pareciera más profesional, y pasó.

Otro ejemplo: el último encuadre de la imagen es muy hermoso, pero notarás que la atención se queda en el trasero del gato blanco durante mucho tiempo; este fue un problema que solo se expuso después de cambiar al gato blanco. La solución fue simple: dejar que la cola cuelgue en el primer encuadre, y no sería un problema al caminar más tarde.

Aún más exagerado fue salvar el día cambiando el gato. Cuando cambiamos al protagonista de un gato negro a un gato blanco a medio camino, muchos fotogramas estáticos y animaciones ya estaban terminados.

Suena escandaloso, pero la IA realmente puede cambiarlo.

En ese momento, las herramientas que podíamos usar eran limitadas, solo la primera generación de Nano Banana, que usualmente usábamos en Google Whisk. Nuestro hábito es una carpeta por plano, así que entramos en cada carpeta una por una para cambiar el color del gato, y lo terminamos todo en un día y medio.

Más tarde, al revisar, salió Banana Pro, y descubrimos que una eficiencia aún más escandalosa estaba por llegar. La IA no solo puede cambiarlo, sino que también puede cambiarlo cada vez más rápido. En plataformas de terceros, puedes subir todos los fotogramas estáticos a la vez y cambiar al protagonista gato negro a un gato blanco con solo una frase, lo que es más eficiente.

数字生命卡兹克 - inline image

Mucha gente pregunta dónde se usa mejor Nano Banana Pro.

Nuestra experiencia es que el propio sistema de membresía de Google tiene bastantes inconvenientes. Hemos comprado la membresía superior Google Ultra desde que se lanzó y la hemos usado hasta ahora. A menudo ves que otros dicen que Google tiene descuentos, como $79 al mes durante tres meses, o un precio semestral, pero al mirar el precio de tu propia suscripción, puede que no cambie en absoluto y siga siendo muy caro, incluso más alto con impuestos.

Otro punto que nos hace muy infelices es que el punto de entrada a 4K no está claro. Algunos dicen que está en Flow, pero la generación predeterminada de Flow es 1K, y solo se super-resuelve a 4K al descargar. No estamos seguros de si es superresolución o 4K nativo. Google AI Studio puede generar 4K de forma más nativa, pero se cobra por separado.

Si eres miembro Ultra como nosotros, aquí tienes nuestro uso más pragmático: usa Flow para la generación rápida tipo gacha porque es rápido con una base de 1K. Usa Gemini para la iteración de múltiples rondas; las rondas de diálogo son muy convenientes. Cuando tengas una buena idea del resultado, puedes ir a AI Studio para obtener 4K nativo.

Además, nuestros prompts son cada vez más simples. La comprensión multimodal del modelo es muy fuerte y, a menudo, no requiere ensayos largos. Por ejemplo, tiraré una imagen, dejaré que extraiga el gato y la mariposa, los pondré sobre un fondo de color sólido y luego lo convertiré en pixel art. Después de estabilizar el estilo, extender los materiales es muy eficiente.

¿Y realmente necesitan los prompts de hoy ser ensayos largos?

Teníamos una toma que necesitaba una vista frontal de una exhibición, pero nadie podía entrar durante el período de montaje; el personal solo podía enviarnos dos instantáneas rápidas desde lejos.

Estas dos ya eran muy valiosas para nosotros, así que las usamos como inteligencia y directamente dejamos que Gemini generara una vista frontal de la exhibición basada en las dos fotos, en 16:9.

El resultado fue muy bueno, y lo usamos para completar la toma final.

Aún más sorprendente fue cuando fuimos al sitio el día de la inauguración y descubrimos que era casi idéntico a la ubicación real. La gente no podía entrar, pero la IA sí.

数字生命卡兹克 - inline image

Cuando un modelo es lo suficientemente potente, no le importa el origen del storyboard. Es decir, a veces le das algunos storyboards bastante descabellados, y puede captar al instante lo que quieres y generar directamente imágenes muy bonitas. Todas estas son imágenes generadas directamente por el modelo usando los storyboards de Hai Xin, y son todas muy buenas.

数字生命卡兹克 - inline image

Pero para la creatividad compleja, debes iterar por etapas.

Tomemos como ejemplo la toma de "el gato caminando por la orilla, con el reflejo en el agua siendo un pavo real".

Primero, entendería la perspectiva del boceto del storyboard.

Estoy acostumbrado a hacer un boceto muy tosco en PPT. Resulta que tenía un PNG transparente de un "actor veterano" gato blanco a mano; ponerlo en el encuadre construye la perspectiva. Luego, tiro este boceto tosco en el modelo para convertirlo en un estilo realista, obteniendo primero una escena básica de "un gato caminando por la orilla con un lago cerca".

El segundo paso es colocar las baldosas. De hecho, usé prompts para colocar baldosas en el suelo de hormigón, probando muchas palabras clave hasta encontrar una versión con la "densidad justa". Después de colocarlas, la imagen tomó forma, pero múltiples iteraciones deformarían la postura del gato, así que dejaba que la IA lo ajustara de nuevo.

El tercer paso es agregar información de la exhibición. La forma más sencilla es superponerla en PS y ajustar el estilo de capa. Pero descubrimos que el reflejo del pavo real en el lago era difícil de animar porque los pavos reales estilizados no se convierten fácilmente en dinámicas realistas. Así que volví a PS, borré el pavo real, lo reemplacé con una sombra de pavo real realista y lo volví a tirar en el modelo para seguir ejecutándolo.

Más tarde, el color del gato tuvo que cambiarse. Después de cambiarlo, descubrí que las baldosas "se comían" al gato blanco, así que volví a colocar las baldosas para obtener el fotograma estático final.

数字生命卡兹克 - inline image

Finalmente, hacer la animación fue en realidad la parte más simple. Por lo general, es salida directa; dos o tres intentos pueden obtener buenas dinámicas, como el gato caminando por la orilla y el reflejo del pavo real en el agua siguiéndolo.

Luego, algo de experiencia en arte sobre la composición de escenas reales.

Hay muchos puntos de referencia y exhibiciones en el cortometraje que no pueden estar equivocados, por lo que necesitamos certeza. Muchas veces componemos al gato sobre puntos de referencia reales existentes.

Ahora este tipo de composición es muy simple; solo le dices a Nano Banana Pro que hay un gato naranja de espaldas a la cámara persiguiendo una mariposa de un color específico en la escena, y puede generarlo.

Dos pequeños consejos para mejorar la tasa de éxito. Primero, recorta antes de generar. Por ejemplo, no necesitábamos las decoraciones en la parte inferior del material del Peace Hotel, así que las recortaba antes de dárselo al modelo. Muchas tomas de interiores son iguales; recorta primero las áreas innecesarias y el modelo se vuelve más enfocado.

Segundo, si necesitas hacer un match cut o reutilizar un sujeto repetidamente, se recomienda extraer primero al gato y la mariposa sobre un fondo de color sólido y luego cambiar varios fondos. Dejar que el modelo cambie constantemente de escena directamente en la misma imagen se come fácilmente a la mariposa, se come al gato o cambia el color del gato. Extraer primero al sujeto y luego cambiar el fondo tiene una tasa de éxito mucho mayor.

数字生命卡兹克 - inline image

Mucha gente pregunta por qué no usamos la referencia de múltiples imágenes para la generación de video.

Con respecto a los productos de video con múltiples referencias, probamos casi todo en el mercado mientras hacíamos estos dos cortometrajes, y el problema de la claridad es difícil de curar; los elementos se vuelven borrosos con el más mínimo movimiento.

Incluso con la nueva función de múltiples referencias lanzada recientemente en Flow, la probamos, y es difícil asegurar que las exhibiciones que queremos permanezcan sin cambios. Tenemos demasiados sujetos estables que mantener, incluyendo múltiples exhibiciones, el gato y la mariposa, por lo que al final, la rutina del primer y último fotograma es más estable.

Muchos amigos también preguntan, ¿todavía es necesario usar PS?

Creo que PS sigue siendo útil, pero lo abrimos cada vez menos. Recomiendo encarecidamente una función que no mucha gente usa, llamada "Harmonize".

Pegas un PNG o imagen en un fotograma estático, haces clic en harmonize, y automáticamente iguala la iluminación ambiental, haciendo que la composición sea más integrada. Por ejemplo, en la toma del plato flotante, hago clic en harmonize, y la diferencia en la iluminación antes y después es muy obvia; la eficiencia es alta.

Al mismo tiempo, Banana Pro es lo suficientemente potente como para que muchas cosas se puedan hacer directamente con él. Por ejemplo, en la película del gato naranja, hay una toma donde primero usé Vidu para generar una vista previa; la claridad no era suficiente y las exhibiciones no eran estables, pero la relación entre el movimiento del gato y las exhibiciones era correcta.

Así que tiré tanto la vista previa como los materiales de la exhibición en Banana Pro, dejando que mantuviera la composición sin cambios y reemplazara las exhibiciones flotantes con estas que proporcioné, permitiendo que aparecieran repetidamente y de manera dispersa. El resultado fue una imagen muy buena en la primera versión, e incluso agregó automáticamente profundidad de campo de primer plano/fondo y desenfoque de movimiento, satisfaciendo básicamente las necesidades de producción.

数字生命卡兹克 - inline image

VI. Animación

Nuestra herramienta de video principal es Flow. Nuestro modelo de video de uso común es VEO 3.1.

Flow también lanzó recientemente una función 4K, que ayuda con la calidad de imagen. Para modelos de video auxiliares, también usamos Kling, Hailuo, Jimeng, Wanxiang, Luma, etc., pero Flow es más conveniente de usar y las imágenes tienen más sensación cinematográfica.

Sentimos que hemos entrado en una era donde podemos "editar video". Muchas herramientas de video pueden editar video directamente. Hay una función oculta en Flow, con un punto de entrada profundo; hay un botón "editar" en la parte superior izquierda del video generado. Una vez dentro, puedes agregar cosas al video, recortar cosas e incluso cambiar la posición y el movimiento de la cámara; es un poco experimental pero a veces útil.

Sus limitaciones también son obvias; por ejemplo, puede agregar y recortar, pero es difícil hacer "editar y reemplazar", como cambiar un gato negro por un gato blanco. Para lograr esto, tienes que eliminar primero y luego insertar, lo que se siente muy torpe.

En Flow, también usamos mucho la función de garabato. El texto puro es difícil para lograr que el gato complete ciertas acciones, como hacer que el gato salte directamente; no pudimos lograrlo ni siquiera después de muchos intentos.

数字生命卡兹克 - inline image

Pero dibujando un garabato en el primer fotograma para dar instrucciones de movimiento, como dónde debería volar la mariposa y el gato siguiéndola, y luego agregando un prompt "sigue las instrucciones en la anotación y luego borra mi anotación", el modelo generará de acuerdo con las reglas de movimiento que anotaste, y el gato puede salir suavemente del encuadre.

Y Ray3 de Luma es inesperadamente útil. Hicimos una prueba en Navidad, subiendo una vista previa muy tosca y agregando un prompt; generó de manera muy hermosa con alta claridad, incluso creando algo de la nada en el video original.

La desventaja es la generación lenta, pero la ventaja es la alta calidad de composición, adecuada para producción.

La nueva función de creación de personajes de Wan 2.6 también vale la pena mencionar. Sus personajes humanos todavía son propensos a salirse del personaje, pero los personajes animales son mucho más emocionantes que los humanos. Subí casualmente un video muy borroso y oscuro de mi gato Nika, y después de construir el personaje, pude usar @ para convocarlo en Wan 2.6; la calidad de generación estaba a un nivel "aprobado por el maestro" y era de muy alta definición. Hicimos que interpretara muchas cosas, como un dinosaurio que viene a rescatarlo. Esta función se lanzó después de que nuestros dos cortometrajes ya se hubieran publicado, lo que fue un poco de mala sincronización.

Otro pequeño consejo: al hacer microanimaciones para la pantalla final, puedes elegir un "modelo ligeramente peor", es decir, un modelo de generación anterior. Las amplitudes de movimiento de la generación anterior suelen ser más pequeñas, lo que a veces es perfecto para la pantalla final. Por ejemplo, para la pantalla final, queremos que el entorno se mueva ligeramente, pero Flow podría agregar muchos patrones imaginados y moverse demasiado.

Usar un modelo de generación anterior en realidad se mueve justo lo necesario. Usé Jimeng 3.0 esta vez, y esa amplitud de micromovimiento fue muy apropiada.

VII. Borradores Descartados

Hubo muchos borradores descartados esta vez, especialmente para el del gato naranja, porque después de que salió Pro, implementar algunas ideas fue rápido y la cantidad de exploración fue mayor. Aquí hay algunos que nos gustaron particularmente pero que eliminamos con dolor.

Uno es el "Hojaldre de Mariposa" que al público de Shanghái le encanta preguntar. El hojaldre de mariposa de Shanghái es muy famoso, y de hecho hicimos un hojaldre de mariposa gigante, y nos gustó mucho la imagen. Pero en la IA, una vez que el hojaldre de mariposa se mueve, se convierte de nuevo en una mariposa real y nunca vuela, así que tuvimos que renunciar a él.

Otro es un punto de control muy popular en el Museo de Arte de Pudong donde puedes fotografiar la Perla Oriental. Hicimos una toma donde una mariposa pega media ala desde fuera de la ventana, y la otra mitad del ala se completa a través de la sombra de la luz solar, formando una mariposa completa. La imagen era hermosa, pero cuando se movía, la mariposa todavía no volaba, así que se eliminó.

Otro fue una toma de la galería de arte islámico del Louvre; inicialmente queríamos hacerla más exagerada, incluso con dinámicas a nivel de tsunami, pero luego sentimos que era demasiado fantástica y no encajaba con la sensación "discreta pero fantástica" que queríamos, así que también se eliminó.

数字生命卡兹克 - inline image

Finalmente

Finalmente, el punto central que queremos transmitir es:

Cuanto más conveniente sea el modelo, más debes esforzarte para hacerlo mejor.

Ahora que los modelos son cada vez más convenientes, muchos creadores tienden a usar agentes para generar directamente conjuntos completos de soluciones de storyboard o dejar que completen más de la creación. Pero lo que queremos decir es que la conveniencia del modelo no debe ser una excusa para la pereza.

Es más como un recordatorio: tienes más capacidad para hacer que tu trabajo sea mejor.

Terminando con una frase que decimos a menudo:

Mientras estés en acción, estás avanzando.

Gracias a todos, nuestra charla de hoy termina aquí.

Si te ha parecido útil, no dudes en reenviarlo a tus amigos para que lo vean; ¡es una gran ayuda para nosotros!

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
Para creadores

Convierte tu Markdown en un artículo de 𝕏 impecable

Cuando publicas tus propios textos largos, dar formato en 𝕏 a imágenes, tablas y bloques de código es un fastidio. YouMind convierte un borrador completo en Markdown en un artículo de 𝕏 impecable y listo para publicar.

Prueba Markdown a 𝕏

Más patrones por descifrar

Artículos virales recientes

Explorar más artículos virales