Video de IA "Louvre Cat": Un análisis profundo del proceso de creación viral

Anoche, estuve súper, súper feliz de invitar a mis dos buenos amigos e ídolos, Hai Xin y A Wen, a hacer una transmisión en vivo con nosotros.

Vinieron a compartir el proceso completo de creación de su obra de video con IA, "Louvre Cat".

Me quedé atónito después de escucharlos. Les dije: ustedes realmente lo cuentan todo, sin reservas, así nomás lo comparten...

En serio, esta transmisión en vivo estuvo cargada de muchísima información práctica. Ni siquiera quise resumirla porque era demasiado. Pasé toda la noche organizando esta transcripción en detalle, emparejándola con su presentación en PPT, y ahora, con su autorización, la comparto con todos.

Espero que estas valiosas experiencias puedan brindar algo de inspiración para nuestro uso de la IA y nuestro trabajo creativo.

Después de todo, no hay muchas personas tan talentosas como ellos que estén dispuestas a salir y compartir todo sin reservas.

Todo comienza con la película. Este es el punto de partida.

Ring Hyacinth

@ring_hyacinth

15 de noviembre de 2025

Por invitación del Museo de Arte de Pudong, creamos un video promocional oficial para la primera exposición del Louvre en Shanghái usando IA. ¡Espero que les guste!

Debut del Museo del Louvre en Shanghái: "Milagros de los Patrones: Obras Maestras del Arte Indio, Iraní y Otomano del Louvre"

Del 13 de diciembre de 2025 al 6 de mayo de 2026, un gran aterrizaje en el Museo de Arte de Pudong.

Anfitrión: Museo del Louvre, Museo de Arte de Pudong

Productor: Grupo Lujiazui

73 162 992 135K

Estas dos películas fueron realmente impresionantes para mí en ese momento.

Arte, esto es verdadero arte.

Esta transmisión en vivo es una charla sin reservas de los dos creadores principales de estas dos películas, Hai Xin y A Wen, sobre "Louvre Cat".

A continuación, la transcripción de la transmisión en vivo, todo en las voces de Hai Xin y A Wen:

————

Hola a todos, somos Hai Xin y A Wen. Somos artistas digitales y un dúo creativo que trabaja con IA.

Hoy, queremos compartir todo el proceso, desde el concepto hasta el storyboard y la ejecución con herramientas de IA, de los videos promocionales oficiales que produjimos recientemente para el Museo de Arte de Pudong.

Anteriormente, hicimos dos cortometrajes relativamente famosos. El primero fue a principios del año pasado, cuando el Beijing Daily nos invitó a crear un promocional de civilización urbana para Pekín titulado "El Gato de la Ciudad Prohibida va a Trabajar". Después de completarlo, se difundió muy bien en internet y trajo muchas oportunidades, incluyendo una exposición en la Expo de Osaka y ser la película de apertura de la Unidad 9 en el recinto principal de TED 2025.

Durante ese evento de TED, Sam Altman también dio una entrevista en la Unidad 11, así que tuvimos el honor de compartir el mismo escenario por un breve tiempo. Nunca imaginamos que nuestras películas viajarían a países que ni siquiera hemos visitado nosotros mismos.

La segunda película fue el promocional de civilización urbana de este año para Pudong, Shanghái, continuando con el tema del "gatito", titulado "Gatito Civilizado Recorre Pudong". Causó bastante revuelo en su lanzamiento, con republicaciones de cuentas oficiales como Shanghai Release y Pudong Civilization, y los datos fueron excelentes.

Fuera de línea, apareció en las pantallas ultra largas del paso subterráneo de la estación de metro de Lujiazui y en la pantalla súper grande del Super Brand Mall frente a la Torre Perla Oriental, rotando en el área central de Lujiazui. También se reprodujo en la matriz de 12 pantallas debajo de la Perla Oriental. Incluso recibimos un "Premio al Trabajo de Comunicación de Alta Calidad en Internet" de la Administración del Ciberespacio de Shanghái. Siempre hemos tenido una serie relacionada con gatitos; se podría decir que somos profesionales haciendo gatos.

A finales de año, el Museo de Arte de Pudong se puso en contacto con nosotros. Estaban organizando una gran exposición oficial del Louvre en Shanghái, la primera exposición a gran escala de este tipo en la ciudad, y querían que creáramos el promocional oficial. El museo quería dos cortometrajes para cubrir un ciclo de promoción largo de aproximadamente uno o dos meses.

Finalmente, entregamos dos películas. La primera mitad cuenta la historia de un "gatito blanco de Francia que llega a Shanghái", mientras siembra pistas para la segunda mitad.

La segunda mitad cuenta la historia de un "gato naranja, portavoz de Pudong, que va al Museo de Arte de Pudong a ver la exposición".

Ambas películas giran en torno a exhibiciones reales para el diseño narrativo. La primera mitad se centra en el Plato del Patrón de Pavo Real. La segunda mitad se centra en la "Tableta del Concurso de Poesía". En la segunda mitad, también reprocesamos la música, añadiendo saxofón para una variación de jazz para darle más un sabor a Shanghái.

Después de que se lanzaron las películas, se difundieron en varias plataformas, y los datos del video oficial del museo fueron excelentes. Nuestras propias cuentas recibieron muchos mensajes privados de espectadores diciendo que decidieron ver la exposición gracias a estos dos cortometrajes.

También hay escenarios de reproducción fuera de línea, como las pantallas del Bund, que se repetirán hasta mayo próximo.

A continuación, queremos compartir nuestro proceso creativo completo y algunas ideas, esperando que les sean útiles.

I. Elección del Elenco

El primer punto que queremos compartir es la elección del elenco, y por qué finalmente elegimos un gato blanco más un gato naranja.

Aunque decidimos continuar con el tema del gato, hay mucha reflexión detrás de los propios gatos. Inicialmente, partimos de los colores temáticos del Museo de Arte de Pudong. El museo es principalmente blanco y negro, así que nuestro primer pensamiento para un protagonista fue un gato blanco y negro (bicolor).

La historia en la versión inicial era completamente diferente de la película final. Las exhibiciones centrales no eran el Plato del Pavo Real y la Tableta de Poesía; elegimos una pintura al óleo. Establecimos que el gato bicolor originalmente dormía a los pies del rey en la pintura, luego se "sacudía" cuando el personal del museo movía el cuadro. El gato comienza a explorar el Louvre y finalmente ve las exhibiciones saliendo del Louvre en un camión con destino a Shanghái. El gato bicolor decide subirse a una patineta para perseguir el camión, con muchos pequeños eventos emocionantes en el camino. Incluso hicimos un demo.

Más tarde abandonamos este plan por varias razones. La más directa fue el largo período de promoción; el museo quería dos películas. Si hacíamos la persecución del camión, la segunda parte parecería una película de carretera después de dividirse, lo que sesgaría el tono y consumiría demasiada energía en la persecución, inconsistente con la vibra de un "promocional oficial del museo". Así que descartamos por completo el plan del gato bicolor.

Después de que el museo solicitó dos películas, nuestra primera solución intuitiva fue simple: dividir el gato bicolor en un gato blanco y un gato negro. Al avanzar, descubrimos que un gato negro se vería demasiado oscuro en la película final y no llamaría la atención. Queríamos que el protagonista fuera "más brillante" para captar la atención del público más rápido, así que ajustamos de "uno negro, uno blanco" a "uno blanco, uno naranja". Además, el gato naranja se relaciona con el papel del gato naranja como portavoz de Shanghái de nuestra película anterior, lo que lo hace más adecuado para la parte de Shanghái. La parte francesa era más adecuada para el gato blanco.

II. Definición del Tono

El segundo punto es definir el tono.

Decide primero los visuales y la música, luego avanza con todos los storyboards.

Al hacer una película, un paso muy necesario es decidir el "tono de la película". El tono consta de dos partes. La primera es cómo se ven los visuales principales y la sensación de la cinematografía. La segunda es la música. Para un TVC, la música le dice directamente al público cómo sentirse y, a la inversa, guía el ritmo de edición, determinando si los planos son cortes rápidos o lentos.

Este proyecto involucró mucha información: Museo de Arte de Pudong, el Louvre, arte islámico, Shanghái, París, etc.

Primero notamos la "Sala de los Espejos" del Museo de Arte de Pudong y sentimos que el concepto de espejos era perfecto para la estructura. El Louvre y el Museo de Arte de Pudong podrían tener una relación de espejo, al igual que Shanghái y París, y los dos gatitos. Así que inicialmente queríamos hacer una "animación de pantalla dividida", contando París en un lado y Shanghái en el otro, para finalmente encontrarse en el Museo de Arte de Pudong.

Hicimos algunos visuales exploratorios tempranos, como el Bund mirando al Museo de Arte de Pudong en la parte superior y el Louvre en la inferior. También hicimos una composición de dos gatos mirando carteles en sus respectivos escritorios.

Más tarde, A Wen hizo una "revisión radical" basada en estos visuales, colocando el "Louvre" en la parte superior y el "Museo de Arte de Pudong" como un reflejo debajo. La imagen era muy aireada, con una textura cinematográfica, un temperamento elegante y una iluminación realista y brillante. Otro conjunto de visuales fue optimizado, moviendo el "cartel" del escritorio al propio edificio para que la información ambiental fuera más natural.

Basándonos en esto, determinamos la atmósfera visual de toda la película.

III. Música

El tercer punto es la música.

Generalmente hacemos la música muy temprano porque determina el ritmo, que a su vez determina el número de tomas y la estrategia de edición. Para este proyecto, decidimos que el instrumento principal sería el piano. Hay dos razones. Una es que nos gusta la textura de reflejo de "ondas de agua" en los visuales de espejo, que nos recuerda a acordes de piano limpios. La otra es que la estructura de cuadrícula de la Sala de los Espejos nos recuerda el orden de un teclado de piano.

Las bandas sonoras de cortometrajes narrativos necesitan un "arco"; no pueden tener el mismo ritmo de principio a fin como el ruido blanco. Una historia debe tener un principio, desarrollo, clímax y conclusión, y la música debe tener una estructura correspondiente.

Usamos Suno porque genera música que suena bien y permite un control fino sobre los segmentos. Puedes especificar la duración de cada melodía y decirle claramente qué emoción evocar en un punto determinado, como un giro repentino, tensión o suspenso.

Nuestra estructura musical esta vez fue aproximadamente: la apertura usa acordes de piano muy simples para atraer lentamente al público a la historia. Luego, un segmento sigue al protagonista y al entorno. Después, hay un segmento de transición que crea un pequeño contratiempo para mantener al público mirando. Luego entra en la segunda melodía, que lleva las acciones del protagonista y el clímax. Finalmente, el final: queríamos volver a un hermoso acorde de piano, así que agregamos específicamente un outro.

Una ventaja de Suno es que puedes regenerar infinitamente los segmentos con los que no estás satisfecho. Después de terminar la música francesa, exportamos toda la canción y la subimos de nuevo a Suno para hacer una variación para la parte de Shanghái manteniendo la melodía. Configuramos la Influencia de Audio al 50%, asegurando que la melodía básica se mantuviera, luego le dijimos que añadiera saxofón y que sonara como jazz antiguo de Shanghái. Hizo variaciones muy apropiadas sobre la melodía original.

Una vez dio un final bastante exagerado, pero finalmente lo cambiamos de vuelta al final original para mantenerlo más contenido.

Además, publicamos estas partituras en línea bajo la identidad de nuestro gato, Nika. Nika es considerado un "músico legendario en el Planeta de los Gatos", e incluye algunas partituras de TVC que hemos hecho para clientes.

IV. Storyboard

A continuación, cómo abordar el storyboard.

Nuestras estéticas personales son muy fuertes, así que esto es más sobre compartir experiencia.

Nuestro requisito básico para el storyboard de apertura es "alta densidad de información".

Intenta insinuar de qué trata la historia en el primer plano. Por ejemplo, el primer plano de "El Gato de la Ciudad Prohibida va a Trabajar" es el gato abriendo los ojos con el reflejo de la Ciudad Prohibida en sus pupilas, explicando rápidamente "gato y Ciudad Prohibida". El inicio de "Gatito Civilizado Recorre Pudong" es el gato empujando un mapa de Shanghái, explicando rápidamente "gato viene a Shanghái de turismo".

Para la parte del gatito blanco del Louvre, queríamos explicar la historia en tres planos. El primer plano tiene al gato mirando el cartel, plantando el "cartel de la exposición" visual clave en la mente del público. El segundo plano usa un primer plano para presentar al protagonista. El tercer plano usa un plano general para establecer el entorno mientras muestra la relación de espejo de "Louvre reflejando el Museo de Arte de Pudong".

El storyboard también necesita un sentido del ritmo. El ritmo proviene en gran medida de los cambios en el tamaño del plano. Un plano general tras otro se siente muy monótono, así que alternamos entre planos generales y primeros planos para crear una sensación de expansión y contracción. Si el plano de apertura tiene demasiada información, el público no sabrá dónde mirar en el primer segundo; usamos animación simple para guiar la mirada. La primera mitad usa un método de "correr la cortina", y la segunda mitad también usa un diseño de apertura clásico.

Luego viene la primera parte de la historia, que es una parte central y un conjunto de storyboards con los que estamos muy satisfechos.

El propósito de esta secuencia es mostrar al gato blanco saliendo del Louvre, enamorándose del Plato del Patrón de Pavo Real y teniendo una imaginación fantástica.

Esta secuencia necesita transmitir dos informaciones: el protagonista está en el Louvre y al protagonista le gusta el plato de pavo real.

El primer plano usa una exhibición clásica del Louvre para establecer la ubicación. Elegimos la Victoria de Samotracia, una escultura muy clásica. Deliberadamente no elegimos la Mona Lisa porque es demasiado común y parecería demasiado cliché. En términos de composición, no enfocamos la cámara únicamente en la escultura porque queríamos que el público se concentrara en el gato. Así que colocamos la escultura en el fondo como un adorno y usamos un ángulo extremadamente bajo, haciendo que el gato blanco en primer plano ocupe más volumen en el encuadre, obligando al público a concentrarse en el gato mientras aún reconoce instantáneamente "esto es el Louvre".

El segundo plano comienza a introducir sutilmente el arte islámico. Hicimos referencia a un artista famoso en Instagram cuya práctica común es filmar escenas de la vida cotidiana y luego hacer que los símbolos dentro de ellas se muevan.

Esa sensación es maravillosa porque es fantástica pero se siente como algo que podría suceder en la vida real. Inicialmente hicimos una versión más exagerada, como que toda la escena se convirtiera en patrones mientras el gato se desliza, pero luego sentimos que era demasiado movimiento y no se sentía como la vida real, así que lo cambiamos a un plan de cámara fija más contenido, dejando que los patrones de fondo se movieran sutilmente mientras el gato camina.

Probamos muchas versiones: patrones como círculos mágicos, la cámara bajando a un mundo de arte islámico, patrones sobresaliendo de la pantalla, etc. Más tarde nos dimos cuenta de que "interesante" no era suficiente; también necesitábamos una ganancia emocional. Así que usamos un diseño de contraste: comenzando con un plano picado opresivo, y a medida que la cámara se mueve al encuadre final, entra en un enorme espacio abierto, dando al público una sensación de iluminación repentina. En el plano final, los patrones en ambos lados se mueven como una cinta transportadora, llevando al gato a un espacio de exposición abierto.

También hicimos un sacrificio: sin retratos en los encuadres. Una vez que aparece un retrato humano en el encuadre, el público buscará involuntariamente todos los retratos, y su atención será robada del gato. Queríamos que el público siguiera al gato, así que eliminamos los elementos que roban fácilmente la atención tanto como fue posible para mantener la expresión sutil.

En el diseño del encuadre final de este plano, A Wen realizó una operación muy inteligente: colocar el Plato del Patrón de Pavo Real directamente en el espacio de exhibición, dejando que la exhibición central apareciera temprano durante el clímax. Después de determinar el encuadre final, volvimos y rediseñamos el primer encuadre y el movimiento de la cámara, haciendo el plano más controlado.

Después del clímax emocional, necesitábamos agregar un poco de nuevo estímulo. Pensamos en el gato viendo el espacio después de subir, o viendo otra exhibición, pero ninguna fue lo suficientemente conmovedora.

Más tarde pensamos en el gato viendo un pavo real, y el pavo real está vivo. Este punto inmediatamente nos hizo sentir que la obra de arte había cobrado vida. En términos de ritmo, también hicimos una progresión paso a paso: el pavo real primero gira la cabeza, luego el cuerpo, y finalmente despliega las alas, guardando la sorpresa para el último segundo.

Después del clímax, necesita volver a la realidad. Usamos una forma muy simple: cortar de nuevo a un primer plano del gato, como si estuviera imaginando, luego cortar a un plano objetivo que establece la realidad: el gato está realmente parado frente al plato de pavo real mirando la exhibición. El público entonces entiende que el segmento de fantasía vino de la imaginación del gato.

Luego viene el segmento de transición, con el objetivo de explicar que "la exhibición se va a Shanghái" y "el gato decide meterse en la caja e irse".

Usamos montaje y procesamiento de pantalla dividida porque puede transmitir mucha información en poco tiempo. Al hacer tales planos, recortamos a las personas tanto como sea posible. En las películas de animales, los rostros humanos roban fácilmente la atención; el público es más propenso a empatizar con las personas, y su atención se desviará, así que solo mantuvimos primeros planos y acciones sin mostrar rostros.

El segundo segmento originalmente iba a ser sobre lo que le sucede al gato en la caja de carga del avión.

Antes de determinar completamente la trama, usamos Sora para ejecutar algunas muestras para verificar rápidamente el ritmo y la composición, buscando sorpresas y referencias. Después de ejecutarlas, no nos gustaron porque las imágenes no eran aireadas, los colores eran amarillentos, viejos y oscuros, inconsistentes con el tono que establecimos antes. La lógica de la trama tampoco funcionaba porque el gato en la caja no podía ver las exhibiciones afuera, y las exhibiciones también deberían estar en cajas.

Así que descartamos todo el segmento de "asomarse dentro de la caja" y devolvimos el enfoque a la narrativa central: el gato blanco acompañando al plato de pavo real a Shanghái.

Para la llegada a Shanghái, inicialmente queríamos hacer una transición realista de un avión volando del Louvre a Shanghái, y lo ejecutamos con VEO 3. También probamos una microanimación de mapa clásico. Pero estos planes fueron rechazados por nosotros.

Porque un mapa hace que el público se preocupe particularmente por la racionalidad, como si las posiciones de París y Shanghái y la distancia de vuelo son correctas, lo que distrae la atención. También probamos un plan más abstracto de "mapa de puntos de fuego con huellas", pero no nos gustó que el plano fuera demasiado amplio; preferíamos que el público viera el sujeto clave ocupando una porción más grande del encuadre.

Finalmente, decidimos cambiar directamente entre el "primer encuadre del Louvre" y el "primer encuadre del Museo de Arte de Pudong", haciendo la transición más cercana y enfocada.

Probamos muchos tipos de animaciones de transición: como una alfombra desplegándose, azulejos volteándose, imágenes de aviones, etc. Finalmente elegimos el avión porque las imágenes del avión aparecieron en los planos antes y después de la transición. Las imágenes continuas hacen que el público se sienta más cómodo, incluso si salta de realista a un estilo de arte de mosaico en el medio, no será abrupto.

Después de llegar a Shanghái, el storyboard es más directo: primero viendo el Museo de Arte de Pudong de lejos a cerca, luego viendo al gato corriendo hacia el museo. Nos gusta mucho uno de los planos: el gato corriendo junto al agua, con el reflejo en el agua siendo un pavo real.

Esta idea inicialmente era "más salvaje". Esperábamos que mientras el gato corría, pudiera ver las sombras de muchos animales, como pavos reales, caballos, camellos, etc., trayendo una sensación de que "todo el arte islámico ha llegado a Shanghái junto". Probamos texto a imagen y texto a video, pero ninguno funcionó. También pensamos en el gato viéndose a sí mismo como un tigre en su corazón, con la sombra siendo un tigre, pero esto estaba demasiado débilmente relacionado con la película y se eliminó rápidamente.

Más tarde descubrimos que entregar tal creatividad central directamente a la IA de una sola vez no es confiable y necesita ser desglosado para su ejecución. Primero dibujamos a mano el storyboard, decidiendo un plano ligeramente picado para que la atención del público caiga naturalmente en el reflejo del lago.

La composición se simplificó a "la sombra del gato es un pavo real", que está más directamente relacionada con la línea principal. Primero usaríamos Photoshop para componer la relación deseada, luego lo entregaríamos al modelo para completar el estilo unificado y la dinámica. A lo largo del proceso, sentimos firmemente que incluso un dibujo a mano tosco es más intuitivo para que la IA lo entienda y para que las personas se comuniquen.

Para el cierre, hicimos eco del concepto de "espejos" nuevamente, terminando con una imagen más contenida y hermosa.

Eso es todo para el storyboard.

A continuación, la parte de arte se la entregamos a A Wen.

V. Arte

Yo (A Wen) hago principalmente dos cosas.

Primero, convertir los storyboards manuscritos de Hai Xin en visuales finales. Segundo, controlar el estilo artístico general.

Después de recibir el proyecto, inmediatamente fuimos a aprender sobre arte islámico. Es un estilo artístico con el que normalmente tenemos poco contacto, pero es muy distintivo. Después de dominar algunas palabras clave centrales, es fácil crear arte de estilo mosaico con características exóticas. Resumimos 4 palabras clave muy útiles en la transmisión en vivo; las dos más utilizadas son "estilo Iznik" y "arte de mosaico". Aquí, mosaico se refiere al arte de Mosaico, que es diferente del arte de Pixel.

Tenemos dos principios para hacer películas. Debe verse bien a primera vista y ser duradero en una segunda mirada. En la era de la IA, es algo precioso que un público esté dispuesto a terminar de ver tu cortometraje. Verse bien para nosotros equivale a una sensación cinematográfica. Ser duradero equivale a tantos detalles y detalles creativos como sea posible, incluyendo detalles artísticos.

Todos son realmente muy sensibles a una sensación cinematográfica. Para la misma imagen y el mismo prompt, con resultados de diferentes modelos, puedes juzgar fácilmente cuál tiene más sensación cinematográfica. Así que el primer paso en el arte es elegir el modelo correcto. Nuestro modelo principal de generación de imágenes actual es básicamente Nano Banana Pro. Para la modificación de imágenes, lo usamos principalmente directamente con modificación de texto, a veces combinado con Photoshop. También ajusto manualmente algunas partes.

Elegir el modelo correcto es tan valioso como elegir al proveedor correcto. Puede hacer bien el trabajo y manejar muchas modificaciones agotadoras. Por ejemplo, había un plano con el que estábamos muy satisfechos, pero después de enviar el primer borrador, el museo dijo que este plano tenía que ser eliminado porque haría que mover las exhibiciones pareciera poco profesional, y no querían transmitir esa sensación al público. Narrativamente, necesitábamos este plano para explicar que el gato se esconde en la caja para seguir las exhibiciones a Shanghái. Finalmente, usamos Nano Banana para "envolver" las exhibiciones, haciendo que el manejo pareciera más profesional, y pasó.

Otro ejemplo: el último encuadre de la imagen es muy hermoso, pero notarás que la atención se queda en la parte trasera del gato blanco por mucho tiempo; este fue un problema que solo se expuso después de cambiar al gato blanco. La solución fue simple: dejar que la cola cuelgue en el primer encuadre, y no sería un problema al caminar más tarde.

Incluso más exagerado fue salvar el día cambiando el gato. Cuando cambiamos al protagonista de un gato negro a un gato blanco a mitad de camino, muchos fotogramas estáticos y animaciones ya estaban terminados.

Suena escandaloso, pero la IA realmente puede cambiarlo.

En ese momento, las herramientas que podíamos usar eran limitadas, solo la primera generación de Nano Banana, que usualmente usábamos en Google Whisk. Nuestro hábito es una carpeta por plano, así que entramos en cada carpeta una por una para cambiar el color del gato, y lo terminamos en un día y medio.

Más tarde, al revisar, salió Banana Pro, y descubrimos que una eficiencia aún más escandalosa estaba por llegar. La IA no solo puede cambiarlo, sino que puede cambiarlo cada vez más rápido. En plataformas de terceros, puedes subir todos los fotogramas estáticos a la vez y cambiar el protagonista de gato negro a gato blanco con solo una frase, lo que es más eficiente.

Mucha gente pregunta dónde se usa mejor Nano Banana Pro.

Nuestra experiencia es que el sistema de membresía de Google tiene bastantes inconvenientes. Compramos la membresía Google Ultra de gama alta desde que se lanzó y la hemos usado hasta ahora. A menudo ves a otros decir que Google tiene descuentos, como $79 al mes durante tres meses, o un precio semestral, pero al mirar el precio de tu propia suscripción, es posible que no cambie en absoluto y siga siendo muy caro, incluso más alto con impuestos.

Otro punto que nos hace muy infelices es que el punto de entrada a 4K no está claro. Algunos dicen que está en Flow, pero la generación predeterminada de Flow es 1K, y solo se superresuelve a 4K al descargar. No estamos seguros de si eso es superresolución o 4K nativo. Google AI Studio puede generar 4K de forma más nativa, pero se cobra por separado.

Si eres miembro Ultra como nosotros, aquí tienes nuestro uso más pragmático: usa Flow para generación rápida tipo gacha porque es rápido con una base de 1K. Usa Gemini para iteración de múltiples rondas; las rondas de diálogo son muy convenientes. Cuando tengas una buena idea del resultado, puedes ir a AI Studio para obtener 4K nativo.

Además, nuestros prompts son cada vez más simples. La comprensión multimodal del modelo es muy fuerte y a menudo no requiere textos largos. Por ejemplo, lanzo una imagen, dejo que extraiga el gato y la mariposa, los pongo sobre un fondo de color sólido y luego lo convierto en pixel art. Después de estabilizar el estilo, extender los materiales es muy eficiente.

¿Y realmente necesitan los prompts de hoy ser textos largos?

Teníamos una toma que necesitaba una vista frontal de una exhibición, pero nadie podía entrar durante el período de montaje; el personal solo pudo enviarnos dos fotos rápidas desde lejos.

Estas dos ya eran muy valiosas para nosotros, así que las usamos como inteligencia y directamente dejamos que Gemini generara una vista frontal de la exhibición basada en las dos fotos, en 16:9.

El resultado fue muy bueno y lo usamos para completar la toma final.

Aún más sorprendente fue cuando fuimos al sitio el día de la inauguración y descubrimos que era casi idéntico al lugar real. La gente no podía apretujarse, pero la IA sí.

Cuando un modelo es lo suficientemente potente, no le importa el origen del storyboard. Es decir, a veces le das storyboards bastante descabellados y puede captar al instante lo que quieres y generar directamente imágenes muy bonitas. Todas estas son imágenes generadas directamente por el modelo usando los storyboards de Hai Xin, y todas son muy buenas.

Pero para la creatividad compleja, debes iterar por etapas.

Tomemos como ejemplo la toma de "el gato caminando por la orilla, con el reflejo en el agua siendo un pavo real".

Primero, entendería la perspectiva del boceto del storyboard.

Estoy acostumbrado a hacer un boceto muy tosco en PPT. Resulta que tenía un PNG transparente de un gato blanco "actor veterano" a mano; ponerlo en el encuadre construye la perspectiva. Luego lanzo este boceto tosco en el modelo para convertirlo en un estilo realista, obteniendo primero una escena básica de "un gato caminando por la orilla con un lago cerca".

El segundo paso es colocar las baldosas. De hecho, usé prompts para colocar baldosas en el suelo de concreto, probando muchas palabras clave hasta encontrar una versión con la "densidad justa". Después de colocarlas, la imagen tomó forma, pero múltiples iteraciones deformarían la postura del gato, así que dejaba que la IA lo ajustara de nuevo.

El tercer paso es agregar información de la exhibición. La forma más simple es superponerla en PS y ajustar el estilo de la capa. Pero descubrimos que el reflejo del pavo real en el lago era difícil de conseguir en movimiento porque los pavos reales estilizados no se convierten fácilmente en dinámicas realistas. Así que volví a PS, borré el pavo real, lo reemplacé con una sombra de pavo real realista y lo volví a meter en el modelo para continuar.

Más tarde, el color del gato tuvo que cambiarse. Después de cambiarlo, descubrí que las baldosas "se comían" al gato blanco, así que volví a colocar las baldosas para obtener el fotograma estático final.

Finalmente, hacer la animación fue en realidad la parte más simple. Generalmente, es salida directa; dos o tres intentos pueden obtener buenas dinámicas, como el gato caminando por la orilla y el reflejo del pavo real en el agua siguiéndolo.

Luego, algo de experiencia en arte sobre la composición de escenas reales.

Hay muchos puntos de referencia y exhibiciones en el cortometraje que no pueden estar equivocados, por lo que necesitamos certeza. Muchas veces componemos al gato sobre puntos de referencia reales existentes.

Ahora este tipo de composición es muy simple; solo le dices a Nano Banana Pro que hay un gato naranja de espaldas a la cámara persiguiendo una mariposa de un color específico en la escena, y puede generarlo.

Dos pequeños consejos para mejorar la tasa de éxito. Primero, recorta antes de generar. Por ejemplo, no necesitábamos las decoraciones en la parte inferior del material del Hotel Peace, así que las recortaba antes de dárselo al modelo. Muchas tomas en interiores son iguales; recorta las áreas innecesarias primero, y el modelo se vuelve más enfocado.

Segundo, si necesitas hacer un match cut o reutilizar un sujeto repetidamente, se recomienda extraer primero al gato y la mariposa sobre un fondo de color sólido y luego cambiar varios fondos. Dejar que el modelo cambie constantemente de escenas directamente en la misma imagen fácilmente se come la mariposa, se come al gato o cambia el color del gato. Extraer el sujeto primero y luego cambiar el fondo tiene una tasa de éxito mucho mayor.

Mucha gente pregunta por qué no usamos referencia de múltiples imágenes para la generación de video.

Con respecto a los productos de video con múltiples referencias, probamos casi todo en el mercado mientras hacíamos estos dos cortometrajes, y el problema de la claridad es difícil de curar; los elementos se vuelven borrosos con el más mínimo movimiento.

Incluso con la nueva función de múltiples referencias lanzada recientemente en Flow, la probamos y es difícil asegurar que las exhibiciones que queremos permanezcan sin cambios. Tenemos demasiados sujetos estables que mantener, incluyendo múltiples exhibiciones, el gato y la mariposa, así que al final, la rutina del primer y último fotograma es más estable.

Muchos amigos también preguntan, ¿todavía se necesita PS?

Creo que PS sigue siendo útil, pero lo abrimos cada vez menos. Recomiendo encarecidamente una función que no mucha gente usa, llamada "Armonizar".

Pegas un PNG o imagen en un fotograma estático, haces clic en armonizar, y automáticamente iguala la iluminación ambiental, haciendo que la composición sea más integrada. Por ejemplo, en la toma del plato flotante, hago clic en armonizar, y la diferencia en la iluminación antes y después es muy obvia; la eficiencia es alta.

Al mismo tiempo, Banana Pro es lo suficientemente potente como para que muchas cosas se puedan hacer directamente con él. Por ejemplo, en la película del gato naranja, hay una toma donde primero usé Vidu para generar una vista previa; la claridad no era suficiente y las exhibiciones no eran estables, pero la relación entre el movimiento del gato y las exhibiciones era correcta.

Así que lancé tanto la vista previa como los materiales de la exhibición en Banana Pro, dejando que mantuviera la composición sin cambios y reemplazara las exhibiciones flotantes con estas que proporcioné, permitiendo que aparecieran repetidamente y de manera dispersa. El resultado fue una imagen muy buena en la primera versión, e incluso agregó automáticamente profundidad de campo de primer/segundo plano y desenfoque de movimiento, básicamente cumpliendo con las necesidades de producción.

VI. Animación

Nuestra herramienta de video principal es Flow. Nuestro modelo de video de uso común es VEO 3.1.

Flow también lanzó recientemente una función 4K, que ayuda con la calidad de imagen. Para modelos de video auxiliares, también usamos Kling, Hailuo, Jimeng, Wanxiang, Luma, etc., pero Flow es más conveniente de usar y las imágenes tienen más sensación cinematográfica.

Sentimos que hemos entrado en una era en la que podemos "editar video". Muchas herramientas de video pueden editar video directamente. Hay una función oculta en Flow, con un punto de entrada profundo; hay un botón "editar" en la parte superior izquierda del video generado. Una vez dentro, puedes agregar cosas al video, recortar cosas e incluso cambiar la posición y el movimiento de la cámara; es un poco experimental pero a veces útil.

Sus limitaciones también son obvias; por ejemplo, puede agregar y recortar, pero es difícil hacer "editar y reemplazar", como cambiar un gato negro por un gato blanco. Para lograr esto, tienes que eliminar primero y luego insertar, lo que se siente muy torpe.

En Flow, también usamos mucho la función de garabato. El texto puro es difícil de lograr que el gato complete ciertas acciones, como hacer que el gato salte directamente; no pudimos lograrlo ni siquiera después de muchos intentos.

Pero dibujando un garabato en el primer fotograma para dar instrucciones de movimiento, como hacia dónde debe volar la mariposa y el gato siguiéndola, y luego agregando un prompt "sigue las instrucciones en la anotación y luego borra mi anotación", el modelo generará de acuerdo con las reglas de movimiento que anotaste, y el gato puede salir suavemente del encuadre.

Y Luma's Ray3 es inesperadamente útil. Hicimos una prueba en Navidad, subiendo una vista previa muy tosca y agregando un prompt; generó muy hermosamente con alta claridad, incluso creando algo de la nada en el video original.

La desventaja es la generación lenta, pero la ventaja es la alta calidad de composición, adecuada para producción.

La nueva función de creación de personajes de Wan 2.6 también vale la pena mencionar. Sus personajes humanos todavía son propensos a estar fuera de personaje, pero los personajes animales son mucho más emocionantes que los humanos. Subí casualmente un video muy borroso y oscuro de mi gato Nika, y después de construir el personaje, pude usar @ para invocarlo en Wan 2.6; la calidad de generación estaba a un nivel "aprobado por el maestro" y era de muy alta definición. Hicimos que realizara muchas cosas, como un dinosaurio que viene a rescatarlo. Esta función se lanzó después de que nuestros dos cortometrajes ya se hubieran publicado, lo que fue un poco de mala sincronización.

Otro pequeño consejo: al hacer microanimaciones para la pantalla final, puedes elegir un "modelo ligeramente peor", es decir, un modelo de generación anterior. Las amplitudes de movimiento de la generación anterior suelen ser más pequeñas, lo que a veces es perfecto para la pantalla final. Por ejemplo, para la pantalla final, queremos que el entorno se mueva ligeramente, pero Flow podría agregar muchos patrones imaginados y moverse demasiado.

Usar un modelo de generación anterior en realidad se mueve justo lo necesario. Usé Jimeng 3.0 esta vez, y esa amplitud de micromovimiento fue muy apropiada.

VII. Borradores Descartados

Hubo muchos borradores descartados esta vez, especialmente para el del gato naranja, porque después de que salió Pro, implementar algunas ideas fue rápido y la cantidad de exploración fue mayor. Aquí hay algunos que nos gustaron particularmente pero que eliminamos con dolor.

Uno es el "Pastel de Mariposa" que al público de Shanghái le encanta preguntar. El pastel de mariposa de Shanghái es muy famoso, y de hecho hicimos un pastel de mariposa gigante, y nos gustó mucho la imagen. Pero en la IA, una vez que el pastel de mariposa se mueve, se convierte en una mariposa real y nunca vuela, así que tuvimos que renunciar a él.

Otro es un punto de control muy popular en el Museo de Arte de Pudong donde puedes fotografiar la Perla Oriental. Hicimos una toma donde una mariposa mete media ala desde fuera de la ventana, y la otra mitad del ala se completa a través de la sombra de la luz solar, formando una mariposa completa. La imagen era hermosa, pero cuando se movía, la mariposa todavía no volaba, así que se eliminó.

Otra fue una toma de la galería de arte islámico del Louvre; inicialmente queríamos hacerla más exagerada, incluso con dinámicas a nivel de tsunami, pero luego sentimos que era demasiado fantástica y no encajaba con la sensación "discreta pero fantástica" que queríamos, así que también se eliminó.

Finalmente

Finalmente, el punto central que queremos transmitir es:

Cuanto más conveniente sea el modelo, más debes esforzarte para hacerlo mejor.

Ahora que los modelos son cada vez más convenientes, muchos creadores tienden a usar agentes para generar directamente conjuntos completos de soluciones de storyboard o dejar que completen más de la creación. Pero lo que queremos decir es que la conveniencia del modelo no debe ser una excusa para la pereza.

Es más como un recordatorio: tienes más capacidad para hacer que tu trabajo sea mejor.

Terminando con una frase que decimos a menudo:

Mientras estés en acción, estás avanzando.

Gracias a todos, nuestra charla de hoy termina aquí.

Si te pareció útil, no dudes en reenviarlo a tus amigos para que lo vean; ¡es una gran ayuda para nosotros!

I. Elección del Elenco

II. Definición del Tono

III. Música

IV. Storyboard

V. Arte

VI. Animación

VII. Borradores Descartados

Finalmente

Use YouMind to read viral articles deeply

Artículos virales recientes

Complete Guide to Claude Fable 5's 'Agent Functions'

How to turn a boring app into $10M with one mascot

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

How To Build Your Own LLM from Scratch (The 5-Stage Pipeline Behind GPT and Claude)

The Fable Loop Library: 25 Workflows on Autopilot

Google's 10 Proven Behaviors for Effective Managers: The Definitive Guide

Video de IA "Louvre Cat": Un análisis profundo del proceso de creación viral

I. Elección del Elenco

II. Definición del Tono

III. Música

IV. Storyboard

V. Arte

VI. Animación

VII. Borradores Descartados

Finalmente

Use YouMind to read viral articles deeply

Convierte tu Markdown en un artículo de 𝕏 impecable

Artículos virales recientes

Complete Guide to Claude Fable 5's 'Agent Functions'

How to turn a boring app into $10M with one mascot

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

How To Build Your Own LLM from Scratch (The 5-Stage Pipeline Behind GPT and Claude)

The Fable Loop Library: 25 Workflows on Autopilot

Google's 10 Proven Behaviors for Effective Managers: The Definitive Guide