Vídeo de IA "Louvre Cat": Uma análise profunda do processo de criação viral

Ontem à noite, fiquei super, super feliz em convidar meus dois bons amigos e ídolos, Hai Xin e A Wen, para fazer uma live conosco.

Eles vieram compartilhar o processo completo de criação do seu trabalho de vídeo com IA, "Gato do Louvre".

Fiquei pasmo depois de ouvir. Eu disse: vocês realmente contam tudo, sem segurar nada, compartilhando tudo assim...

Sério, essa live estava cheia de informações práticas. Eu nem queria resumir porque era informação demais. Passei a noite toda organizando esta transcrição em detalhes, combinando com a apresentação em PPT deles, e agora, com a autorização deles, estou compartilhando com todos.

Espero que essas experiências valiosas possam trazer alguma inspiração para o uso da IA e para o nosso trabalho criativo.

Afinal, não há muitas pessoas tão talentosas quanto eles que estão dispostas a aparecer e compartilhar tudo sem reservas.

Tudo começa com o filme. Este é o ponto de partida.

Ring Hyacinth

@ring_hyacinth

15 de nov de 2025

A convite do Museu de Arte de Pudong, criamos um vídeo promocional oficial para a primeira exposição do Louvre em Xangai usando IA. Espero que gostem!

Estreia do Museu do Louvre em Xangai: "Milagres dos Padrões: Obras-primas da Arte Indiana, Iraniana e Otomana do Louvre"

De 13 de dezembro de 2025 a 6 de maio de 2026, uma grande exposição no Museu de Arte de Pudong.

Anfitrião: Museu do Louvre, Museu de Arte de Pudong

Produtor: Grupo Lujiazui

Mostrar mais

73 162 992 135K

Esses dois filmes foram realmente de tirar o fôlego para mim na época.

Arte, isso sim é arte verdadeira.

Esta live é um compartilhamento sem rodeios dos dois principais criadores desses dois filmes, Hai Xin e A Wen, sobre "Gato do Louvre".

A seguir está a transcrição da live, toda nas vozes de Hai Xin & A Wen:

————

Olá a todos, somos Hai Xin e A Wen. Somos artistas digitais e uma dupla criativa que trabalha com IA.

Hoje, queremos compartilhar todo o processo — desde o conceito até o storyboard e a execução com ferramentas de IA — dos vídeos promocionais oficiais que produzimos recentemente para o Museu de Arte de Pudong.

Anteriormente, fizemos dois curtas-metragens relativamente famosos. O primeiro foi no início do ano passado, quando o Beijing Daily nos convidou para criar um promo de civilização urbana para Pequim intitulado "O Gato da Cidade Proibida Vai Trabalhar". Após a conclusão, ele se espalhou muito bem na internet e trouxe muitas oportunidades, incluindo uma exposição na Expo de Osaka e ser o filme de abertura da Unidade 9 no palco principal do TED 2025.

Durante esse evento do TED, Sam Altman também fez uma entrevista na Unidade 11, então tivemos a honra de dividir o mesmo palco por um breve período. Nunca imaginamos que nossos filmes viajariam para países que nós mesmos nem visitamos.

O segundo filme foi o promo de civilização urbana deste ano para Pudong, Xangai, dando continuidade ao tema "gatinho", intitulado "Gatinho Civilizado Passeia por Pudong". Causou bastante alvoroço no lançamento, com republicações de contas oficiais como Shanghai Release e Pudong Civilization, e os dados foram excelentes.

Offline, apareceu nas telas ultra longas na passagem subterrânea da estação de metrô de Lujiazui e na tela super grande do Super Brand Mall em frente à Torre Pérola Oriental, rodando na área central de Lujiazui. Também foi exibido no painel de 12 telas sob a Pérola Oriental. Ainda recebemos um "Prêmio de Trabalho de Comunicação de Alta Qualidade na Internet" da Administração do Ciberespaço de Xangai. Sempre tivemos uma série relacionada a gatinhos; pode-se dizer que somos profissionais em fazer gatos.

No final do ano, o Museu de Arte de Pudong nos procurou. Eles estavam organizando uma grande exposição oficial do Louvre em Xangai — a primeira exposição de grande porte desse tipo na cidade — e queriam que criássemos o promo oficial. O museu queria dois curtas-metragens para cobrir um longo ciclo de promoção de cerca de um a dois meses.

No final, entregamos dois filmes. A primeira metade conta a história de um "gatinho branco da França vindo para Xangai", enquanto planta ovos de Páscoa para a segunda metade.

A segunda metade conta a história de um "gato laranja porta-voz de Pudong indo ao Museu de Arte de Pudong para ver a exposição."

Ambos os filmes giram em torno de artefatos reais para o design narrativo. A primeira metade é centrada no Prato de Padrão de Pavão. A segunda metade é centrada na "Tabuleta do Concurso de Poesia". Na segunda metade, também reprocessamos a música, adicionando saxofone para uma variação de jazz para dar mais um sabor de Xangai.

Após o lançamento dos filmes, eles se espalharam por várias plataformas, e os dados da conta de vídeo oficial do museu foram ótimos. Nossas próprias contas receberam muitas mensagens privadas de espectadores dizendo que decidiram ver a exposição por causa desses dois curtas-metragens.

Também há cenários de reprodução offline, como as telas do Bund, que ficarão em loop até maio do ano que vem.

Em seguida, queremos compartilhar nosso processo criativo completo e alguns insights, esperando que sejam úteis para vocês.

I. Elenco

O primeiro ponto que queremos compartilhar é o elenco, e por que finalmente escolhemos um gato branco mais um gato laranja.

Embora tenhamos decidido continuar com o tema do gato, há muito pensamento por trás dos próprios gatos. Inicialmente, partimos das cores tema do Museu de Arte de Pudong. O museu é predominantemente preto e branco, então nosso primeiro pensamento para um protagonista foi um gato malhado (preto e branco).

A história na versão inicial era completamente diferente do filme final. Os artefatos centrais não eram o Prato de Pavão e a Tabuleta de Poesia; escolhemos uma pintura a óleo. Definimos que o gato malhado estava originalmente dormindo aos pés do rei na pintura, e então foi "sacudido" quando os funcionários do museu moveram a pintura. O gato começa a explorar o Louvre e finalmente vê os artefatos saindo do Louvre em um caminhão com destino a Xangai. O gato malhado decide pular em um skate para perseguir o caminhão, com muitos pequenos eventos emocionantes acontecendo pelo caminho. Até fizemos um demo.

Posteriormente, abandonamos este plano por várias razões. A mais direta foi o longo período de promoção; o museu queria dois filmes. Se fizéssemos a perseguição de caminhão, a segunda parte pareceria um filme de estrada após ser dividida, o que distorceria o tom e consumiria muita energia na perseguição, inconsistente com a vibe de um "promo oficial de museu". Então descartamos o plano do gato malhado completamente.

Depois que o museu solicitou dois filmes, nossa primeira solução intuitiva foi simples: dividir o gato malhado em um gato branco e um gato preto. Seguindo em frente, descobrimos que um gato preto pareceria muito escuro no filme final e não chamaria a atenção. Queríamos que o protagonista fosse "mais claro" para prender a atenção do público mais rápido, então ajustamos de "um preto, um branco" para "um branco, um laranja". Além disso, o gato laranja ecoa o papel do gato laranja como porta-voz de Xangai do nosso filme anterior, tornando-o mais adequado para a parte de Xangai. A parte francesa era mais adequada para o gato branco.

II. Definindo o Tom

O segundo ponto é definir o tom.

Decida primeiro os visuais e a música, depois prossiga com todos os storyboards.

Ao fazer um filme, uma etapa muito necessária é decidir o "tom do filme". O tom consiste em duas partes. A primeira é como são os visuais centrais e a sensação da cinematografia. A segunda é a música. Para um TVC, a música diz diretamente ao público como se sentir e, inversamente, guia o ritmo da edição, determinando se os planos são cortes rápidos ou lentos.

Este projeto envolveu muita informação: Museu de Arte de Pudong, o Louvre, arte islâmica, Xangai, Paris, etc.

Primeiro notamos o "Salão dos Espelhos" do Museu de Arte de Pudong e sentimos que o conceito de espelhos era perfeito para a estrutura. O Louvre e o Museu de Arte de Pudong poderiam ter uma relação de espelho, assim como Xangai e Paris, e os dois gatinhos. Então, inicialmente, queríamos fazer uma "animação em tela dividida", contando Paris de um lado e Xangai do outro, finalmente se encontrando no Museu de Arte de Pudong.

Fizemos alguns visuais exploratórios iniciais, como o Bund olhando para o Museu de Arte de Pudong em cima e o Louvre em baixo. Também fizemos uma composição de dois gatos olhando para cartazes em suas respectivas mesas.

Mais tarde, A Wen fez uma "revisão radical" com base nesses visuais, colocando o "Louvre" em cima e o "Museu de Arte de Pudong" como um reflexo embaixo. A imagem era muito arejada, com uma textura cinematográfica, temperamento elegante e iluminação realista e brilhante. Outro conjunto de visuais foi otimizado, movendo o "cartaz" da mesa para o próprio edifício para tornar a informação ambiental mais natural.

Com base nisso, determinamos a atmosfera visual de todo o filme.

III. Música

O terceiro ponto é a música.

Geralmente fazemos a música muito cedo porque ela determina o ritmo, que determina o número de planos e a estratégia de edição. Para este projeto, decidimos que o instrumento principal seria o piano. Há duas razões. Uma é que gostamos da textura de reflexo "ondulação na água" nos visuais espelhados, que nos lembra acordes de piano limpos. A outra é que a estrutura de grade do Salão dos Espelhos nos lembra a ordem de um teclado de piano.

Trilhas sonoras de curtas-metragens narrativos precisam de um "arco"; elas não podem ter o mesmo ritmo do início ao fim como ruído branco. Uma história deve ter começo, desenvolvimento, clímax e conclusão, e a música deve ter uma estrutura correspondente.

Usamos o Suno porque ele gera músicas que soam bem e permite controle fino sobre os segmentos. Você pode especificar a duração de cada melodia e dizer claramente a ela que emoção evocar em um certo ponto, como uma virada repentina, tensão ou suspense.

Nossa estrutura musical desta vez foi aproximadamente: a abertura usa acordes de piano muito simples para atrair lentamente o público para a história. Então um segmento segue o protagonista e o ambiente. Depois disso, há um segmento de transição criando um pequeno contratempo para manter o público assistindo. Em seguida, entra na segunda melodia, carregando as ações do protagonista e o clímax. Finalmente, o final — queríamos retornar a um belo acorde de piano, então adicionamos especificamente um encerramento.

Uma vantagem do Suno é que você pode regenerar infinitamente segmentos com os quais não está satisfeito. Depois de terminar a música francesa, exportamos a música inteira e a enviamos de volta ao Suno para fazer uma variação para a parte de Xangai, mantendo a melodia. Ajustamos a Influência de Áudio para 50%, garantindo que a melodia básica permanecesse, então dissemos a ela para adicionar saxofone e fazer com que soasse como jazz antigo de Xangai. Ela fez variações muito apropriadas na melodia original.

Uma vez deu um final bastante exagerado, mas acabamos mudando de volta para o final original para mantê-lo mais contido.

Além disso, publicamos essas trilhas online sob a identidade do nosso gato, Nika. Nika é considerada uma "música lendária do Planeta dos Gatos", e inclui algumas trilhas de TVC que fizemos para clientes.

IV. Storyboard

A seguir é como abordar o storyboard.

Nossa estética pessoal é muito forte, então isso é mais sobre compartilhar experiência.

Nosso requisito básico para o storyboard de abertura é "alta densidade de informação".

Tente dar pistas sobre o que é a história logo no primeiro plano. Por exemplo, o primeiro plano de "O Gato da Cidade Proibida Vai Trabalhar" é o gato abrindo os olhos com o reflexo da Cidade Proibida em suas pupilas, explicando rapidamente "gato e Cidade Proibida". O início de "Gatinho Civilizado Passeia por Pudong" é o gato empurrando um mapa de Xangai, explicando rapidamente "gato vindo para Xangai para turismo".

Para a parte do gatinho branco do Louvre, queríamos explicar a história dentro de três planos. O primeiro plano tem o gato olhando para o cartaz, plantando o "cartaz da exposição" visual chave na mente do público. O segundo plano usa um close-up para apresentar o protagonista. O terceiro plano usa um plano geral para estabelecer o ambiente enquanto mostra a relação de espelho de "Louvre refletindo o Museu de Arte de Pudong".

O storyboard também precisa de um senso de ritmo. O ritmo vem em grande parte de mudanças no tamanho do plano. Plano geral após plano geral parece muito monótono, então cortamos entre planos gerais e close-ups para criar uma sensação de expansão e contração. Se o plano de abertura tiver muita informação, o público não saberá onde olhar no primeiro segundo; usamos animação simples para guiar o olhar. A primeira metade usa um método de "puxar a cortina", e a segunda metade também usa um design de abertura clássico.

Então vem a primeira parte da história, que é uma parte central e um conjunto de storyboards com os quais estamos muito satisfeitos.

O propósito desta sequência é mostrar o gato branco saindo do Louvre, se apaixonando pelo Prato de Padrão de Pavão e tendo uma imaginação fantástica.

Esta sequência precisa transmitir duas informações: o protagonista está no Louvre, e o protagonista gosta do prato de pavão.

O primeiro plano usa um artefato clássico do Louvre para estabelecer o local. Escolhemos a Vitória de Samotrácia, uma escultura muito clássica. Deliberadamente não escolhemos a Mona Lisa porque é muito comum e pareceria muito clichê. Em termos de composição, não focamos a câmera apenas na escultura porque queríamos que o público se concentrasse no gato. Então colocamos a escultura no fundo como um enfeite e usamos um ângulo extremamente baixo, fazendo o gato branco em primeiro plano ocupar mais volume no quadro, forçando o público a se concentrar no gato enquanto ainda reconhece instantaneamente "este é o Louvre".

O segundo plano começa a introduzir sutilmente a arte islâmica. Referenciamos um artista famoso no Instagram cuja prática comum é filmar cenas do dia a dia e depois fazer com que os símbolos dentro delas se movam.

Essa sensação é maravilhosa porque é fantástica, mas parece algo que poderia acontecer na vida real. Inicialmente, fizemos uma versão mais exagerada, como a cena inteira se transformando em padrões enquanto o gato desliza, mas depois sentimos que era movimento demais e não parecia vida real, então mudamos para um plano de câmera fixa mais contido, deixando os padrões de fundo se moverem sutilmente enquanto o gato passa.

Tentamos muitas versões: padrões como círculos mágicos, a câmera descendo para um mundo de arte islâmica, padrões saindo da tela, etc. Mais tarde, percebemos que "interessante" não era suficiente; também precisávamos de ganho emocional. Então usamos um design de contraste: começando com um plano opressivo de ângulo extremamente alto, e conforme a câmera se move para o quadro final, entra em um enorme espaço aberto, dando ao público uma sensação de iluminação súbita. No plano final, os padrões de ambos os lados se movem como uma esteira rolante, trazendo o gato para um espaço de exposição aberto.

Também fizemos uma concessão: sem retratos nos quadros. Uma vez que um retrato humano aparece no quadro, o público vai involuntariamente procurar todos os retratos, e sua atenção será roubada do gato. Queríamos que o público seguisse o gato, então removemos elementos que facilmente roubam a cena tanto quanto possível para manter a expressão sutil.

No design do quadro final deste plano, A Wen realizou uma operação muito inteligente: colocar o Prato de Padrão de Pavão diretamente no espaço de exposição, deixando o artefato central aparecer cedo durante o clímax. Depois de determinar o quadro final, voltamos e redesenvolvemos o primeiro quadro e o movimento da câmera, tornando o plano mais controlado.

Após o clímax emocional, precisávamos adicionar um pouco de novo estímulo. Pensamos no gato vendo o espaço depois de subir, ou vendo outro artefato, mas nenhum era tocante o suficiente.

Mais tarde, pensamos no gato vendo um pavão, e o pavão está vivo. Este ponto imediatamente nos fez sentir que a obra de arte tinha ganhado vida. Em termos de ritmo, também fizemos uma progressão passo a passo: o pavão primeiro vira a cabeça, depois o corpo, e finalmente abre as asas, guardando a surpresa para o último segundo.

Após o clímax, precisa retornar à realidade. Usamos uma maneira muito simples: cortar de volta para um close-up do gato, como se estivesse imaginando, depois cortar para um plano objetivo estabelecendo a realidade — o gato está na verdade parado na frente do prato de pavão olhando para o artefato. O público então entende que o segmento de fantasia veio da imaginação do gato.

Então vem o segmento de transição, visando explicar que "o artefato vai para Xangai" e "o gato decide entrar na caixa e ir junto".

Usamos montagem e processamento de tela dividida porque pode transmitir muita informação em pouco tempo. Ao fazer tais planos, cortamos as pessoas tanto quanto possível. Em filmes de animais, rostos humanos facilmente roubam a cena; o público é mais propenso a ter empatia com as pessoas, e sua atenção será desviada, então mantivemos apenas close-ups e ações sem mostrar rostos.

O segundo segmento originalmente seria sobre o que acontece com o gato na caixa de carga do avião.

Antes de determinar completamente o enredo, usamos o Sora para rodar algumas amostras para verificar rapidamente o ritmo e a composição, procurando surpresas e referências. Depois de rodá-las, não gostamos porque as imagens não eram arejadas, as cores eram amareladas, velhas e escuras, inconsistentes com o tom que definimos anteriormente. A lógica do enredo também não funcionou porque o gato na caixa não conseguia ver os artefatos lá fora, e os artefatos também deveriam estar em caixas.

Então descartamos todo o segmento "espiando dentro da caixa" e trazemos o foco de volta para a narrativa central: o gato branco acompanhando o prato de pavão a Xangai.

Para a chegada em Xangai, inicialmente queríamos fazer uma transição realista de um avião voando do Louvre para Xangai, e rodamos com o VEO 3. Também tentamos uma micro animação de mapa clássico. Mas esses planos foram todos rejeitados por nós.

Porque um mapa faz o público se preocupar particularmente com a racionalidade, como se as posições de Paris e Xangai e a distância do voo estão corretas, o que distrai a atenção. Também tentamos um plano mais abstrato de "mapa de ponto de fogo com pegadas", mas não gostamos do plano ser muito aberto; preferíamos que o público visse o sujeito chave ocupando uma porção maior do quadro.

Finalmente, decidimos mudar diretamente entre o "primeiro quadro do Louvre" e o "primeiro quadro do Museu de Arte de Pudong", tornando a transição mais próxima e focada.

Testamos muitos tipos de animações de transição: como um tapete se desenrolando, azulejos virando, imagens de avião, etc. Finalmente escolhemos o avião porque a imagem do avião apareceu nos planos antes e depois da transição. Imagens contínuas fazem o público se sentir mais confortável, mesmo se pular do realista para um estilo de arte em mosaico no meio, não será abrupto.

Depois de chegar a Xangai, o storyboard é mais direto: primeiro vendo o Museu de Arte de Pudong de longe para perto, depois vendo o gato correndo em direção ao museu. Gostamos muito de um dos planos: o gato correndo perto da água, com o reflexo na água sendo um pavão.

Esta ideia foi inicialmente "mais selvagem". Esperávamos que, conforme o gato corria, pudesse ver as sombras de muitos animais, como pavões, cavalos, camelos, etc., trazendo uma sensação de que "toda a arte islâmica chegou a Xangai junto". Tentamos text-to-image e text-to-video, mas nenhum funcionou. Também pensamos no gato se vendo como um tigre em seu coração, com a sombra sendo um tigre, mas isso era muito fracamente relacionado ao filme e foi rapidamente removido.

Mais tarde, descobrimos que entregar tal criatividade central diretamente à IA de uma só vez não é confiável e precisa ser dividido para execução. Primeiro, desenhamos o storyboard à mão, decidindo um plano de ângulo ligeiramente alto para que a atenção do público caia naturalmente no reflexo do lago.

A composição foi simplificada para "a sombra do gato é um pavão", que é mais diretamente relacionada à linha principal. Primeiro, usaríamos o Photoshop para compor a relação desejada, depois entregaríamos ao modelo para completar o estilo unificado e a dinâmica. Durante todo o processo, sentimos fortemente que mesmo um esboço à mão é mais intuitivo para a IA entender e para as pessoas se comunicarem.

Para o fechamento, ecoamos o conceito de "espelhos" novamente, terminando com uma imagem mais contida e bonita.

Isso é tudo para o storyboard.

Em seguida, a parte de arte é entregue a A Wen.

V. Arte

Eu (A Wen) faço principalmente duas coisas.

Primeiro, converter os storyboards do manuscrito de Hai Xin em visuais finais. Segundo, controlar o estilo artístico geral.

Depois de receber o projeto, fomos imediatamente aprender sobre arte islâmica. É um estilo de arte com o qual normalmente temos pouco contato, mas é muito distinto. Depois de dominar algumas palavras-chave centrais, é fácil criar arte em estilo mosaico com características exóticas. Resumimos 4 palavras-chave muito úteis na live; as duas mais usadas são "estilo Iznik" e "arte em mosaico". Aqui, mosaico se refere à arte em mosaico, que é diferente da Pixel art.

Temos dois princípios para fazer filmes. Deve parecer bom à primeira vista e ser durável à segunda vista. Na era da IA, é uma coisa preciosa para um público estar disposto a terminar de assistir ao seu curta-metragem. Parecer bom para nós equivale a uma sensação cinematográfica. Durável equivale a tantos detalhes e detalhes criativos quanto possível, incluindo detalhes de arte.

Todos são realmente muito sensíveis a uma sensação cinematográfica. Para a mesma imagem e o mesmo prompt, com resultados de modelos diferentes, você pode facilmente julgar qual tem mais uma sensação cinematográfica. Então, o primeiro passo na arte é escolher o modelo certo. Nosso modelo de geração de imagem principal atualmente é basicamente o Nano Banana Pro. Para modificação de imagem, usamos principalmente diretamente com modificação de texto, às vezes combinado com Photoshop. Também ajusto manualmente algumas partes.

Escolher o modelo certo é tão valioso quanto escolher o fornecedor certo. Ele pode fazer o trabalho bem e lidar com muitas modificações árduas. Por exemplo, havia um plano com o qual estávamos muito satisfeitos, mas depois de enviar o primeiro rascunho, o museu disse que este plano tinha que ser removido porque faria a movimentação dos artefatos parecer não profissional, e eles não queriam transmitir essa sensação ao público. Narrativamente, precisávamos deste plano para explicar o gato se escondendo na caixa para seguir os artefatos para Xangai. Finalmente, usamos o Nano Banana para "embrulhar" os artefatos, fazendo o manuseio parecer mais profissional, e passou.

Outro exemplo: o último quadro da imagem é muito bonito, mas você vai notar que a atenção fica na bunda do gato branco por muito tempo; isso foi um problema exposto apenas depois de mudar para o gato branco. A solução foi simples: deixar o rabo pendurado no primeiro quadro, e não seria um problema ao subir depois.

Ainda mais exagerado foi salvar o dia mudando o gato. Quando mudamos o protagonista de um gato preto para um gato branco no meio do caminho, muitos quadros estáticos e animações já estavam prontos.

Parece absurdo, mas a IA realmente pode mudar isso.

Naquela época, as ferramentas que podíamos usar eram limitadas, apenas a primeira geração do Nano Banana, que normalmente usávamos no Google Whisk. Nosso hábito é uma pasta por plano, então entramos em cada pasta uma por uma para mudar a cor do gato e terminamos tudo em um dia e meio.

Mais tarde, ao revisar, o Banana Pro foi lançado, e descobrimos que uma eficiência ainda mais absurda estava por vir. A IA não só pode mudar, mas também pode mudar cada vez mais rápido. Em plataformas de terceiros, você pode enviar todos os quadros estáticos de uma vez e mudar o protagonista gato preto para um gato branco com apenas uma frase, o que é mais eficiente.

Muitas pessoas perguntam onde o Nano Banana Pro é melhor utilizado.

Nossa experiência é que o próprio sistema de assinatura do Google tem algumas armadilhas. Compramos o Google Ultra, o plano mais alto, desde o lançamento e usamos até hoje. Você frequentemente vê outras pessoas dizendo que o Google tem descontos, como US$ 79 por mês durante três meses, ou um preço semestral, mas quando você olha para o preço da sua própria assinatura, pode não mudar nada e continua muito caro, ainda mais com impostos.

Outro ponto que nos deixa muito insatisfeitos é que o ponto de entrada para 4K não é claro. Alguns dizem que está no Flow, mas a geração padrão do Flow é 1K, e só aumenta para 4K ao baixar. Não temos certeza se é super-resolução ou 4K nativo. O Google AI Studio consegue gerar 4K de forma mais nativa, mas é cobrado separadamente.

Se você é um membro Ultra como nós, aqui está nosso uso mais pragmático: use o Flow para geração rápida no estilo gacha, porque é rápido com base 1K. Use o Gemini para iteração em múltiplas rodadas; as rodadas de diálogo são muito convenientes. Quando você tiver um bom domínio do resultado, pode ir para o AI Studio para obter 4K nativo.

Além disso, nossos prompts estão cada vez mais simples. A compreensão multimodal do modelo é muito forte e muitas vezes não requer textos longos. Por exemplo, jogo uma imagem, peço para extrair o gato e a borboleta, colocá-los em um fundo de cor sólida e depois transformar em pixel art. Depois de estabilizar o estilo, estender os materiais é muito eficiente.

E será que os prompts de hoje realmente precisam ser textos longos?

Tínhamos uma cena que precisava de uma vista frontal de uma exposição, mas ninguém conseguia entrar durante o período de montagem; a equipe só pôde nos enviar duas fotos rápidas de longe.

Essas duas já eram muito preciosas para nós, então as usamos como referência e deixamos o Gemini gerar diretamente uma vista frontal da exposição com base nas duas fotos, em 16:9.

O resultado foi muito bom, e o usamos para completar a cena final.

Ainda mais surpreendente foi quando fomos ao local no dia da inauguração e descobrimos que era quase idêntico ao local real. As pessoas não conseguiam entrar, mas a IA conseguiu.

Quando um modelo é poderoso o suficiente, ele não se importa com a origem do storyboard. Ou seja, às vezes você dá a ele alguns storyboards bastante absurdos, e ele instantaneamente entende o que você quer e gera diretamente alguns visuais muito bonitos. Todos esses são visuais gerados diretamente pelo modelo usando os storyboards da Hai Xin, e são todos muito bons.

Mas para criatividade complexa, você precisa iterar em estágios.

Veja o exemplo da cena "o gato andando na praia, com o reflexo na água sendo um pavão".

Primeiro, eu entenderia a perspectiva do esboço do storyboard.

Estou acostumado a criar um esboço bem粗略 no PPT. Eu tinha em mãos um PNG transparente de um gato branco "ator veterano"; colocá-lo no quadro constrói a perspectiva. Então, jogo esse esboço no modelo para transformá-lo em um estilo realista, obtendo primeiro uma cena básica de "um gato andando na praia com um lago próximo."

O segundo passo é colocar os pisos. Eu realmente usei prompts para colocar pisos no chão de concreto, testando muitas palavras-chave até encontrar uma versão com a "densidade ideal". Depois de colocá-los, a imagem tomou forma, mas múltiplas iterações deformariam a postura do gato, então eu deixava a IA ajustá-la novamente.

O terceiro passo é adicionar informações da exposição. A maneira mais simples é sobrepor no PS e ajustar o estilo da camada. Mas descobrimos que o reflexo do pavão no lago era difícil de animar, porque pavões estilizados não são facilmente convertidos em dinâmicas realistas. Então voltei ao PS, apaguei o pavão, substituí por uma sombra de pavão realista e joguei de volta no modelo para continuar rodando.

Depois, a cor do gato teve que ser mudada. Depois de mudar, descobri que os pisos "comeram" o gato branco, então coloquei os pisos novamente para obter o quadro estático final.

Finalmente, fazer a animação foi na verdade a parte mais simples. Geralmente, é saída direta; duas ou três tentativas podem obter boa dinâmica, como o gato andando pela praia e o reflexo do pavão na água o seguindo.

Depois, alguma experiência em arte sobre composição de cenas reais.

Há muitos marcos e exposições no curta-metragem que não podem estar errados, então precisamos de certeza. Muitas vezes, compomos o gato em cima de marcos reais existentes.

Agora, esse tipo de composição é muito simples; você apenas diz ao Nano Banana Pro que há um gato laranja de costas para a câmera perseguindo uma borboleta de uma cor especificada na cena, e ele pode gerar.

Duas pequenas dicas para aumentar a taxa de sucesso. Primeiro, corte antes de gerar. Por exemplo, não precisávamos das decorações na parte inferior do material do Peace Hotel, então eu as cortava antes de dar ao modelo. Muitas cenas internas são iguais; corte as áreas desnecessárias primeiro, e o modelo fica mais focado.

Segundo, se você precisar fazer um match cut ou reutilizar um assunto repetidamente, é recomendável primeiro extrair o gato e a borboleta para um fundo de cor sólida e depois mudar vários fundos. Deixar o modelo mudar constantemente de cena diretamente na mesma imagem facilmente come a borboleta, come o gato ou muda a cor do gato. Extrair o assunto primeiro e depois mudar o fundo tem uma taxa de sucesso muito maior.

Muitas pessoas perguntam por que não usamos referência de múltiplas imagens para geração de vídeo.

Em relação aos produtos de vídeo com múltiplas referências, experimentamos quase tudo no mercado enquanto fazíamos esses dois curtas, e o problema de nitidez é difícil de curar; os elementos ficam borrados com o menor movimento.

Mesmo com a nova função de múltiplas referências lançada recentemente no Flow, nós a testamos, e é difícil garantir que as exposições que queremos permaneçam inalteradas. Temos muitos assuntos estáveis para manter, incluindo várias exposições, o gato e a borboleta, então, no final, a rotina do primeiro e último quadro é mais estável.

Muitos amigos também perguntam: ainda há necessidade de usar o PS?

Acho que o PS ainda é útil, mas o abrimos cada vez menos. Recomendo muito uma função que poucas pessoas usam, chamada "Harmonize".

Você cola um PNG ou imagem em um quadro estático, clica em harmonizar, e ele automaticamente combina a iluminação do ambiente, tornando a composição mais integrada. Por exemplo, na cena com o prato flutuante, clico em harmonizar, e a diferença na iluminação antes e depois é muito óbvia; a eficiência é alta.

Ao mesmo tempo, o Banana Pro é poderoso o suficiente para que muitas coisas possam ser feitas diretamente com ele. Por exemplo, no filme do gato laranja, há uma cena em que primeiro usei o Vidu para gerar uma prévia; a nitidez não era suficiente e as exposições não estavam estáveis, mas a relação entre o movimento do gato e as exposições estava correta.

Então, joguei tanto a prévia quanto os materiais da exposição no Banana Pro, deixando-o manter a composição inalterada e substituir as exposições flutuantes por estas que forneci, permitindo que elas aparecessem repetidamente e de forma dispersa. O resultado foi uma imagem muito boa na primeira versão, e ainda adicionou automaticamente profundidade de campo de primeiro/segundo plano e desfoque de movimento, basicamente atendendo às necessidades de produção.

VI. Animação

Nossa principal ferramenta de vídeo é o Flow. Nosso modelo de vídeo mais usado é o VEO 3.1.

O Flow também lançou recentemente uma função 4K, que ajuda na qualidade da imagem. Para modelos de vídeo auxiliares, também usamos Kling, Hailuo, Jimeng, Wanxiang, Luma, etc., mas o Flow é mais conveniente de usar e os visuais têm mais uma sensação cinematográfica.

Sentimos que entramos em uma era onde podemos "editar vídeo". Muitas ferramentas de vídeo podem editar vídeo diretamente. Há uma função oculta no Flow, com um ponto de entrada profundo; há um botão "editar" no canto superior esquerdo do vídeo gerado. Uma vez lá dentro, você pode adicionar coisas ao vídeo, cortar coisas e até mudar a posição e o movimento da câmera; é um pouco experimental, mas às vezes útil.

Suas limitações também são óbvias; por exemplo, pode adicionar e cortar, mas é difícil fazer "editar e substituir", como mudar um gato preto para um gato branco. Para conseguir isso, você tem que remover primeiro e depois inserir, o que parece muito desajeitado.

No Flow, também usamos muito o recurso de rabisco. O texto puro é difícil para fazer o gato completar certas ações, como fazer o gato pular diretamente; não conseguimos isso mesmo após muitas tentativas.

Mas desenhando um rabisco no primeiro quadro para dar instruções de movimento, como para onde a borboleta deve voar e o gato seguindo-a, e depois adicionando um prompt "siga as instruções na anotação e depois apague minha anotação", o modelo gerará de acordo com as regras de movimento que você anotou, e o gato pode sair suavemente do quadro.

E o Ray3 da Luma é surpreendentemente útil. Fizemos um teste no Natal, enviando uma prévia muito difícil e adicionando um prompt; ele gerou lindamente com alta nitidez, até mesmo criando algo do nada no vídeo original.

A desvantagem é a geração lenta, mas a vantagem é a alta qualidade de composição, adequada para produção.

O novo recurso de criação de personagens do Wan 2.6 também merece destaque. Seus personagens humanos ainda são propensos a sair do personagem, mas os personagens animais são muito mais empolgantes que os humanos. Eu carreguei casualmente um vídeo muito desfocado e escuro do meu gato Nika, e depois de construir o personagem, pude usar @ para convocá-lo no Wan 2.6; a qualidade da geração estava em um nível "aprovado pelo mestre" e em alta definição. Fizemos ele fazer muitas coisas, como um dinossauro vindo salvá-lo. Este recurso foi lançado depois que nossos dois curtas já haviam sido postados, o que foi um pouco de timing ruim.

Outra pequena dica: ao fazer microanimações para a tela final, você pode escolher um "modelo ligeiramente pior", ou seja, um modelo de geração anterior. As amplitudes de movimento da geração anterior são geralmente menores, o que às vezes é ideal para a tela final. Por exemplo, para a tela final, queremos que o ambiente se mova ligeiramente, mas o Flow pode adicionar muitos padrões imaginados e se mover demais.

Usar um modelo de geração anterior na verdade se move na medida certa. Usei o Jimeng 3.0 desta vez, e essa amplitude de micromovimento foi muito apropriada.

VII. Rascunhos Descartados

Houve muitos rascunhos descartados desta vez, especialmente para o do gato laranja, porque depois que o Pro foi lançado, implementar algumas ideias era rápido, e a quantidade de exploração foi maior. Aqui estão alguns que particularmente gostamos, mas que excluímos dolorosamente.

Um é o "Pastel de Borboleta" que o público de Xangai adora perguntar. O pastel de borboleta de Xangai é muito famoso, e de fato fizemos um pastel de borboleta gigante, e gostamos muito do visual. Mas na IA, assim que o pastel de borboleta se move, ele se transforma em uma borboleta de verdade e nunca mais voa, então tivemos que desistir.

Outro é um ponto de check-in muito popular no Museu de Arte de Pudong, onde você pode fotografar a Pérola Oriental. Fizemos uma cena onde uma borboleta enfia meia asa de fora da janela, e a outra metade da asa é completada pela sombra da luz solar, formando uma borboleta completa. O visual era lindo, mas quando se movia, a borboleta ainda não voava, então foi excluído.

Outro era uma cena da galeria de arte islâmica do Louvre; inicialmente queríamos torná-la mais exagerada, até mesmo com dinâmica de nível de tsunami, mas depois sentimos que era muito fantástica e não se encaixava na sensação "discreta, mas fantástica" que queríamos, então também foi excluída.

Finalmente

Finalmente, o ponto central que queremos transmitir é:

Quanto mais conveniente o modelo, mais você deve se esforçar para fazer melhor.

Agora que os modelos estão cada vez mais convenientes, muitos criadores tendem a usar agentes para gerar diretamente conjuntos inteiros de soluções de storyboard ou deixá-los completar mais da criação. Mas o que queremos dizer é que a conveniência do modelo não deve ser uma desculpa para a preguiça.

É mais como um lembrete: você tem mais capacidade para tornar seu trabalho melhor.

Terminando com uma frase que costumamos dizer:

Enquanto você estiver em ação, você está avançando.

Obrigado a todos, nossa apresentação de hoje termina aqui.

Se você achou útil, fique à vontade para compartilhar com seus amigos; é uma grande ajuda para nós!

I. Elenco

II. Definindo o Tom

III. Música

IV. Storyboard

V. Arte

VI. Animação

VII. Rascunhos Descartados

Finalmente

Use YouMind to read viral articles deeply

Artigos virais recentes

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

Why Can't We Meet Deadlines? The Causes and Solutions Identified by a Nobel Laureate in 1979

How to turn a boring app into $10M with one mascot

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

A Guide to Practicing 'Self-Responsibility' Without Breaking Your Spirit

The Fable Loop Library: 25 Workflows on Autopilot

Vídeo de IA "Louvre Cat": Uma análise profunda do processo de criação viral

I. Elenco

II. Definindo o Tom

III. Música

IV. Storyboard

V. Arte

VI. Animação

VII. Rascunhos Descartados

Finalmente

Use YouMind to read viral articles deeply

Transforme o seu Markdown num artigo 𝕏 impecável

Artigos virais recentes

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

Why Can't We Meet Deadlines? The Causes and Solutions Identified by a Nobel Laureate in 1979

How to turn a boring app into $10M with one mascot

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

A Guide to Practicing 'Self-Responsibility' Without Breaking Your Spirit

The Fable Loop Library: 25 Workflows on Autopilot