Vídeo de IA "Louvre Cat": Uma análise profunda do processo de criação viral

Ontem à noite, fiquei super, super feliz em convidar meus dois bons amigos e ídolos, Hai Xin e A Wen, para fazer uma live conosco.

Eles vieram compartilhar o processo completo de criação do seu trabalho de vídeo com IA, "Gato do Louvre".

Fiquei chocado depois de ouvir. Eu disse: vocês realmente contam tudo, sem segurar nada, compartilhando tudo assim...

Sério, essa live estava cheia de informações práticas. Eu nem queria resumir porque era demais. Passei a noite toda organizando esta transcrição em detalhes, combinando com a apresentação de slides deles, e agora, com a autorização deles, estou compartilhando com todos.

Espero que essas experiências valiosas possam fornecer alguma inspiração para o nosso uso de IA e nosso trabalho criativo.

Afinal, não há muitas pessoas tão talentosas quanto eles que estão dispostas a aparecer e compartilhar tudo sem reservas.

Tudo começa com o filme. Este é o ponto de partida.

Ring Hyacinth

@ring_hyacinth

15 de novembro de 2025

A convite do Museu de Arte de Pudong, criamos um vídeo promocional oficial para a primeira exposição do Louvre em Xangai usando IA. Espero que gostem!

Estreia do Museu do Louvre em Xangai: "Milagres dos Padrões: Obras-primas da Arte Indiana, Iraniana e Otomana do Louvre"

13 de dezembro de 2025 a 6 de maio de 2026, uma grande atração no Museu de Arte de Pudong.

Anfitrião: Museu do Louvre, Museu de Arte de Pudong

Produtor: Grupo Lujiazui

Mostrar mais

73 162 992 135K

Esses dois filmes foram realmente de tirar o fôlego para mim na época.

Arte, isso é verdadeira arte.

Esta live é um compartilhamento sem reservas dos dois principais criadores desses dois filmes, Hai Xin e A Wen, sobre "Gato do Louvre".

A seguir está a transcrição da live, toda nas vozes de Hai Xin & A Wen:

————

Olá a todos, somos Hai Xin e A Wen. Somos artistas digitais e uma dupla criativa que trabalha com IA.

Hoje, queremos compartilhar todo o processo — desde o conceito até o storyboard e a execução com ferramentas de IA — dos vídeos promocionais oficiais que produzimos recentemente para o Museu de Arte de Pudong.

Anteriormente, fizemos dois curtas-metragens relativamente famosos. O primeiro foi no início do ano passado, quando o Beijing Daily nos convidou para criar um promo de civilização urbana para Pequim intitulado "O Gato da Cidade Proibida Vai Trabalhar". Após a conclusão, ele se espalhou muito bem na internet e trouxe muitas oportunidades, incluindo uma exposição na Expo de Osaka e ser o filme de abertura da Unidade 9 no palco principal do TED 2025.

Durante esse evento do TED, Sam Altman também fez uma entrevista na Unidade 11, então tivemos a honra de compartilhar o mesmo palco por um curto período. Nunca imaginamos que nossos filmes viajariam para países que nós mesmos nem visitamos.

O segundo filme foi o promo de civilização urbana deste ano para Pudong, Xangai, continuando o tema do "gatinho", intitulado "Gatinho Civilizado Passeia por Pudong". Causou bastante rebuliço no lançamento, com republicações de contas oficiais como Shanghai Release e Pudong Civilization, e os dados foram excelentes.

Offline, apareceu nas telas ultra longas do metrô de Lujiazui e na tela gigante do Super Brand Mall de frente para a Pearl Oriental, rodando na área central de Lujiazui. Também foi exibido no conjunto de 12 telas sob a Pearl Oriental. Ainda recebemos um "Prêmio de Trabalho de Comunicação de Alta Qualidade na Internet" da Administração do Ciberespaço de Xangai. Sempre tivemos uma série relacionada a gatinhos; pode-se dizer que somos profissionais em fazer gatos.

No final do ano, o Museu de Arte de Pudong nos procurou. Eles estavam organizando uma grande exposição oficial do Louvre em Xangai — a primeira exposição de grande porte desse tipo na cidade — e queriam que criássemos o promo oficial. O museu queria dois curtas-metragens para cobrir um longo ciclo de promoção de cerca de um a dois meses.

No final, entregamos dois filmes. A primeira metade conta a história de um "gatinho branco da França vindo para Xangai", enquanto planta ovos de Páscoa para a segunda metade.

A segunda metade conta a história de um "gato laranja porta-voz de Pudong indo ao Museu de Arte de Pudong para ver a exposição".

Ambos os filmes giram em torno de artefatos reais para o design narrativo. A primeira metade centra-se no Prato de Padrão de Pavão. A segunda metade centra-se na "Tabuleta do Concurso de Poesia". Na segunda metade, também reprocessamos a música, adicionando saxofone para uma variação de jazz para dar mais um toque de Xangai.

Após o lançamento dos filmes, eles se espalharam por várias plataformas, e os dados do canal de vídeo oficial do museu foram ótimos. Nossas próprias contas receberam muitas mensagens privadas de espectadores dizendo que decidiram ver a exposição por causa desses dois curtas-metragens.

Há também cenários de reprodução offline, como as telas do Bund, que ficarão em loop até maio do ano que vem.

Em seguida, queremos compartilhar nosso processo criativo completo e alguns insights, esperando que sejam úteis para vocês.

I. Elenco

O primeiro ponto que queremos compartilhar é o elenco, e por que finalmente escolhemos um gato branco mais um gato laranja.

Embora tenhamos decidido continuar com o tema do gato, há muito pensamento por trás dos próprios gatos. Inicialmente, partimos das cores temáticas do Museu de Arte de Pudong. O museu é predominantemente preto e branco, então nosso primeiro pensamento para um protagonista foi um gato malhado (preto e branco).

A história na versão inicial era completamente diferente do filme final. As peças centrais não eram o Prato de Pavão e a Tabuleta de Poesia; escolhemos uma pintura a óleo. Definimos que o gato malhado estava originalmente dormindo aos pés do rei na pintura, e então foi "sacudido" quando os funcionários do museu moveram a pintura. O gato começa a explorar o Louvre e finalmente vê as peças saindo do Louvre em um caminhão com destino a Xangai. O gato malhado decide pular em um skate para perseguir o caminhão, com muitos pequenos eventos emocionantes acontecendo ao longo do caminho. Até fizemos um demo.

Mais tarde, abandonamos este plano por vários motivos. O mais direto foi o longo período de promoção; o museu queria dois filmes. Se fizéssemos a perseguição de caminhão, a segunda parte pareceria um filme de estrada depois de dividida, o que distorceria o tom e consumiria muita energia na perseguição, inconsistente com a vibe de um "promo oficial de museu". Então descartamos o plano do gato malhado completamente.

Depois que o museu solicitou dois filmes, nossa primeira solução intuitiva foi simples: dividir o gato malhado em um gato branco e um gato preto. Seguindo em frente, descobrimos que um gato preto pareceria muito escuro no filme final e não chamaria a atenção. Queríamos que o protagonista fosse "mais claro" para prender a atenção do público mais rápido, então ajustamos de "um preto, um branco" para "um branco, um laranja". Além disso, o gato laranja ecoa o papel do gato laranja como porta-voz de Xangai do nosso filme anterior, tornando-o mais adequado para a parte de Xangai. A parte francesa era mais adequada para o gato branco.

II. Definindo o Tom

O segundo ponto é definir o tom.

Decida os visuais e a música primeiro, depois siga em frente com todos os storyboards.

Ao fazer um filme, uma etapa muito necessária é decidir o "tom do filme". O tom consiste em duas partes. A primeira é como são os visuais principais e a sensação da cinematografia. A segunda é a música. Para um TVC, a música diz diretamente ao público como se sentir e, inversamente, guia o ritmo da edição, determinando se os cortes são rápidos ou lentos.

Este projeto envolveu muitas informações: Museu de Arte de Pudong, o Louvre, arte islâmica, Xangai, Paris, etc.

Primeiro notamos o "Salão dos Espelhos" do Museu de Arte de Pudong e sentimos que o conceito de espelhos era perfeito para a estrutura. O Louvre e o Museu de Arte de Pudong poderiam ter uma relação de espelho, assim como Xangai e Paris, e os dois gatinhos. Então, inicialmente, queríamos fazer uma "animação em tela dividida", contando Paris de um lado e Xangai do outro, finalmente se encontrando no Museu de Arte de Pudong.

Fizemos alguns visuais exploratórios iniciais, como o Bund olhando para o Museu de Arte de Pudong em cima e o Louvre em baixo. Também fizemos uma composição de dois gatos olhando para cartazes em suas respectivas mesas.

Mais tarde, A Wen fez uma "revisão radical" com base nesses visuais, colocando o "Louvre" em cima e o "Museu de Arte de Pudong" como um reflexo embaixo. A imagem era muito arejada, com uma textura cinematográfica, temperamento elegante e iluminação realista e brilhante. Outro conjunto de visuais foi otimizado, movendo o "cartaz" da mesa para o próprio edifício para tornar a informação ambiental mais natural.

Com base nisso, determinamos a atmosfera visual de todo o filme.

III. Música

O terceiro ponto é a música.

Geralmente fazemos a música muito cedo porque ela determina o ritmo, que determina o número de tomadas e a estratégia de edição. Para este projeto, decidimos que o instrumento principal seria o piano. Há duas razões. Uma é que gostamos da textura de reflexão "ondulação na água" nos visuais espelhados, que nos lembra acordes de piano limpos. A outra é que a estrutura de grade do Salão dos Espelhos nos lembra a ordem de um teclado de piano.

As trilhas sonoras de curtas-metragens narrativos precisam de um "arco"; elas não podem ter o mesmo ritmo do início ao fim como ruído branco. Uma história deve ter começo, desenvolvimento, clímax e conclusão, e a música deve ter uma estrutura correspondente.

Usamos o Suno porque ele gera música com boa sonoridade e permite controle fino sobre os segmentos. Você pode especificar a duração de cada melodia e dizer claramente a ele que emoção evocar em um determinado ponto, como uma reviravolta repentina, tensão ou suspense.

Nossa estrutura musical desta vez foi aproximadamente: a abertura usa acordes de piano muito simples para atrair lentamente o público para a história. Em seguida, um segmento segue o protagonista e o ambiente. Depois disso, há um segmento de transição criando um pequeno contratempo para manter o público assistindo. Então entra na segunda melodia, carregando as ações do protagonista e o clímax. Finalmente, o final — queríamos retornar a um belo acorde de piano, então adicionamos especificamente um encerramento.

Uma vantagem do Suno é que você pode regenerar infinitamente segmentos com os quais não está satisfeito. Depois de terminar a música francesa, exportamos a música inteira e a carregamos de volta no Suno para fazer uma variação para a parte de Xangai, mantendo a melodia. Definimos a Influência de Áudio para 50%, garantindo que a melodia básica permanecesse, e então dissemos a ele para adicionar saxofone e fazer com que soasse como jazz antigo de Xangai. Ele fez variações muito apropriadas na melodia original.

Uma vez, ele deu um final um tanto exagerado, mas acabamos mudando de volta para o final original para mantê-lo mais contido.

Além disso, postamos essas trilhas sonoras online sob a identidade do nosso gato, Nika. Nika é considerada uma "música lendária do Planeta dos Gatos", e inclui algumas trilhas sonoras de TVC que fizemos para clientes.

IV. Storyboard

Em seguida é como abordar o storyboard.

Nossa estética pessoal é muito forte, então isso é mais sobre compartilhar experiência.

Nosso requisito básico para o storyboard de abertura é "alta densidade de informação".

Tente dar uma dica sobre o que é a história logo no primeiro take. Por exemplo, o primeiro take de "O Gato da Cidade Proibida Vai Trabalhar" é o gato abrindo os olhos com o reflexo da Cidade Proibida em suas pupilas, explicando rapidamente "gato e Cidade Proibida". O início de "Gatinho Civilizado Passeia por Pudong" é o gato empurrando um mapa de Xangai, explicando rapidamente "gato vindo para Xangai para turismo".

Para a parte do gatinho branco do Louvre, queríamos explicar a história em três takes. O primeiro take mostra o gato olhando para o cartaz, plantando o visual chave do "cartaz da exposição" na mente do público. O segundo take usa um close-up para apresentar o protagonista. O terceiro take usa um plano geral para estabelecer o ambiente enquanto mostra a relação de espelho de "Louvre refletindo o Museu de Arte de Pudong".

O storyboard também precisa de um senso de ritmo. O ritmo vem em grande parte das mudanças no tamanho do take. Plano geral após plano geral parece muito monótono, então alternamos entre planos gerais e close-ups para criar uma sensação de expansão e contração. Se o take de abertura tiver muita informação, o público não saberá para onde olhar no primeiro segundo; usamos animação simples para guiar o olhar. A primeira metade usa um método de "puxar a cortina", e a segunda metade também usa um design de abertura clássico.

Em seguida vem a primeira parte da história, que é uma parte central e um conjunto de storyboards com os quais estamos muito satisfeitos.

O objetivo desta sequência é mostrar o gato branco saindo do Louvre, se apaixonando pelo Prato de Padrão de Pavão e tendo uma imaginação fantástica.

Esta sequência precisa transmitir duas informações: o protagonista está no Louvre, e o protagonista gosta do prato de pavão.

O primeiro take usa uma peça clássica do Louvre para estabelecer o local. Escolhemos a Vitória de Samotrácia, uma escultura muito clássica. Deliberadamente não escolhemos a Mona Lisa porque é muito comum e pareceria muito clichê. Em termos de composição, não focamos a câmera apenas na escultura porque queríamos que o público se concentrasse no gato. Então colocamos a escultura no fundo como um enfeite e usamos um ângulo extremamente baixo, fazendo com que o gato branco em primeiro plano ocupasse mais volume no quadro, forçando o público a se concentrar no gato enquanto ainda reconhece instantaneamente "isto é o Louvre".

O segundo take começa a introduzir sutilmente a arte islâmica. Referenciamos um artista famoso no Instagram cuja prática comum é filmar cenas da vida cotidiana e depois fazer com que os símbolos dentro delas se movam.

Essa sensação é maravilhosa porque é fantástica, mas parece algo que poderia acontecer na vida real. Inicialmente, fizemos uma versão mais exagerada, como a cena inteira se transformando em padrões enquanto o gato desliza, mas depois sentimos que era movimento demais e não parecia vida real, então mudamos para um plano de câmera fixa mais contido, deixando os padrões de fundo se moverem sutilmente enquanto o gato passa.

Tentamos muitas versões: padrões de círculo mágico, a câmera descendo para um mundo de arte islâmica, padrões saindo da tela, etc. Mais tarde, percebemos que "interessante" não era suficiente; também precisávamos de ganho emocional. Então usamos um design de contraste: começando com um ângulo extremamente alto e opressivo, e conforme a câmera se move para o quadro final, ela entra em um enorme espaço aberto, dando ao público uma sensação de esclarecimento repentino. No take final, os padrões em ambos os lados se movem como uma esteira rolante, trazendo o gato para um espaço de exposição aberto.

Também fizemos uma troca: sem retratos nos quadros. Uma vez que um retrato humano aparece no quadro, o público involuntariamente procurará todos os retratos, e sua atenção será roubada do gato. Queríamos que o público seguisse o gato, então removemos elementos que facilmente roubam a cena o máximo possível para manter a expressão sutil.

No design do quadro final deste take, A Wen realizou uma operação muito inteligente: colocar o Prato de Padrão de Pavão diretamente no espaço da exposição, deixando a peça central aparecer cedo durante o clímax. Depois de determinar o quadro final, voltamos e redesenhamos o primeiro quadro e o movimento da câmera, tornando o take mais controlado.

Após o clímax emocional, precisávamos adicionar um pouco de novo estímulo. Pensamos no gato vendo o espaço depois de subir, ou vendo outra peça, mas nenhum foi tocante o suficiente.

Mais tarde, pensamos no gato vendo um pavão, e o pavão está vivo. Este ponto imediatamente nos fez sentir que a obra de arte tinha ganhado vida. Em termos de ritmo, também fizemos uma progressão passo a passo: o pavão primeiro vira a cabeça, depois o corpo, e finalmente abre as asas, guardando a surpresa para o último segundo.

Após o clímax, ele precisa retornar à realidade. Usamos uma maneira muito simples: cortar para um close-up do gato, como se estivesse imaginando, depois cortar para um take objetivo estabelecendo a realidade — o gato está na verdade parado na frente do prato de pavão olhando para a peça. O público então entende que o segmento de fantasia veio da imaginação do gato.

Em seguida vem o segmento de transição, com o objetivo de explicar que "a peça está indo para Xangai" e "o gato decide entrar na caixa e ir junto".

Usamos montagem e processamento de tela dividida porque pode transmitir muita informação em pouco tempo. Ao fazer tais takes, cortamos as pessoas o máximo possível. Em filmes de animais, rostos humanos facilmente roubam a cena; o público é mais propenso a ter empatia com pessoas, e sua atenção será desviada, então mantivemos apenas close-ups e ações sem mostrar rostos.

O segundo segmento era originalmente sobre o que acontece com o gato na caixa de carga do avião.

Antes de determinar completamente o enredo, usamos o Sora para executar algumas amostras para verificar rapidamente o ritmo e a composição, procurando surpresas e referências. Depois de executá-las, não gostamos porque as imagens não eram arejadas, as cores eram amareladas, velhas e escuras, inconsistentes com o tom que definimos anteriormente. A lógica do enredo também não funcionava porque o gato na caixa não podia ver as peças lá fora, e as peças também deveriam estar em caixas.

Então descartamos todo o segmento de "espiar dentro da caixa" e trouxemos o foco de volta para a narrativa central: o gato branco acompanhando o prato de pavão para Xangai.

Para a chegada em Xangai, inicialmente queríamos fazer uma transição realista de um avião voando do Louvre para Xangai, e executamos com VEO 3. Também tentamos uma micro-animação de mapa clássico. Mas esses planos foram todos rejeitados por nós.

Porque um mapa faz o público se preocupar particularmente com a racionalidade, como se as posições de Paris e Xangai e a distância do voo estão corretas, o que distrai a atenção. Também tentamos um plano mais abstrato de "mapa de ponto de fogo com pegadas", mas não gostamos do take ser muito amplo; preferimos que o público visse o sujeito chave ocupando uma porção maior do quadro.

Finalmente, decidimos mudar diretamente entre o "primeiro quadro do Louvre" e o "primeiro quadro do Museu de Arte de Pudong", tornando a transição mais próxima e focada.

Testamos muitos tipos de animações de transição: como um tapete se desenrolando, azulejos virando, imagens de avião, etc. Finalmente escolhemos o avião porque a imagem do avião apareceu nos takes antes e depois da transição. Imagens contínuas fazem o público se sentir mais confortável, mesmo que pule do realista para um estilo de arte em mosaico no meio, não será abrupto.

Depois de chegar em Xangai, o storyboard é mais direto: primeiro vendo o Museu de Arte de Pudong de longe para perto, depois vendo o gato correndo em direção ao museu. Gostamos muito de um dos takes: o gato correndo perto da água, com o reflexo na água sendo um pavão.

Esta ideia era inicialmente "mais selvagem". Esperávamos que, enquanto o gato corria, ele pudesse ver as sombras de muitos animais, como pavões, cavalos, camelos, etc., trazendo uma sensação de que "toda a arte islâmica chegou a Xangai junto". Tentamos texto para imagem e texto para vídeo, mas nenhum funcionou. Também pensamos no gato se vendo como um tigre em seu coração, com a sombra sendo um tigre, mas isso era muito fracamente relacionado ao filme e foi rapidamente removido.

Mais tarde, descobrimos que entregar essa criatividade central diretamente para a IA de uma só vez não é confiável e precisa ser dividido para execução. Primeiro desenhamos o storyboard à mão, decidindo por um take ligeiramente alto para que a atenção do público naturalmente caísse no reflexo do lago.

A composição foi simplificada para "a sombra do gato é um pavão", que é mais diretamente relacionada à linha principal. Primeiro usaríamos o Photoshop para compor a relação desejada, depois entregaríamos ao modelo para completar o estilo unificado e a dinâmica. Ao longo do processo, sentimos fortemente que mesmo um desenho à mão grosseiro é mais intuitivo para a IA entender e para as pessoas se comunicarem.

Para o encerramento, ecoamos o conceito de "espelhos" novamente, terminando com uma imagem mais contida e bonita.

Isso é tudo para o storyboard.

Em seguida, a parte de arte é entregue a A Wen.

V. Arte

Eu (A Wen) faço principalmente duas coisas.

Primeiro, converter os storyboards do manuscrito de Hai Xin em visuais finais. Segundo, controlar o estilo artístico geral.

Depois de receber o projeto, fomos imediatamente aprender sobre arte islâmica. É um estilo de arte com o qual geralmente temos pouco contato, mas é muito distinto. Depois de dominar algumas palavras-chave principais, é fácil criar arte em estilo mosaico com características exóticas. Resumimos 4 palavras-chave muito úteis na live; as duas mais usadas são "estilo Iznik" e "arte em mosaico". Aqui, mosaico se refere à arte em mosaico, que é diferente da arte em pixel.

Temos dois princípios para fazer filmes. Deve parecer bom à primeira vista e ser durável à segunda vista. Na era da IA, é uma coisa preciosa um público estar disposto a terminar de assistir ao seu curta-metragem. Parecer bom para nós equivale a uma sensação cinematográfica. Durável equivale a tantos detalhes e detalhes criativos quanto possível, incluindo detalhes artísticos.

Na verdade, todos são muito sensíveis a uma sensação cinematográfica. Para a mesma imagem e o mesmo prompt, com resultados de modelos diferentes, você pode facilmente julgar qual tem mais sensação cinematográfica. Então, o primeiro passo na arte é escolher o modelo certo. Nosso modelo atual de geração de imagem principal é basicamente o Nano Banana Pro. Para modificação de imagem, usamos principalmente diretamente com modificação de texto, às vezes combinado com Photoshop. Também ajusto manualmente algumas partes.

Escolher o modelo certo é tão valioso quanto escolher o fornecedor certo. Ele pode fazer o trabalho bem e lidar com muitas modificações árduas. Por exemplo, havia um take com o qual estávamos muito satisfeitos, mas depois de enviar o primeiro rascunho, o museu disse que este take tinha que ser removido porque faria a movimentação das peças parecer pouco profissional, e eles não queriam transmitir essa sensação ao público. Narrativamente, precisávamos deste take para explicar o gato se escondendo na caixa para seguir as peças para Xangai. Finalmente, usamos o Nano Banana para "embrulhar" as peças, fazendo a movimentação parecer mais profissional, e passou.

Outro exemplo: o último quadro da imagem é muito bonito, mas você notará que a atenção fica na bunda do gato branco por muito tempo; este foi um problema exposto apenas depois de mudar para o gato branco. A solução foi simples: deixar o rabo pendurado no primeiro quadro, e não seria um problema ao andar depois.

Ainda mais exagerado foi salvar o dia mudando o gato. Quando mudamos o protagonista de um gato preto para um gato branco no meio do caminho, muitos quadros estáticos e animações já estavam prontos.

Parece absurdo, mas a IA realmente pode mudar isso.

Na época, as ferramentas que podíamos usar eram limitadas, apenas a primeira geração do Nano Banana, que geralmente usávamos no Whisk do Google. Nosso hábito é uma pasta por take, então entramos em cada pasta uma por uma para mudar a cor do gato, e terminamos tudo em um dia e meio.

Mais tarde, ao revisar, o Banana Pro foi lançado, e descobrimos que uma eficiência ainda mais absurda estava por vir. A IA não só pode mudar, mas também pode mudar cada vez mais rápido. Em plataformas de terceiros, você pode carregar todos os quadros estáticos de uma vez e mudar o protagonista gato preto para um gato branco com apenas uma frase, o que é mais eficiente.

Muitas pessoas perguntam onde o Nano Banana Pro é melhor utilizado.

Nossa experiência é que o próprio sistema de assinatura do Google tem algumas armadilhas. Compramos a assinatura topo de linha Google Ultra desde o lançamento e a usamos até hoje. Você vê frequentemente outras pessoas dizendo que o Google tem descontos, como US$ 79 por mês durante três meses, ou um preço semestral, mas quando você olha para o preço da sua própria assinatura, pode não mudar nada e continua muito caro, ainda mais com impostos.

Outro ponto que nos deixa muito insatisfeitos é que o ponto de entrada para 4K não é claro. Alguns dizem que está no Flow, mas a geração padrão do Flow é 1K, e ele só faz super-resolução para 4K ao baixar. Não temos certeza se é super-resolução ou 4K nativo. O Google AI Studio consegue gerar 4K de forma mais nativa, mas é cobrado separadamente.

Se você é um membro Ultra como nós, aqui está nosso uso mais pragmático: use o Flow para geração rápida no estilo "gacha" porque é rápido com uma base de 1K. Use o Gemini para iteração em múltiplas rodadas; as rodadas de diálogo são muito convenientes. Quando você tiver um bom domínio do resultado, pode ir para o AI Studio para obter 4K nativo.

Além disso, nossos prompts estão cada vez mais simples. A compreensão multimodal do modelo é muito forte e muitas vezes não requer textos longos. Por exemplo, eu jogo uma imagem, peço para extrair o gato e a borboleta, colocá-los em um fundo de cor sólida e depois transformar tudo em pixel art. Depois de estabilizar o estilo, estender os materiais é muito eficiente.

E será que os prompts de hoje realmente precisam ser textos longos?

Tínhamos uma cena que precisava de uma vista frontal de uma exposição, mas ninguém conseguia entrar durante o período de montagem; a equipe só podia nos enviar duas fotos rápidas de longe.

Essas duas já eram muito valiosas para nós, então as usamos como referência e deixamos o Gemini gerar diretamente uma vista frontal da exposição com base nas duas fotos, em 16:9.

O resultado foi muito bom, e o usamos para completar a cena final.

Ainda mais surpreendente foi quando fomos ao local no dia da inauguração e descobrimos que era quase idêntico ao local real. As pessoas não conseguiam entrar, mas a IA conseguiu.

Quando um modelo é poderoso o suficiente, ele não se importa com a origem do storyboard. Ou seja, às vezes você dá a ele alguns storyboards bastante absurdos, e ele instantaneamente entende o que você quer e gera diretamente alguns visuais muito bons. Todos esses são visuais gerados diretamente pelo modelo usando os storyboards da Hai Xin, e são todos muito bons.

Mas para criatividade complexa, você precisa iterar em etapas.

Pegue a cena do "gato andando na praia, com o reflexo na água sendo um pavão" como exemplo.

Primeiro, eu entenderia a perspectiva do esboço do storyboard.

Estou acostumado a construir um esboço muito tosco no PPT. Por acaso, tinha um PNG transparente de um gato branco "ator veterano" em mãos; colocá-lo no quadro constrói a perspectiva. Então, jogo esse esboço tosco no modelo para transformá-lo em um estilo realista, obtendo primeiro uma cena básica de "um gato andando na praia com um lago próximo."

O segundo passo é colocar os pisos. De fato, usei prompts para colocar pisos no chão de concreto, tentando muitas palavras-chave até encontrar uma versão com a "densidade ideal". Depois de colocá-los, a imagem tomou forma, mas múltiplas iterações deformariam a postura do gato, então eu deixava a IA ajustá-lo novamente.

O terceiro passo é adicionar informações da exposição. A maneira mais simples é sobrepor no PS e ajustar o estilo da camada. Mas descobrimos que o reflexo do pavão no lago era difícil de animar, porque pavões estilizados não são facilmente convertidos em dinâmicas realistas. Então, voltei ao PS, apaguei o pavão, substituí por uma sombra realista de pavão e joguei de volta no modelo para continuar rodando.

Depois, a cor do gato teve que ser mudada. Depois de mudar, descobri que os pisos "comeram" o gato branco, então coloquei os pisos novamente para obter o quadro estático final.

Finalmente, fazer a animação foi, na verdade, a parte mais simples. Geralmente, é saída direta; duas ou três tentativas podem obter boas dinâmicas, como o gato andando pela praia e o reflexo do pavão na água o seguindo.

Em seguida, alguma experiência em arte sobre composição de cenas reais.

Há muitos marcos e exposições no curta-metragem que não podem estar errados, então precisamos de certeza. Muitas vezes, compomos o gato em cima de marcos reais existentes.

Agora, esse tipo de composição é muito simples; você apenas diz ao Nano Banana Pro que há um gato laranja de costas para a câmera perseguindo uma borboleta de uma cor específica na cena, e ele pode gerar.

Duas pequenas dicas para aumentar a taxa de sucesso. Primeiro, corte antes de gerar. Por exemplo, não precisávamos das decorações na parte inferior do material do Peace Hotel, então eu as cortava antes de dar ao modelo. Muitas cenas internas são iguais; corte as áreas desnecessárias primeiro, e o modelo fica mais focado.

Segundo, se você precisar fazer um match cut ou reutilizar um assunto repetidamente, é recomendável primeiro extrair o gato e a borboleta para um fundo de cor sólida e depois mudar vários fundos. Deixar o modelo mudar constantemente de cena diretamente na mesma imagem facilmente come a borboleta, come o gato ou muda a cor do gato. Extrair o assunto primeiro e depois mudar o fundo tem uma taxa de sucesso muito maior.

Muitas pessoas perguntam por que não usamos referência de múltiplas imagens para geração de vídeo.

Em relação a produtos de vídeo com múltiplas referências, tentamos quase tudo no mercado enquanto fazíamos esses dois curtas-metragens, e o problema de nitidez é difícil de curar; os elementos ficam borrados com o menor movimento.

Mesmo com a nova função de múltiplas referências lançada recentemente no Flow, nós a testamos, e é difícil garantir que as exposições que queremos permaneçam inalteradas. Temos muitos assuntos estáveis para manter, incluindo várias exposições, o gato e a borboleta, então, no final, a rotina do primeiro e último quadro é mais estável.

Muitos amigos também perguntam: ainda há necessidade de PS?

Acho que o PS ainda é útil, mas abrimos ele cada vez menos. Recomendo fortemente uma função que poucas pessoas usam, chamada "Harmonize".

Você cola um PNG ou imagem em um quadro estático, clica em harmonize, e ele automaticamente combina a iluminação ambiente, tornando a composição mais integrada. Por exemplo, na cena do prato flutuante, clico em harmonize, e a diferença na iluminação antes e depois é muito óbvia; a eficiência é alta.

Ao mesmo tempo, o Banana Pro é poderoso o suficiente para que muitas coisas possam ser feitas diretamente com ele. Por exemplo, no filme do gato laranja, há uma cena onde primeiro usei o Vidu para gerar uma prévia; a nitidez não era suficiente e as exposições não estavam estáveis, mas a relação entre o movimento do gato e as exposições estava correta.

Então, joguei tanto a prévia quanto os materiais da exposição no Banana Pro, deixando-o manter a composição inalterada e substituir as exposições flutuantes por estas que forneci, permitindo que aparecessem repetidamente e de forma dispersa. O resultado foi uma imagem muito boa na primeira versão, e ele ainda adicionou automaticamente profundidade de campo de primeiro/segundo plano e desfoque de movimento, basicamente atendendo às necessidades de produção.

VI. Animação

Nossa principal ferramenta de vídeo é o Flow. Nosso modelo de vídeo mais usado é o VEO 3.1.

O Flow também lançou recentemente uma função 4K, que ajuda na qualidade da imagem. Para modelos de vídeo auxiliares, também usamos Kling, Hailuo, Jimeng, Wanxiang, Luma, etc., mas o Flow é mais conveniente de usar e os visuais têm mais uma sensação cinematográfica.

Sentimos que entramos em uma era onde podemos "editar vídeo". Muitas ferramentas de vídeo podem editar vídeo diretamente. Há uma função oculta no Flow, com um ponto de entrada profundo; há um botão "editar" no canto superior esquerdo do vídeo gerado. Uma vez lá dentro, você pode adicionar coisas ao vídeo, cortar coisas e até mudar a posição e o movimento da câmera; é um pouco experimental, mas às vezes útil.

Suas limitações também são óbvias; por exemplo, pode adicionar e cortar, mas é difícil fazer "editar e substituir", como mudar um gato preto para um gato branco. Para conseguir isso, você tem que remover primeiro e depois inserir, o que parece muito desajeitado.

No Flow, também usamos muito o recurso de rabisco. Texto puro é difícil para fazer o gato completar certas ações, como fazer o gato pular diretamente; não conseguimos mesmo depois de muitas tentativas.

Mas desenhando um rabisco no primeiro quadro para dar instruções de movimento, como para onde a borboleta deve voar e o gato seguindo-a, e depois adicionando um prompt "siga as instruções na anotação e depois apague minha anotação", o modelo gerará de acordo com as regras de movimento que você anotou, e o gato pode sair suavemente do quadro.

E o Ray3 da Luma é inesperadamente útil. Fizemos um teste no Natal, enviando uma prévia muito tosca e adicionando um prompt; ele gerou algo muito bonito com alta nitidez, até mesmo criando algo do nada no vídeo original.

A desvantagem é a geração lenta, mas a vantagem é a alta qualidade de composição, adequada para produção.

O novo recurso de criação de personagens do Wan 2.6 também merece destaque. Seus personagens humanos ainda são propensos a sair do personagem, mas os personagens animais são muito mais empolgantes que os humanos. Eu enviei casualmente um vídeo muito borrado e escuro do meu gato Nika, e depois de construir o personagem, pude usar @ para convocá-lo no Wan 2.6; a qualidade da geração estava em um nível "aprovado pelo mestre" e muito em alta definição. Fizemos ele fazer muitas coisas, como um dinossauro vindo salvá-lo. Esse recurso foi lançado depois que nossos dois curtas-metragens já estavam publicados, o que foi um pouco de timing ruim.

Outra pequena dica: ao fazer microanimações para a tela final, você pode escolher um "modelo um pouco pior", ou seja, um modelo de geração anterior. As amplitudes de movimento da geração anterior são geralmente menores, o que às vezes é ideal para a tela final. Por exemplo, para a tela final, queremos que o ambiente se mova ligeiramente, mas o Flow pode adicionar muitos padrões imaginados e se mover demais.

Usar um modelo de geração anterior, na verdade, se move na medida certa. Usei o Jimeng 3.0 desta vez, e essa amplitude de micromovimento foi muito apropriada.

VII. Rascunhos Descartados

Houve muitos rascunhos descartados desta vez, especialmente para o do gato laranja, porque depois que o Pro foi lançado, implementar algumas ideias era rápido e a quantidade de exploração foi maior. Aqui estão alguns que gostamos particularmente, mas que deletamos com dor.

Um é o "Folhado de Borboleta" que o público de Xangai adora perguntar. O folhado de borboleta de Xangai é muito famoso, e de fato fizemos um folhado de borboleta gigante, e gostamos muito do visual. Mas na IA, quando o folhado de borboleta se move, ele se transforma de volta em uma borboleta real e nunca voa, então tivemos que desistir.

Outro é um ponto de check-in muito popular no Museu de Arte de Pudong onde você pode fotografar a Pérola Oriental. Fizemos uma cena onde uma borboleta enfia meia asa de fora da janela, e a outra metade da asa é completada através da sombra da luz do sol, formando uma borboleta completa. O visual era lindo, mas quando se movia, a borboleta ainda não voava, então foi deletado.

Outro era uma cena da galeria de arte islâmica do Louvre; inicialmente queríamos torná-la mais exagerada, até mesmo com dinâmicas de nível de tsunami, mas depois sentimos que era muito fantasiosa e não se encaixava na sensação "discreta, mas fantástica" que queríamos, então também foi deletada.

Finalmente

Finalmente, o ponto central que queremos transmitir é:

Quanto mais conveniente o modelo, mais você deve se esforçar para fazer melhor.

Agora que os modelos estão cada vez mais convenientes, muitos criadores tendem a usar agentes para gerar diretamente conjuntos inteiros de soluções de storyboard ou deixá-los completar mais da criação. Mas o que queremos dizer é que a conveniência do modelo não deve ser uma desculpa para a preguiça.

É mais como um lembrete: você tem mais capacidade para tornar seu trabalho melhor.

Terminando com uma frase que costumamos dizer:

Enquanto você estiver em ação, você está avançando.

Obrigado a todos, nossa partilha de hoje termina aqui.

Se você achou útil, sinta-se à vontade para encaminhar para seus amigos darem uma olhada; é uma grande ajuda para nós!

I. Elenco

II. Definindo o Tom

III. Música

IV. Storyboard

V. Arte

VI. Animação

VII. Rascunhos Descartados

Finalmente

Use YouMind to read viral articles deeply

Artigos virais recentes

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

Fable 5 Practical Guide: Discovering Your Unknowns

How To Build Anything With Claude Fable 5: All You Need To Know About The Most Powerful AI Model

5 Mind-Blowing AI Techniques from DeNA Chair Tomoko Namba

A Guide to Practicing 'Self-Responsibility' Without Breaking Your Spirit

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

Vídeo de IA "Louvre Cat": Uma análise profunda do processo de criação viral

I. Elenco

II. Definindo o Tom

III. Música

IV. Storyboard

V. Arte

VI. Animação

VII. Rascunhos Descartados

Finalmente

Use YouMind to read viral articles deeply

Transforme seu Markdown em um artigo 𝕏 impecável

Artigos virais recentes

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

Fable 5 Practical Guide: Discovering Your Unknowns

How To Build Anything With Claude Fable 5: All You Need To Know About The Most Powerful AI Model

5 Mind-Blowing AI Techniques from DeNA Chair Tomoko Namba

A Guide to Practicing 'Self-Responsibility' Without Breaking Your Spirit

60 Claude Opus 4.8 Workflows That Make Money While You Sleep