Video AI "Louvre Cat": un approfondimento sul processo creativo virale

Ieri sera sono stato super, super felice di aver invitato i miei due cari amici e idoli, Hai Xin e A Wen, a fare una live con noi.

Sono venuti per condividere l'intero processo creativo del loro video realizzato con l'AI, "Louvre Cat".

Sono rimasto sbalordito dopo averli ascoltati. Ho detto: avete davvero raccontato tutto, senza trattenere nulla, condividendo tutto in questo modo...

Seriamente, questa live era piena di informazioni pratiche. Non volevo neppure riassumerla perché c'era davvero troppo materiale. Ho passato l'intera notte a organizzare questa trascrizione in dettaglio, abbinandola alla loro presentazione PPT, e ora, con la loro autorizzazione, la condivido con tutti voi.

Spero che queste preziose esperienze possano fornire qualche spunto per il nostro uso dell'AI e per il nostro lavoro creativo.

Dopotutto, non ci sono molti talenti come loro che sono disposti a uscire e condividere tutto senza riserve.

Tutto inizia dal film. Questo è il punto di partenza.

Ring Hyacinth

@ring_hyacinth

15 novembre 2025

Su invito del Museo d'Arte Pudong, abbiamo creato un video promozionale ufficiale per la prima mostra del Louvre a Shanghai utilizzando l'AI. Spero vi piaccia!

Debutto del Louvre a Shanghai: "Meraviglie dei Motivi: Capolavori dell'Arte Indiana, Iraniana e Ottomana dal Louvre"

Dal 13 dicembre 2025 al 6 maggio 2026, un grande evento al Museo d'Arte Pudong.

Organizzatori: Museo del Louvre, Museo d'Arte Pudong

Produttore: Gruppo Lujiazui

Mostra altro

73 162 992 135K

Questi due film mi hanno davvero tolto il fiato all'epoca.

Arte, questa è vera arte.

Questa live è una condivisione senza riserve da parte dei due principali creatori di questi due film, Hai Xin e A Wen, riguardo a "Louvre Cat".

Quella che segue è la trascrizione della live, tutta nelle voci di Hai Xin e A Wen:

————

Ciao a tutti, siamo Hai Xin e A Wen. Siamo artisti digitali e un duo creativo che lavora con l'AI.

Oggi vogliamo condividere l'intero processo – dal concept allo storyboard fino all'esecuzione con strumenti AI – dei video promozionali ufficiali che abbiamo recentemente realizzato per il Museo d'Arte Pudong.

In precedenza abbiamo realizzato due cortometraggi relativamente famosi. Il primo risale all'inizio dello scorso anno, quando il Beijing Daily ci ha invitati a creare un promo per la civiltà urbana di Pechino intitolato "Il Gatto della Città Proibita va al Lavoro". Dopo il completamento, si è diffuso molto bene su internet e ci ha portato molte opportunità, tra cui una mostra all'Expo di Osaka e l'essere il film d'apertura per l'Unità 9 della sede principale del TED 2025.

Durante quell'evento TED, anche Sam Altman ha rilasciato un'intervista nell'Unità 11, quindi siamo stati onorati di condividere lo stesso palco per un breve periodo. Non avremmo mai immaginato che i nostri film sarebbero arrivati in paesi che noi stessi non avevamo mai visitato.

Il secondo film è stato il promo per la civiltà urbana di quest'anno per Pudong, Shanghai, continuando il tema del "gattino", intitolato "Il Gattino Civilizzato Visita Pudong". Ha suscitato molto scalpore al momento dell'uscita, con ricondivisioni da account ufficiali come Shanghai Release e Pudong Civilization, e i dati erano eccellenti.

Offline, è apparso sugli schermi ultralunghi nel sottopassaggio della stazione della metropolitana di Lujiazui e sul super grande schermo del Super Brand Mall di fronte alla Torre dell'Oriental Pearl, in rotazione nell'area centrale di Lujiazui. È stato anche proiettato sul pannello di 12 schermi sotto la Torre dell'Oriental Pearl. Abbiamo persino ricevuto un "Premio per il Lavoro di Comunicazione Internet di Alta Qualità" dall'Amministrazione Cyberspaziale del Municipio di Shanghai. Abbiamo sempre avuto una serie legata ai gattini; si potrebbe dire che siamo professionisti nel far fare cose ai gatti.

Alla fine dell'anno, il Museo d'Arte Pudong ci ha contattati. Ospitavano una grande mostra ufficiale del Louvre a Shanghai – la prima mostra su larga scala di questo tipo in città – e volevano che creassimo il promo ufficiale. Il museo desiderava due cortometraggi per coprire un lungo ciclo promozionale di circa uno o due mesi.

Alla fine abbiamo consegnato due film. La prima metà racconta la storia di un "gatto bianco dalla Francia che viene a Shanghai", piantando al contempo easter egg per la seconda metà.

La seconda metà racconta la storia di un "gatto arancione portavoce di Pudong che va al Museo d'Arte Pudong per vedere la mostra".

Entrambi i film ruotano attorno a reperti reali per la progettazione narrativa. La prima metà è incentrata sul Piatto con Motivo di Pavone. La seconda metà è incentrata sulla "Stele della Gara di Poesia". Nella seconda metà, abbiamo anche rielaborato la musica, aggiungendo il sassofono per una variazione jazz per darle più un sapore di Shanghai.

Dopo l'uscita dei film, si sono diffusi su varie piattaforme, e i dati dell'account video ufficiale del museo sono stati ottimi. I nostri account hanno ricevuto molti messaggi privati da spettatori che dicevano di aver deciso di vedere la mostra proprio grazie a questi due cortometraggi.

Ci sono anche scenari di riproduzione offline, come gli schermi del Bund, che verranno mandati in loop fino al prossimo maggio.

Successivamente, vogliamo condividere il nostro intero processo creativo e alcune intuizioni, sperando che possano esservi utili.

I. Scelta del Cast

Il primo punto che vogliamo condividere è la scelta del cast, e perché alla fine abbiamo optato per un gatto bianco più un gatto arancione.

Anche se abbiamo deciso di continuare con il tema del gatto, c'è molta riflessione dietro i gatti stessi. Inizialmente, siamo partiti dai colori tematici del Museo d'Arte Pudong. Il museo è principalmente bianco e nero, quindi il nostro primo pensiero per un protagonista è stato un gatto bianco e nero (tipo mucca).

La storia nella versione iniziale era completamente diversa dal film finale. I reperti principali non erano il Piatto del Pavone e la Stele della Poesia; abbiamo scelto un dipinto a olio. Abbiamo impostato la scena in modo che il gatto bianco e nero dormisse originariamente ai piedi del re nel dipinto, per poi essere "scosso via" quando il personale del museo spostava il dipinto. Il gatto inizia ad esplorare il Louvre e finalmente vede i reperti lasciare il Louvre su un camion diretto a Shanghai. Il gatto decide di saltare su uno skateboard per inseguire il camion, con molti piccoli eventi emozionanti che accadono lungo il percorso. Abbiamo persino realizzato un demo.

Abbiamo poi abbandonato questo progetto per diverse ragioni. La più diretta era il lungo periodo promozionale; il museo voleva due film. Se avessimo fatto l'inseguimento con il camion, la seconda parte sarebbe sembrata un road movie dopo essere stata divisa, il che avrebbe distorto il tono e consumato troppa energia sull'inseguimento, incoerente con l'atmosfera di un "promo ufficiale del museo". Quindi abbiamo scartato completamente l'idea del gatto bianco e nero.

Dopo che il museo ha richiesto due film, la nostra prima soluzione intuitiva è stata semplice: dividere il gatto bianco e nero in un gatto bianco e un gatto nero. Andando avanti, abbiamo scoperto che un gatto nero sarebbe apparso troppo scuro nel film finale e non avrebbe attirato l'occhio. Volevamo che il protagonista fosse "più luminoso" per catturare più velocemente l'attenzione del pubblico, quindi siamo passati da "uno nero, uno bianco" a "uno bianco, uno arancione". Inoltre, il gatto arancione riprende il ruolo di portavoce di Shanghai dal nostro film precedente, rendendolo più adatto per la parte di Shanghai. La parte francese era più adatta per il gatto bianco.

II. Impostazione del Tono

Il secondo punto è l'impostazione del tono.

Prima si decidono le immagini e la musica, poi si procede con tutti gli storyboard.

Quando si realizza un film, un passaggio molto necessario è decidere il "tono del film". Il tono è composto da due parti. La prima è l'aspetto delle immagini chiave e la sensazione della cinematografia. La seconda è la musica. Per un TVC, la musica dice direttamente al pubblico cosa provare e, al contrario, guida il ritmo del montaggio, determinando se le inquadrature sono tagli veloci o lenti.

Questo progetto ha coinvolto molte informazioni: Museo d'Arte Pudong, Louvre, arte islamica, Shanghai, Parigi, ecc.

Abbiamo prima notato la "Sala degli Specchi" del Museo d'Arte Pudong e abbiamo pensato che il concetto degli specchi fosse perfetto per la struttura. Il Louvre e il Museo d'Arte Pudong potevano avere una relazione speculare, così come Shanghai e Parigi, e i due gattini. Quindi inizialmente volevamo fare una "animazione split-screen", raccontando Parigi da un lato e Shanghai dall'altro, per poi incontrarsi finalmente al Museo d'Arte Pudong.

Abbiamo fatto alcune prime esplorazioni visive, come il Bund che guarda il Museo d'Arte Pudong in alto e il Louvre in basso. Abbiamo anche realizzato una composizione di due gatti che guardano i poster sulle rispettive scrivanie.

Successivamente, A Wen ha fatto una "revisione radicale" basata su queste immagini, posizionando il "Louvre" in alto e il "Museo d'Arte Pudong" come riflesso in basso. L'immagine era molto ariosa, con una texture cinematografica, un temperamento elegante e un'illuminazione realistica e brillante. Un'altra serie di immagini è stata ottimizzata, spostando il "poster" dalla scrivania all'edificio stesso per rendere le informazioni ambientali più naturali.

Sulla base di ciò, abbiamo determinato l'atmosfera visiva dell'intero film.

III. Musica

Il terzo punto è la musica.

Generalmente realizziamo la musica molto presto perché determina il ritmo, che a sua volta determina il numero di inquadrature e la strategia di montaggio. Per questo progetto, abbiamo deciso che lo strumento principale sarebbe stato il pianoforte. Ci sono due ragioni. Una è che ci piace la texture del riflesso "a increspatura dell'acqua" nelle immagini specchiate, che ci ricorda accordi di pianoforte puliti. L'altra è che la struttura a griglia della Sala degli Specchi ci ricorda l'ordine di una tastiera di pianoforte.

Le colonne sonore dei cortometraggi narrativi necessitano di un "arco"; non possono avere lo stesso ritmo dall'inizio alla fine come un rumore bianco. Una storia deve avere un inizio, uno sviluppo, un climax e una conclusione, e la musica deve avere una struttura corrispondente.

Abbiamo usato Suno perché genera musica di buona qualità e permette un controllo preciso sui segmenti. Puoi specificare la lunghezza di ogni melodia e dirle chiaramente quale emozione evocare in un certo punto, come un colpo di scena improvviso, tensione o suspense.

La nostra struttura musicale questa volta era più o meno: l'apertura usa accordi di pianoforte molto semplici per attirare lentamente il pubblico nella storia. Poi un segmento segue il protagonista e l'ambiente. Dopodiché, c'è un segmento di transizione che crea un piccolo intoppo per mantenere il pubblico in ascolto. Quindi si entra nella seconda melodia, che porta le azioni del protagonista e il climax. Infine, la conclusione – volevamo tornare a un bellissimo accordo di pianoforte, quindi abbiamo aggiunto specificamente un outro.

Un vantaggio di Suno è che puoi rigenerare all'infinito i segmenti che non ti soddisfano. Dopo aver finito la musica per la parte francese, abbiamo esportato l'intera canzone e l'abbiamo ricaricata su Suno per fare una variazione per la parte di Shanghai mantenendo la melodia. Abbiamo impostato l'Audio Influence al 50%, assicurandoci che la melodia di base rimanesse, poi le abbiamo detto di aggiungere il sassofono e di renderla simile al jazz della vecchia Shanghai. Ha fatto variazioni molto appropriate sulla melodia originale.

Una volta ha dato un finale piuttosto esagerato, ma alla fine l'abbiamo cambiato con il finale originale per mantenerlo più sobrio.

Inoltre, pubblichiamo queste colonne sonore online sotto l'identità del nostro gatto, Nika. Nika è considerato un "musicista leggendario del Pianeta dei Gatti", e include alcune colonne sonore per TVC che abbiamo realizzato per i clienti.

IV. Storyboarding

Il prossimo punto è come affrontare lo storyboarding.

I nostri gusti estetici personali sono molto marcati, quindi questo è più che altro condividere un'esperienza.

Il nostro requisito di base per lo storyboard di apertura è "alta densità di informazioni".

Cerca di suggerire di cosa tratta la storia già nella primissima inquadratura. Ad esempio, la prima inquadratura di "Il Gatto della Città Proibita va al Lavoro" è il gatto che apre gli occhi con il riflesso della Città Proibita nelle pupille, spiegando rapidamente "gatto e Città Proibita". L'inizio de "Il Gattino Civilizzato Visita Pudong" è il gatto che spinge una mappa di Shanghai, spiegando rapidamente "gatto che viene a Shanghai per turismo".

Per la parte del gattino bianco del Louvre, volevamo spiegare la storia in tre inquadrature. La prima inquadratura mostra il gatto che guarda il poster, piantando l'immagine chiave del "poster della mostra" nella mente del pubblico. La seconda inquadratura usa un primo piano per introdurre il protagonista. La terza inquadratura usa un campo lungo per stabilire l'ambiente mostrando al contempo la relazione speculare di "Louvre che riflette il Museo d'Arte Pudong".

Lo storyboarding ha bisogno anche di un senso del ritmo. Il ritmo deriva in gran parte dai cambiamenti nelle dimensioni dell'inquadratura. Un campo lungo dopo l'altro risulta molto monotono, quindi abbiamo alternato tra campi lunghi e primi piani per creare un senso di espansione e contrazione. Se l'inquadratura di apertura ha troppe informazioni, il pubblico non saprebbe dove guardare al primo secondo; usiamo un'animazione semplice per guidare l'occhio. La prima metà usa un metodo "come tirare una tenda", e anche la seconda metà usa un design di apertura classico.

Poi arriva la prima parte della storia, che è una parte centrale e una serie di storyboard di cui siamo molto soddisfatti.

Lo scopo di questa sequenza è mostrare il gatto bianco che esce dal Louvre, si innamora del Piatto con Motivo di Pavone e ha un'immaginazione fantastica.

Questa sequenza deve trasmettere due informazioni: il protagonista è al Louvre e al protagonista piace il piatto del pavone.

La prima inquadratura usa un reperto classico del Louvre per stabilire la location. Abbiamo scelto la Vittoria Alata di Samotracia, una scultura molto classica. Volutamente non abbiamo scelto la Gioconda perché è troppo comune e sembrerebbe troppo banale. In termini di composizione, non abbiamo incentrato la telecamera solo sulla scultura perché volevamo che il pubblico si concentrasse sul gatto. Quindi abbiamo posizionato la scultura sullo sfondo come abbellimento e abbiamo usato una inquadratura dal basso estrema, facendo sì che il gatto bianco in primo piano occupasse più volume nell'inquadratura, costringendo il pubblico a concentrarsi sul gatto pur riconoscendo all'istante "questo è il Louvre".

La seconda inquadratura inizia a introdurre sottilmente l'arte islamica. Ci siamo ispirati a un artista famoso su Instagram la cui pratica comune è filmare scene di vita quotidiana e poi far muovere i simboli al loro interno.

Quella sensazione è meravigliosa perché è fantastica ma sembra qualcosa che potrebbe accadere nella vita reale. Inizialmente abbiamo realizzato una versione più esagerata, come l'intera scena che si trasforma in motivi mentre il gatto scivola via, ma poi abbiamo pensato che fosse troppo movimento e non sembrava vita reale, quindi l'abbiamo cambiata in un piano più sobrio con telecamera fissa, lasciando che i motivi di sfondo si muovessero sottilmente mentre il gatto cammina.

Abbiamo provato molte versioni: motivi a forma di cerchio magico, la telecamera che scende in un mondo di arte islamica, motivi che sporgono dallo schermo, ecc. Più tardi abbiamo capito che "interessante" non bastava; avevamo bisogno anche di un guadagno emotivo. Quindi abbiamo usato un design a contrasto: partendo con una inquadratura dall'alto opprimente, e mentre la telecamera si muove verso l'inquadratura finale, si entra in un enorme spazio aperto, dando al pubblico una sensazione di improvvisa illuminazione. Nell'inquadratura finale, i motivi su entrambi i lati si muovono come un nastro trasportatore, portando il gatto in uno spazio espositivo aperto.

Abbiamo anche fatto una scelta: nessun ritratto nelle inquadrature. Una volta che appare un ritratto umano nell'inquadratura, il pubblico inizierà involontariamente a cercare tutti i ritratti, e la loro attenzione verrà rubata al gatto. Volevamo che il pubblico seguisse il gatto, quindi abbiamo rimosso il più possibile gli elementi che rubano facilmente la scena per mantenere l'espressione sottile.

Nel design dell'inquadratura finale di questa scena, A Wen ha eseguito un'operazione molto intelligente: posizionare il Piatto con Motivo di Pavone direttamente nello spazio espositivo, facendo apparire il reperto principale presto durante il climax. Dopo aver determinato l'inquadratura finale, siamo tornati indietro e abbiamo riprogettato la prima inquadratura e il movimento della telecamera, rendendo l'inquadratura più controllata.

Dopo il climax emotivo, avevamo bisogno di aggiungere un po' di nuovo stimolo. Abbiamo pensato al gatto che vede lo spazio dopo essere salito, o che vede un altro reperto, ma nessuno era abbastanza toccante.

Più tardi abbiamo pensato al gatto che vede un pavone, e il pavone è vivo. Questo punto ci ha subito fatto sentire come se l'opera d'arte avesse preso vita. In termini di ritmo, abbiamo anche fatto una progressione graduale: il pavone prima gira la testa, poi il corpo, e infine spiega le ali, riservando la sorpresa per l'ultimo secondo.

Dopo il climax, deve tornare alla realtà. Abbiamo usato un modo molto semplice: tagliare su un primo piano del gatto, come se stesse immaginando, poi tagliare su una inquadratura oggettiva che stabilisce la realtà – il gatto è in realtà in piedi davanti al piatto del pavone che guarda il reperto. Il pubblico capisce quindi che il segmento fantastico proveniva dall'immaginazione del gatto.

Poi arriva il segmento di transizione, con l'obiettivo di spiegare che "il reperto sta andando a Shanghai" e "il gatto decide di entrare nella scatola e venire con sé".

Abbiamo usato montaggio ed elaborazione split-screen perché può trasmettere molte informazioni in poco tempo. Quando realizziamo tali inquadrature, tagliamo fuori le persone il più possibile. Nei film sugli animali, i volti umani rubano facilmente la scena; il pubblico tende a empatizzare più facilmente con le persone, e la loro attenzione verrà distolta, quindi abbiamo tenuto solo primi piani e azioni senza mostrare i volti.

Il secondo segmento doveva originariamente riguardare cosa succede al gatto nella scatola di carico dell'aereo.

Prima di determinare completamente la trama, usiamo Sora per generare alcuni campioni per controllare rapidamente ritmo e composizione, cercando sorprese e riferimenti. Dopo averli eseguiti, non ci sono piaciuti perché le immagini non erano ariose, i colori erano giallastri, vecchi e scuri, incoerenti con il tono che avevamo impostato in precedenza. Anche la logica della trama non funzionava perché il gatto nella scatola non poteva vedere i reperti fuori, e anche i reperti dovrebbero essere in scatole.

Quindi abbiamo scartato l'intero segmento "sbirciare dentro la scatola" e abbiamo riportato l'attenzione sulla narrazione centrale: il gatto bianco che accompagna il piatto del pavone a Shanghai.

Per l'arrivo a Shanghai, inizialmente volevamo fare una transizione realistica di un aereo che vola dal Louvre a Shanghai, e l'abbiamo eseguita con VEO 3. Abbiamo anche provato una micro-animazione classica con mappa. Ma questi piani sono stati tutti rifiutati da noi.

Perché una mappa fa sì che il pubblico si preoccupi particolarmente della razionalità, come se le posizioni di Parigi e Shanghai e la distanza di volo siano corrette, distraendo l'attenzione. Abbiamo anche provato un piano più astratto "mappa a punti di fuoco con impronte", ma non ci piaceva che l'inquadratura fosse troppo ampia; preferivamo che il pubblico vedesse il soggetto chiave occupare una porzione maggiore dell'inquadratura.

Alla fine, abbiamo deciso di cambiare direttamente tra la "prima inquadratura del Louvre" e la "prima inquadratura del Museo d'Arte Pudong", rendendo la transizione più ravvicinata e focalizzata.

Abbiamo testato molti tipi di animazioni di transizione: come un tappeto che si srotola, tessere che si ribaltano, immagini di aerei, ecc. Alla fine abbiamo scelto l'aereo perché l'immagine dell'aereo appariva nelle inquadrature prima e dopo la transizione. Le immagini continue fanno sentire il pubblico più a suo agio, anche se nel mezzo si passa dal realistico a uno stile artistico a mosaico, non risulterà brusco.

Dopo l'arrivo a Shanghai, lo storyboarding è più diretto: prima si vede il Museo d'Arte Pudong da lontano a vicino, poi si vede il gatto che corre verso il museo. Ci piace molto una delle inquadrature: il gatto che corre vicino all'acqua, con il riflesso nell'acqua che è un pavone.

Questa idea inizialmente era "più selvaggia". Speravamo che mentre il gatto correva, potesse vedere le ombre di molti animali, come pavoni, cavalli, cammelli, ecc., evocando un senso che "tutta l'arte islamica è arrivata insieme a Shanghai". Abbiamo provato text-to-image e text-to-video, ma nessuno ha funzionato. Abbiamo anche pensato al gatto che si vede come una tigre nel suo cuore, con l'ombra che è una tigre, ma questo era troppo debolmente correlato al film ed è stato rapidamente rimosso.

Più tardi abbiamo scoperto che affidare una tale creatività centrale direttamente all'AI in un colpo solo è inaffidabile e deve essere scomposta per l'esecuzione. Prima abbiamo disegnato a mano lo storyboard, decidendo una inquadratura leggermente dall'alto in modo che l'attenzione del pubblico cada naturalmente sul riflesso del lago.

La composizione è stata semplificata in "l'ombra del gatto è un pavone", che è la più direttamente collegata alla linea principale. Avremmo prima usato Photoshop per comporre la relazione desiderata, poi l'avremmo consegnata al modello per completare lo stile e la dinamica unificati. Durante tutto il processo, abbiamo fortemente sentito che anche un disegno a mano grezzo è più intuitivo per l'AI da capire e per le persone per comunicare.

Per la chiusura, abbiamo ripreso il concetto di "specchi", concludendo con un'immagine più sobria e bella.

Questo è tutto per lo storyboarding.

Ora, la parte artistica è affidata ad A Wen.

V. Arte

Io (A Wen) faccio principalmente due cose.

Primo, convertire gli storyboard manoscritti di Hai Xin nelle immagini finali. Secondo, controllare lo stile artistico complessivo.

Dopo aver ricevuto il progetto, siamo andati subito a informarci sull'arte islamica. È uno stile artistico con cui abbiamo di solito poco contatto, ma è molto distintivo. Dopo aver padroneggiato alcune parole chiave fondamentali, è facile creare arte in stile mosaico con caratteristiche esotiche. Abbiamo riassunto 4 parole chiave molto utili durante la live; le due più comunemente usate sono "stile Iznik" e "arte del mosaico". Qui, mosaico si riferisce all'arte del Mosaico, che è diversa dalla Pixel art.

Abbiamo due principi per realizzare film. Deve essere bello a prima vista e durare a una seconda occhiata. Nell'era dell'AI, è una cosa preziosa che un pubblico sia disposto a guardare fino alla fine il tuo cortometraggio. Per noi, essere bello equivale a una sensazione cinematografica. Durevole equivale a quanti più dettagli e dettagli creativi possibile, inclusi i dettagli artistici.

In realtà, tutti sono molto sensibili a una sensazione cinematografica. Per la stessa immagine e lo stesso prompt, con risultati di modelli diversi, puoi facilmente giudicare quale ha più una sensazione cinematografica. Quindi il primo passo nell'arte è scegliere il modello giusto. Il nostro attuale modello principale di generazione di immagini è essenzialmente Nano Banana Pro. Per la modifica delle immagini, lo usiamo principalmente direttamente con la modifica del testo, a volte combinato con Photoshop. Ottimizzo anche manualmente alcune parti.

Scegliere il modello giusto è prezioso quanto scegliere il fornitore giusto. Può fare bene il lavoro e gestire molte modifiche estenuanti. Ad esempio, c'era un'inquadratura di cui eravamo molto soddisfatti, ma dopo aver inviato la prima bozza, il museo ha detto che questa inquadratura doveva essere rimossa perché avrebbe fatto sembrare poco professionale lo spostamento dei reperti, e non volevano trasmettere quella sensazione al pubblico. Dal punto di vista narrativo, avevamo bisogno di questa inquadratura per spiegare che il gatto si nasconde nella scatola per seguire i reperti a Shanghai. Alla fine, abbiamo usato Nano Banana per "avvolgere" i reperti, rendendo la movimentazione più professionale, ed è passata.

Un altro esempio: l'ultima inquadratura dell'immagine è molto bella, ma noterai che l'attenzione rimane a lungo sul sedere del gatto bianco; questo era un problema emerso solo dopo essere passati al gatto bianco. La soluzione era semplice: far penzolare la coda nella prima inquadratura, e non sarebbe stato un problema quando cammina via più tardi.

Ancora più esagerato è stato salvare la situazione cambiando il gatto. Quando abbiamo cambiato il protagonista da un gatto nero a un gatto bianco a metà strada, molte immagini fisse e animazioni erano già state completate.

Sembra assurdo, ma l'AI può davvero cambiarlo.

All'epoca, gli strumenti che potevamo usare erano limitati, solo la prima generazione di Nano Banana, che di solito usavamo in Whisk di Google. La nostra abitudine è una cartella per inquadratura, quindi siamo andati in ogni cartella una per una per cambiare il colore del gatto, e abbiamo finito tutto in un giorno e mezzo.

Successivamente, durante la revisione, è uscito Banana Pro, e abbiamo scoperto che un'efficienza ancora più sbalorditiva era in arrivo. L'AI non solo può cambiarlo, ma può anche cambiarlo sempre più velocemente. Su piattaforme di terze parti, puoi caricare tutte le immagini fisse in una volta e cambiare il protagonista gatto nero in un gatto bianco con una sola frase, che è più efficiente.

Molti chiedono dove sia meglio usare Nano Banana Pro.

La nostra esperienza è che il sistema di abbonamento di Google presenta diverse insidie. Noi abbiamo acquistato l'abbonamento Google Ultra di livello massimo sin dal suo lancio e lo utilizziamo ancora oggi. Spesso si sente dire che Google offre sconti, tipo 79 $ al mese per tre mesi o un prezzo semestrale, ma controllando il proprio abbonamento, il prezzo potrebbe non cambiare affatto, rimanendo molto caro, e persino più alto con le tasse.

Un altro punto che ci rende insoddisfatti è che la soglia per il 4K non è chiara. Alcuni dicono che sia in Flow, ma la generazione predefinita di Flow è 1K e viene super-risolta a 4K solo durante il download. Non siamo sicuri se sia super-risoluzione o 4K nativo. Google AI Studio può produrre 4K in modo più nativo, ma viene fatturato separatamente.

Se siete membri Ultra come noi, ecco il nostro uso più pragmatico: usate Flow per generazioni rapide stile gacha, perché è veloce con una base 1K. Usate Gemini per iterazioni multi-round; i round di dialogo sono molto comodi. Quando avete una buona padronanza del risultato, potete andare su AI Studio per il 4K nativo.

Inoltre, i nostri prompt stanno diventando sempre più semplici. La comprensione multimodale del modello è molto forte e spesso non richiede lunghi testi. Per esempio, inserisco un'immagine, lascio che estragga il gatto e la farfalla, li metto su uno sfondo a tinta unita e li trasformo in pixel art. Dopo aver stabilizzato lo stile, estendere i materiali è molto efficiente.

E davvero oggi i prompt devono essere dei lunghi saggi?

Avevamo un'inquadratura che necessitava di una vista frontale di un'esposizione, ma nessuno poteva entrare durante il periodo di allestimento; il personale poteva solo inviarci due rapide foto da lontano.

Queste due erano già molto preziose per noi, così le abbiamo usate come intelligence e abbiamo fatto generare direttamente a Gemini una vista frontale dell'esposizione basata sulle due foto, in 16:9.

Il risultato è stato molto buono e lo abbiamo usato per completare l'inquadratura finale.

Ancora più sorprendente è stato quando siamo andati sul posto il giorno dell'inaugurazione e abbiamo scoperto che era quasi identico alla location reale. La gente non riusciva a entrare, ma l'IA sì.

Quando un modello è abbastanza potente, non si preoccupa dell'origine dello storyboard. Vale a dire, a volte gli dai degli storyboard piuttosto stravaganti e lui capisce immediatamente cosa vuoi e genera direttamente immagini molto belle. Tutte queste sono immagini generate direttamente dal modello usando gli storyboard di Hai Xin, e sono tutte molto buone.

Ma per la creatività complessa, bisogna iterare per fasi.

Prendiamo ad esempio l'inquadratura del "gatto che cammina sulla riva, con il riflesso in acqua che è un pavone".

Prima di tutto, capisco la prospettiva dello schizzo dello storyboard.

Sono abituato a costruire uno schizzo molto approssimativo in PPT. Per caso avevo a disposizione un PNG trasparente di un gatto bianco "attore veterano"; mettendolo nell'inquadratura si costruisce la prospettiva. Poi lancio questo schizzo approssimativo nel modello per trasformarlo in uno stile realistico, ottenendo prima una scena base di "un gatto che cammina sulla riva con un lago vicino".

Il secondo passo è la posa delle piastrelle. Ho effettivamente usato i prompt per posare piastrelle sul terreno di cemento, provando molte parole chiave finché non ho trovato una versione con la "densità giusta". Dopo averle posate, l'immagine ha preso forma, ma iterazioni multiple deformavano la postura del gatto, quindi ho lasciato che l'IA lo regolasse di nuovo.

Il terzo passo è aggiungere informazioni sull'esposizione. Il modo più semplice è sovrapporle in PS e regolare lo stile del livello. Ma abbiamo scoperto che il riflesso del pavone nel lago era difficile da animare, perché i pavoni stilizzati non sono facilmente convertibili in dinamiche realistiche. Quindi sono tornato in PS, ho cancellato il pavone, l'ho sostituito con un'ombra realistica di pavone e l'ho rimesso nel modello per continuare l'elaborazione.

Più tardi, il colore del gatto doveva essere cambiato. Dopo averlo cambiato, ho scoperto che le piastrelle "mangiavano" il gatto bianco, quindi ho riposto le piastrelle per ottenere il fotogramma statico finale.

Infine, fare l'animazione è stata in realtà la parte più semplice. Di solito è output diretto; due o tre tentativi possono ottenere buone dinamiche, come il gatto che cammina lungo la riva e il riflesso del pavone nell'acqua che lo segue.

Poi, un po' di esperienza nell'arte riguardo alla composizione in scena reale.

Ci sono molti punti di riferimento e oggetti espositivi nel cortometraggio che non possono essere sbagliati, quindi abbiamo bisogno di certezza. Molte volte componiamo il gatto su punti di riferimento reali esistenti.

Ora questo tipo di composizione è molto semplice; basta dire a Nano Banana Pro che c'è un gatto arancione con la schiena rivolta alla telecamera che insegue una farfalla di un colore specifico nella scena, e lui può generarlo.

Due piccoli consigli per aumentare il tasso di successo. Primo, ritagliare prima di generare. Per esempio, non avevamo bisogno delle decorazioni in basso del materiale dell'Hotel Peace, quindi le ho ritagliate prima di darlo al modello. Molte inquadrature interne sono uguali; ritagliare prima le aree non necessarie e il modello diventa più concentrato.

Secondo, se avete bisogno di fare un match cut o riutilizzare ripetutamente un soggetto, si consiglia di estrarre prima il gatto e la farfalla su uno sfondo a tinta unita e poi cambiare vari sfondi. Lasciare che il modello cambi costantemente scena direttamente nella stessa immagine tende a mangiare la farfalla, mangiare il gatto o cambiarne il colore. Estrarre prima il soggetto e poi cambiare lo sfondo ha un tasso di successo molto più alto.

Molte persone chiedono perché non usiamo il riferimento multi-immagine per la generazione video.

Per quanto riguarda i prodotti video multi-riferimento, abbiamo provato quasi tutto sul mercato mentre realizzavamo questi due cortometraggi, e il problema della nitidezza è difficile da risolvere; gli elementi diventano sfocati anche con un leggero movimento.

Anche con la nuova funzione multi-riferimento lanciata di recente su Flow, l'abbiamo provata, ed è difficile garantire che gli oggetti espositivi che vogliamo rimangano invariati. Abbiamo troppi soggetti stabili da mantenere, inclusi più oggetti espositivi, il gatto e la farfalla, quindi alla fine, la routine del primo e ultimo fotogramma è più stabile.

Molti amici chiedono anche: c'è ancora bisogno di PS?

Penso che PS sia ancora utile, ma lo apriamo sempre meno. Raccomando vivamente una funzione non molto usata, chiamata "Armonizza".

Incollate un PNG o un'immagine su un fotogramma statico, cliccate su armonizza, e automaticamente abbina l'illuminazione ambientale, rendendo la composizione più integrata. Per esempio, nell'inquadratura con il piatto che galleggia, clicco su armonizza, e la differenza di illuminazione prima e dopo è molto evidente; l'efficienza è alta.

Allo stesso tempo, Banana Pro è abbastanza potente che molte cose possono essere fatte direttamente con esso. Per esempio, nel film del gatto arancione, c'è un'inquadratura dove ho prima usato Vidu per generare un'anteprima; la nitidezza non era sufficiente e gli oggetti espositivi non erano stabili, ma la relazione tra il movimento del gatto e gli oggetti era corretta.

Quindi ho inserito sia l'anteprima che i materiali degli oggetti espositivi in Banana Pro, lasciando che mantenesse la composizione invariata e sostituisse gli oggetti galleggianti con quelli che ho fornito, permettendo loro di apparire ripetutamente e in modo sparso. Il risultato è stata un'immagine molto buona alla prima versione, e ha persino aggiunto automaticamente profondità di campo primo/sfondo e motion blur, soddisfacendo fondamentalmente le esigenze di produzione.

VI. Animazione

Il nostro strumento video principale è Flow. Il nostro modello video comunemente usato è VEO 3.1.

Flow ha anche recentemente lanciato una funzione 4K, che aiuta con la qualità dell'immagine. Come modelli video ausiliari, usiamo anche Kling, Hailuo, Jimeng, Wanxiang, Luma, ecc., ma Flow è più comodo da usare e le immagini hanno più un senso cinematografico.

Sentiamo di essere entrati in un'era in cui possiamo "montare video". Molti strumenti video possono montare video direttamente. C'è una funzione nascosta in Flow, con un punto di accesso profondo; c'è un pulsante "modifica" nell'angolo in alto a sinistra del video generato. Una volta dentro, potete aggiungere cose al video, tagliare via cose e persino cambiare la posizione e il movimento della telecamera; è un po' sperimentale ma a volte utile.

I suoi limiti sono anche evidenti; per esempio, può aggiungere e tagliare, ma è difficile fare "modifica e sostituisci", come cambiare un gatto nero in un gatto bianco. Per ottenere questo, dovete prima rimuovere e poi inserire, il che sembra molto goffo.

In Flow, usiamo molto anche la funzione di scarabocchio. Il testo puro è difficile per far compiere al gatto determinate azioni, come farlo saltare direttamente; non ci siamo riusciti nemmeno dopo molti tentativi.

Ma disegnando uno scarabocchio sul primo fotogramma per dare istruzioni di movimento, come dove la farfalla dovrebbe volare e il gatto che la segue, e poi aggiungendo un prompt "segui le istruzioni nell'annotazione e poi cancella la mia annotazione", il modello genererà secondo le regole di movimento che avete annotato, e il gatto può uscire dall'inquadratura senza problemi.

E il Ray3 di Luma è inaspettatamente utile. Abbiamo fatto un test a Natale, caricando un'anteprima molto approssimativa e aggiungendo un prompt; ha generato in modo molto bello con alta nitidezza, creando persino cose dal nulla nel video originale.

Lo svantaggio è la generazione lenta, ma il vantaggio è l'alta qualità di composizione, adatta per la produzione.

La nuova funzione di creazione personaggi di Wan 2.6 è degna di nota. I suoi personaggi umani sono ancora inclini a essere fuori personaggio, ma i personaggi animali sono molto più entusiasmanti degli umani. Ho caricato casualmente un video molto sfocato e scuro del mio gatto Nika, e dopo aver costruito il personaggio, ho potuto usare @ per evocarlo in Wan 2.6; la qualità di generazione era a un livello "approvato dal maestro" e molto in alta definizione. Gli abbiamo fatto fare molte cose, come un dinosauro che viene a salvarlo. Questa funzione è stata lanciata dopo che i nostri due cortometraggi erano già stati pubblicati, un tempismo un po' sfortunato.

Un altro piccolo consiglio: quando fate micro-animazioni per la schermata finale, potete scegliere un "modello leggermente peggiore", cioè un modello di generazione precedente. I modelli precedenti di solito hanno ampiezze di movimento più piccole, che a volte sono perfette per la schermata finale. Per esempio, per la schermata finale, vogliamo che l'ambiente si muova leggermente, ma Flow potrebbe aggiungere molti motivi immaginati e muoversi troppo.

Usare un modello di generazione precedente in realtà si muove nella giusta misura. Questa volta ho usato Jimeng 3.0, e quell'ampiezza di micro-movimento era molto appropriata.

VII. Bozze scartate

Questa volta ci sono state molte bozze scartate, specialmente per quella del gatto arancione, perché dopo l'uscita di Pro, implementare alcune idee era veloce e la quantità di esplorazione era maggiore. Ecco alcune che ci piacevano particolarmente ma che abbiamo dolorosamente cancellato.

Una è la "Sfoglia Farfalla" che al pubblico di Shanghai piace tanto chiedere. La sfoglia farfalla di Shanghai è molto famosa, e abbiamo effettivamente realizzato una gigantesca sfoglia farfalla, e la immagine ci piaceva molto. Ma nell'IA, una volta che la sfoglia farfalla si muove, si trasforma di nuovo in una farfalla reale e non vola mai, quindi abbiamo dovuto abbandonarla.

Un'altra è un punto di controllo molto popolare al Museo d'Arte di Pudong dove si può fotografare la Perla Orientale. Abbiamo realizzato un'inquadratura in cui una farfalla infila mezza ala dall'esterno della finestra, e l'altra metà dell'ala è completata attraverso l'ombra della luce solare, formando una farfalla completa. L'immagine era bella, ma quando si muoveva, la farfalla ancora non volava, quindi è stata cancellata.

Un'altra era un'inquadratura della galleria d'arte islamica del Louvre; inizialmente volevamo renderla più esagerata, persino con dinamiche da tsunami, ma poi abbiamo pensato che fosse troppo fantastica e non si adattava alla sensazione "discreta ma fantastica" che volevamo, quindi è stata anche cancellata.

Infine

Infine, il punto centrale che vogliamo trasmettere è:

Più il modello è comodo, più dovete spingervi a fare meglio.

Ora che i modelli stanno diventando sempre più comodi, molti creatori tendono a usare agenti per produrre direttamente intere serie di soluzioni di storyboard o lasciare che completino più della creazione. Ma quello che vogliamo dire è che la comodità del modello non dovrebbe essere una scusa per la pigrizia.

È più come un promemoria: avete più capacità di rendere il vostro lavoro migliore.

Concludendo con una frase che diciamo spesso:

Finché siete in azione, state andando avanti.

Grazie a tutti, la nostra condivisione per oggi finisce qui.

Se l'avete trovata utile, sentitevi liberi di inoltrarla ai vostri amici per darle un'occhiata; per noi è di grande aiuto!

I. Scelta del Cast

II. Impostazione del Tono

III. Musica

IV. Storyboarding

V. Arte

VI. Animazione

VII. Bozze scartate

Infine

Use YouMind to read viral articles deeply

Articoli virali recenti

A Guide to Practicing 'Self-Responsibility' Without Breaking Your Spirit

I’m Grateful To Be American, Because I Could Have Not Been

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

Progettare un runtime programmabile per l'orchestrazione di agenti

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

How To Build Anything With Claude Fable 5: All You Need To Know About The Most Powerful AI Model

Video AI "Louvre Cat": un approfondimento sul processo creativo virale

I. Scelta del Cast

II. Impostazione del Tono

III. Musica

IV. Storyboarding

V. Arte

VI. Animazione

VII. Bozze scartate

Infine

Use YouMind to read viral articles deeply

Trasforma il tuo Markdown in un articolo 𝕏 pulito

Articoli virali recenti

A Guide to Practicing 'Self-Responsibility' Without Breaking Your Spirit

I’m Grateful To Be American, Because I Could Have Not Been

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

Progettare un runtime programmabile per l'orchestrazione di agenti

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

How To Build Anything With Claude Fable 5: All You Need To Know About The Most Powerful AI Model