Hier soir, j’ai été super, super heureuse d’inviter mes deux bons amis et idoles, Hai Xin et A Wen, à faire un live avec nous.
Ils sont venus partager la création complète de leur œuvre vidéo IA, « Louvre Cat ».

J’étais sidérée après les avoir écoutés. J’ai dit : vous dites vraiment tout, sans aucune retenue, vous partagez tout comme ça…
Sérieusement, ce live était tellement rempli d’infos pratiques. Je n’ai même pas eu envie de résumé tellement il y en avait. J’ai passé toute la nuit à organiser cette transcription en détail, en l’associant à leur diaporama de présentation, et maintenant, avec leur autorisation, je la partage avec tout le monde.
J’espère que ces expériences précieuses pourront vous inspirer dans votre utilisation de l’IA et votre travail créatif.
Après tout, il n’y a pas beaucoup de personnes aussi talentueuses qu’eux qui soient prêtes à venir tout partager sans réserve.
Tout commence par le film. C’est le point de départ.

Ring Hyacinth
@ring_hyacinth
·
À l’invitation du Musée d’Art de Pudong, nous avons créé une vidéo promotionnelle officielle pour la première exposition du Louvre à Shanghai en utilisant l’IA. J’espère qu’elle vous plaira !
Première du Musée du Louvre à Shanghai : « Miracles des motifs : chefs-d’œuvre de l’art indien, iranien et ottoman du Louvre »
Du 13 décembre 2025 au 6 mai 2026, un événement majeur au Musée d’Art de Pudong.
Organisateur : Musée du Louvre, Musée d’Art de Pudong
Producteur : Groupe Lujiazui
Afficher plus
73 162 992 135K
Ces deux films m’avaient vraiment coupé le souffle à l’époque.
De l’art, du vrai art.
Ce live est un partage sans retenue par les deux créateurs principaux de ces deux films, Hai Xin et A Wen, concernant « Louvre Cat ».
Voici la transcription du live, dans les mots de Hai Xin et A Wen :
————
Bonjour à tous, nous sommes Hai Xin et A Wen. Nous sommes des artistes numériques et un duo créatif travaillant avec l’IA.
Aujourd’hui, nous voulons partager l’ensemble du processus – du concept au storyboard en passant par l’exécution avec des outils IA – des vidéos promotionnelles officielles que nous avons récemment réalisées pour le Musée d’Art de Pudong.
Nous avons déjà réalisé deux courts-métrages relativement célèbres. Le premier date du début de l’année dernière, lorsque Beijing Daily nous a invités à créer une promo de civilisation urbaine pour Pékin intitulée « Le Chat de la Cité Interdite va au travail ». Après sa réalisation, il s’est très bien diffusé sur Internet et nous a apporté de nombreuses opportunités, notamment une exposition à l’Expo d’Osaka et le film d’ouverture de l’Unité 9 du lieu principal de TED 2025.
Lors de cet événement TED, Sam Altman a également donné une interview dans l’Unité 11, nous avons donc eu l’honneur de partager la même scène pendant un court moment. Nous n’aurions jamais imaginé que nos films voyageraient dans des pays que nous n’avions même pas visités nous-mêmes.

Le deuxième film était la promo de civilisation urbaine de cette année pour Pudong, Shanghai, poursuivant le thème du « chaton », intitulée « Le Chaton civilisé visite Pudong ». Il a fait sensation dès sa sortie, avec des partages de comptes officiels comme Shanghai Release et Pudong Civilization, et les données étaient excellentes.
Hors ligne, il est apparu sur les écrans ultra-longs du passage souterrain de la station de métro Lujiazui et sur le super écran géant du Super Brand Mall face à la Tour Perle de l’Orient, en rotation dans le secteur central de Lujiazui. Il a également été diffusé sur la matrice de 12 écrans sous la Tour Perle. Nous avons même reçu un « Prix des Œuvres de Communication Internet de Haute Qualité » de l’Administration Cyberspace de Shanghai. Nous avons toujours eu une série liée aux chats ; on pourrait dire que nous sommes des professionnels de la fabrication de chats.
À la fin de l’année, le Musée d’Art de Pudong nous a contactés. Ils organisaient une grande exposition officielle du Louvre à Shanghai – la première grande exposition de ce type dans la ville – et voulaient que nous créions la promo officielle. Le musée souhaitait deux courts-métrages pour couvrir un long cycle de promotion d’environ un à deux mois.
Nous avons finalement livré deux films. La première moitié raconte l’histoire d’un « chaton blanc venant de France à Shanghai », tout en plantant des indices pour la seconde moitié.
La seconde moitié raconte l’histoire d’un « chat orange, porte-parole de Pudong, allant au Musée d’Art de Pudong pour voir l’exposition ».
Les deux films tournent autour d’objets exposés réels pour la conception narrative. La première moitié se concentre sur le Plat aux motifs de Paon. La seconde moitié se concentre sur la « Stèle du Concours de Poésie ». Dans la seconde moitié, nous avons également retravaillé la musique, en ajoutant un saxophone pour une variation jazz afin de lui donner une saveur plus shanghaienne.
Après la sortie des films, ils se sont répandus sur diverses plateformes, et les données du compte vidéo officiel du musée étaient excellentes. Nos propres comptes ont reçu de nombreux messages privés de spectateurs disant qu’ils avaient décidé de voir l’exposition grâce à ces deux courts-métrages.

Il y a aussi des scénarios de diffusion hors ligne, comme les écrans du Bund, qui tourneront en boucle jusqu’en mai prochain.
Ensuite, nous voulons partager notre processus créatif complet et quelques idées, en espérant qu’elles vous seront utiles.
I. Casting
Le premier point que nous voulons partager est le casting, et pourquoi nous avons finalement choisi un chat blanc plus un chat orange.
Bien que nous ayons décidé de continuer avec le thème du chat, il y a beaucoup de réflexion derrière les chats eux-mêmes. Au départ, nous sommes partis des couleurs thématiques du Musée d’Art de Pudong. Le musée est principalement noir et blanc, donc notre première pensée pour un protagoniste était un chat noir et blanc (bicolore).
L’histoire dans la version initiale était complètement différente du film final. Les objets exposés centraux n’étaient pas le Plat de Paon et la Stèle ; nous avons choisi une peinture à l’huile. Nous avons imaginé que le chat bicolore dormait initialement aux pieds du roi dans le tableau, puis qu’il était « secoué » lorsque le personnel du musée déplaçait la peinture. Le chat commence à explorer le Louvre et voit finalement les objets quitter le Louvre dans un camion en direction de Shanghai. Le chat bicolore décide de sauter sur un skateboard pour poursuivre le camion, avec de nombreux petits événements palpitants en cours de route. Nous avons même fait une démo.
Nous avons ensuite abandonné ce plan pour plusieurs raisons. La plus directe était la longue période de promotion ; le musée voulait deux films. Si nous faisions la poursuite en camion, la deuxième partie ressemblerait à un road movie après la séparation, ce qui fausserait le ton et consommerait trop d’énergie sur la poursuite, incompatible avec l’ambiance d’une « promo officielle de musée ». Nous avons donc complètement abandonné le plan du chat bicolore.
Après que le musée a demandé deux films, notre première solution intuitive était simple : diviser le chat bicolore en un chat blanc et un chat noir. En avançant, nous avons constaté qu’un chat noir apparaîtrait trop sombre dans le film final et n’attirerait pas l’œil. Nous voulions que le protagoniste soit « plus lumineux » pour capter plus rapidement l’attention du public, nous sommes donc passés de « un noir, un blanc » à « un blanc, un orange ». De plus, le chat orange fait écho au rôle du chat orange en tant que porte-parole de Shanghai dans notre précédent film, ce qui le rend plus adapté à la partie Shanghai. La partie française était mieux adaptée au chat blanc.

II. Définir le ton
Le deuxième point est de définir le ton.
Décidez d’abord des visuels et de la musique, puis avancez avec tous les storyboards.
Lors de la réalisation d’un film, une étape très nécessaire consiste à décider le « ton du film ». Le ton se compose de deux parties. La première est l’apparence des visuels principaux et la sensation de la photographie. La seconde est la musique. Pour un TVC, la musique indique directement au public comment se sentir et, inversement, guide le rythme du montage, déterminant si les plans sont des coupes rapides ou lentes.
Ce projet impliquait beaucoup d’informations : Musée d’Art de Pudong, le Louvre, l’art islamique, Shanghai, Paris, etc.
Nous avons d’abord remarqué la « Salle des Miroirs » du Musée d’Art de Pudong et avons estimé que le concept de miroirs était parfait pour la structure. Le Louvre et le Musée d’Art de Pudong pourraient avoir une relation miroir, tout comme Shanghai et Paris, et les deux chatons. Nous avons donc initialement voulu faire une « animation en écran partagé », racontant Paris d’un côté et Shanghai de l’autre, pour finalement se rencontrer au Musée d’Art de Pudong.
Nous avons fait quelques visuels exploratoires précoces, comme le Bund regardant le Musée d’Art de Pudong en haut et le Louvre en bas. Nous avons également fait une composition de deux chats regardant des affiches sur leurs bureaux respectifs.
Plus tard, A Wen a fait une « refonte radicale » basée sur ces visuels, plaçant le « Louvre » en haut et le « Musée d’Art de Pudong » en reflet en bas. L’image était très aérée, avec une texture cinématographique, un tempérament élégant, et un éclairage réaliste et lumineux. Un autre ensemble de visuels a été optimisé, en déplaçant l’« affiche » du bureau vers le bâtiment lui-même pour rendre l’information environnementale plus naturelle.
Sur cette base, nous avons déterminé l’atmosphère visuelle de l’ensemble du film.

III. Musique
Le troisième point est la musique.
Nous faisons généralement la musique très tôt car elle détermine le rythme, qui détermine le nombre de plans et la stratégie de montage. Pour ce projet, nous avons décidé que l’instrument principal serait le piano. Il y a deux raisons. L’une est que nous aimons la texture de reflet « ondulation de l’eau » dans les visuels miroirs, qui nous rappelle des accords de piano propres. L’autre est que la structure en grille de la Salle des Miroirs nous rappelle l’ordre d’un clavier de piano.
Les partitions de courts-métrages narratifs ont besoin d’une « arc » ; elles ne peuvent pas avoir le même rythme du début à la fin comme un bruit blanc. Une histoire doit avoir un début, un développement, un climax et une conclusion, et la musique doit avoir une structure correspondante.
Nous avons utilisé Suno car il génère une musique qui sonne bien et permet un contrôle fin sur les segments. Vous pouvez spécifier la longueur de chaque mélodie et lui dire clairement quelle émotion évoquer à un certain point, comme un retournement soudain, une tension ou du suspense.
Notre structure musicale cette fois était approximativement : l’ouverture utilise des accords de piano très simples pour attirer lentement le public dans l’histoire. Ensuite, un segment suit le protagoniste et l’environnement. Après cela, il y a un segment de transition créant un petit obstacle pour maintenir l’attention du public. Puis on entre dans la deuxième mélodie, portant les actions du protagoniste et le climax. Enfin, la fin – nous voulions revenir à un bel accord de piano, nous avons donc spécifiquement ajouté un outro.
Un avantage de Suno est que vous pouvez régénérer à l’infini les segments qui vous déplaisent. Après avoir terminé la musique française, nous avons exporté la chanson entière et l’avons téléchargée à nouveau dans Suno pour faire une variation pour la partie Shanghai tout en gardant la mélodie. Nous avons réglé l’Influence Audio à 50%, assurant que la mélodie de base reste, puis lui avons dit d’ajouter du saxophone et de donner une impression de jazz old-school shanghaien. Il a fait des variations très appropriées sur la mélodie originale.
Il a une fois donné une fin assez exagérée, mais nous l’avons finalement changée pour la fin originale pour la rendre plus retenue.
De plus, nous publions ces partitions en ligne sous l’identité de notre chat, Nika. Nika est considéré comme un « musicien légendaire de la planète des chats », et cela inclut quelques partitions TVC que nous avons faites pour des clients.

IV. Storyboard
Ensuite, comment aborder le storyboard.
Nos esthétiques personnelles sont très fortes, donc il s’agit plus de partager de l’expérience.
Notre exigence de base pour le storyboard d’ouverture est une « haute densité d’information ».
Essayez de suggérer de quoi parle l’histoire dès le premier plan. Par exemple, le premier plan de « Le Chat de la Cité Interdite va au travail » est le chat ouvrant les yeux avec le reflet de la Cité Interdite dans ses pupilles, expliquant rapidement « chat et Cité Interdite ». Le début de « Le Chaton civilisé visite Pudong » est le chat poussant une carte de Shanghai, expliquant rapidement « chat venant à Shanghai pour le tourisme ».
Pour la partie du chaton blanc du Louvre, nous voulions expliquer l’histoire en trois plans. Le premier plan montre le chat regardant l’affiche, plantant l’« affiche d’exposition » visuel clé dans l’esprit du public. Le deuxième plan utilise un gros plan pour introduire le protagoniste. Le troisième plan utilise un plan large pour établir l’environnement tout en montrant la relation miroir du « Louvre reflétant le Musée d’Art de Pudong ».
Le storyboard a aussi besoin d’un sens du rythme. Le rythme vient en grande partie des changements de taille de plan. Un plan large après un autre plan large semble très monotone, donc nous alternons entre plans larges et gros plans pour créer un sentiment d’expansion et de contraction. Si le plan d’ouverture a trop d’informations, le public ne saura pas où regarder dans la première seconde ; nous utilisons une animation simple pour guider l’œil. La première moitié utilise une méthode de « tirer le rideau », et la seconde moitié utilise également une conception d’ouverture classique.
Vient ensuite la première partie de l’histoire, qui est une partie centrale et un ensemble de storyboards dont nous sommes très satisfaits.
Le but de cette séquence est de montrer le chat blanc sortant du Louvre, tombant amoureux du Plat aux motifs de Paon, et ayant une imagination fantastique.
Cette séquence doit transmettre deux informations : le protagoniste est au Louvre, et le protagoniste aime le plat de paon.
Le premier plan utilise un objet exposé classique du Louvre pour établir le lieu. Nous avons choisi la Victoire de Samothrace, une sculpture très classique. Nous avons délibérément évité la Joconde car elle est trop courante et semblerait trop clichée. En termes de composition, nous n’avons pas concentré la caméra uniquement sur la sculpture car nous voulions que le public se concentre sur le chat. Nous avons donc placé la sculpture en arrière-plan comme un embellissement et utilisé un angle extrêmement bas, faisant en sorte que le chat blanc au premier plan occupe plus de volume dans le cadre, forçant le public à se concentrer sur le chat tout en reconnaissant instantanément « c’est le Louvre ».
Le deuxième plan commence à introduire subtilement l’art islamique. Nous avons fait référence à un artiste célèbre sur Instagram dont la pratique courante est de filmer des scènes de la vie quotidienne puis de faire bouger les symboles qui s’y trouvent.
Cette sensation est merveilleuse car elle est fantastique tout en donnant l’impression que cela pourrait arriver dans la vie réelle. Nous avons d’abord fait une version plus exagérée, comme la scène entière se transformant en motifs alors que le chat glisse, mais nous avons ensuite estimé que c’était trop de mouvement et ne donnait pas l’impression de la vie réelle, nous avons donc changé pour un plan de caméra fixe plus retenu, laissant les motifs d’arrière-plan bouger subtilement alors que le chat passe.
Nous avons essayé de nombreuses versions : des motifs en forme de cercle magique, la caméra descendant dans un monde d’art islamique, des motifs sortant de l’écran, etc. Plus tard, nous avons réalisé que « intéressant » ne suffisait pas ; il fallait aussi un gain émotionnel. Nous avons donc utilisé une conception de contraste : commençant par un angle plongeant extrême oppressant, et à mesure que la caméra se déplace vers le cadre final, elle entre dans un immense espace ouvert, donnant au public un sentiment d’illumination soudaine. Dans le plan final, les motifs des deux côtés bougent comme un tapis roulant, amenant le chat dans un espace d’exposition ouvert.
Nous avons également fait un compromis : pas de portraits dans les cadres. Dès qu’un portrait humain apparaît dans le cadre, le public cherchera involontairement tous les portraits, et son attention sera détournée du chat. Nous voulions que le public suive le chat, nous avons donc supprimé autant que possible les éléments qui volent facilement la vedette pour garder l’expression subtile.

Dans la conception du cadre final de ce plan, A Wen a réalisé une opération très astucieuse : placer le Plat aux motifs de Paon directement dans l’espace d’exposition, laissant l’objet exposé central apparaître tôt pendant le climax. Après avoir déterminé le cadre final, nous sommes revenus en arrière et avons redessiné le premier cadre et le mouvement de la caméra, rendant le plan plus maîtrisé.
Après le climax émotionnel, nous avions besoin d’ajouter un peu de nouvelle stimulation. Nous avons pensé au chat voyant l’espace après être monté, ou voyant un autre objet exposé, mais rien n’était assez touchant.
Plus tard, nous avons pensé au chat voyant un paon, et le paon est vivant. Ce point nous a immédiatement fait sentir que l’œuvre d’art avait pris vie. En termes de rythme, nous avons également fait une progression étape par étape : le paon tourne d’abord la tête, puis son corps, et enfin déploie ses ailes, réservant la surprise pour la dernière seconde.
Après le climax, il faut revenir à la réalité. Nous avons utilisé un moyen très simple : couper à un gros plan du chat, comme s’il imaginait, puis couper à un plan objectif établissant la réalité – le chat se tient en fait devant le plat de paon en regardant l’objet exposé. Le public comprend alors que le segment fantastique venait de l’imagination du chat.
Vient ensuite le segment de transition, visant à expliquer que « l’objet exposé va à Shanghai » et « le chat décide de monter dans la boîte et de l’accompagner ».
Nous avons utilisé le montage et le traitement en écran partagé car cela peut transmettre beaucoup d’informations en peu de temps. Lors de la réalisation de tels plans, nous avons supprimé les gens autant que possible. Dans les films animaliers, les visages humains volent facilement la vedette ; le public est plus susceptible de s’identifier aux gens, et leur attention sera détournée, nous n’avons donc gardé que des gros plans et des actions sans montrer les visages.

Le deuxième segment devait à l’origine parler de ce qui arrive au chat dans la boîte de transport de l’avion.
Avant de déterminer complètement l’intrigue, nous utilisons Sora pour générer quelques échantillons afin de vérifier rapidement le rythme et la composition, à la recherche de surprises et de références. Après les avoir générés, nous ne les avons pas aimés car les images n’étaient pas aérées, les couleurs étaient jaunâtres, vieilles et sombres, incompatibles avec le ton que nous avions défini précédemment. La logique de l’intrigue ne fonctionnait pas non plus car le chat dans la boîte ne pouvait pas voir les objets exposés à l’extérieur, et les objets devraient aussi être dans des boîtes.
Nous avons donc supprimé tout le segment « regarder dans la boîte » et recentré le récit principal : le chat blanc accompagnant le plat de paon à Shanghai.
Pour l’arrivée à Shanghai, nous voulions initialement faire une transition réaliste d’un avion volant du Louvre à Shanghai, et nous l’avons testée avec VEO 3. Nous avons également essayé une micro-animation de carte classique. Mais ces plans ont tous été rejetés par nous.
Car une carte amène le public à se préoccuper particulièrement de la rationalité, comme si les positions de Paris et Shanghai et la distance de vol sont correctes, ce qui distrait l’attention. Nous avons également essayé un plan plus abstrait de « carte à points de feu avec empreintes », mais nous n’avons pas aimé le plan trop large ; nous préférions que le public voit le sujet clé occuper une plus grande partie du cadre.
Finalement, nous avons décidé de changer directement entre le « premier cadre du Louvre » et le « premier cadre du Musée d’Art de Pudong », rendant la transition plus proche et plus concentrée.
Nous avons testé de nombreux types d’animations de transition : comme un tapis qui se déroule, des carreaux qui basculent, des images d’avion, etc. Nous avons finalement choisi l’avion car les images d’avion apparaissaient dans les plans avant et après la transition. Des images continues rendent le public plus à l’aise, même si cela saute d’un style réaliste à un style d’art en mosaïque au milieu, cela ne sera pas brusque.

Après être arrivé à Shanghai, le storyboard est plus direct : d’abord voir le Musée d’Art de Pudong de loin en près, puis voir le chat courant vers le musée. Nous aimons beaucoup l’un des plans : le chat courant près de l’eau, avec le reflet dans l’eau étant un paon.
Cette idée était initialement « plus sauvage ». Nous espérions qu’en courant, le chat pourrait voir les ombres de nombreux animaux, comme des paons, des chevaux, des chameaux, etc., mettant en avant l’idée que « tout l’art islamique est arrivé ensemble à Shanghai ». Nous avons essayé le texte-à-image et le texte-à-vidéo, mais rien n’a fonctionné. Nous avons également pensé au chat se voyant comme un tigre dans son cœur, avec l’ombre étant un tigre, mais cela était trop faiblement lié au film et a été rapidement retiré.
Nous avons ensuite découvert que confier une telle créativité centrale directement à l’IA en une seule fois n’est pas fiable et doit être décomposée pour l’exécution. Nous avons d’abord dessiné le storyboard à la main, décidant d’un angle légèrement plongeant pour que l’attention du public tombe naturellement sur le reflet du lac.
La composition a été simplifiée en « l’ombre du chat est un paon », ce qui est le plus directement lié à la ligne principale. Nous allions d’abord utiliser Photoshop pour composer la relation souhaitée, puis la confier au modèle pour compléter le style et la dynamique unifiés. Tout au long du processus, nous avons fortement senti que même un dessin à la main brut est plus intuitif pour que l’IA comprenne et pour que les gens communiquent.
Pour la fin, nous avons fait écho au concept de « miroirs » à nouveau, terminant sur une image plus retenue et belle.

Voilà pour le storyboard.
Ensuite, la partie artistique est confiée à A Wen.
V. Art
Je (A Wen) fais principalement deux choses.
D’abord, convertir les storyboards manuscrits de Hai Xin en visuels finaux. Ensuite, contrôler le style artistique global.
Après avoir reçu le projet, nous sommes immédiatement allés nous renseigner sur l’art islamique. C’est un style artistique avec lequel nous avons habituellement peu de contact, mais il est très distinctif. Après avoir maîtrisé quelques mots-clés centraux, il est facile de créer un art de style mosaïque avec des caractéristiques exotiques. Nous avons résumé 4 mots-clés très utiles dans le live ; les deux plus couramment utilisés sont « style Iznik » et « art de la mosaïque ». Ici, mosaïque fait référence à l’art de la Mosaïque, qui est différent du Pixel art.
Nous avons deux principes pour faire des films. Il doit être beau au premier coup d’œil et durable au deuxième regard. À l’ère de l’IA, c’est une chose précieuse qu’un public soit prêt à finir de regarder votre court-métrage. Pour nous, être beau équivaut à une sensation cinématographique. Durable équivaut à autant de détails et de détails créatifs que possible, y compris les détails artistiques.
Tout le monde est en fait très sensible à une sensation cinématographique. Pour la même image et le même prompt, avec des résultats de différents modèles, vous pouvez facilement juger lequel a plus de sensation cinématographique. Donc la première étape dans l’art est de choisir le bon modèle. Notre modèle de génération d’images principal actuel est essentiellement Nano Banana Pro. Pour la modification d’images, nous l’utilisons principalement directement avec une modification textuelle, parfois combinée avec Photoshop. J’affine aussi manuellement certaines parties.
Choisir le bon modèle est aussi précieux que de choisir le bon fournisseur. Il peut faire le travail correctement et gérer de nombreuses modifications fastidieuses. Par exemple, il y avait un plan dont nous étions très satisfaits, mais après avoir soumis la première version, le musée a dit que ce plan devait être supprimé car il donnerait l’impression que le déplacement des objets exposés n’était pas professionnel, et ils ne voulaient pas transmettre ce sentiment au public. Sur le plan narratif, nous avions besoin de ce plan pour expliquer que le chat se cache dans la boîte pour suivre les objets jusqu’à Shanghai. Finalement, nous avons utilisé Nano Banana pour « emballer » les objets, rendant la manipulation plus professionnelle, et cela a été accepté.
Un autre exemple : la dernière image du cadre est très belle, mais on remarque que l’attention reste longtemps sur le derrière du chat blanc ; c’était un problème qui n’est apparu qu’après être passé au chat blanc. La solution était simple : laisser la queue pendre dans le premier cadre, et ce ne serait pas un problème en montant plus tard.
Encore plus exagéré : sauver la situation en changeant le chat. Lorsque nous avons changé le protagoniste d’un chat noir à un chat blanc à mi-parcours, de nombreuses images fixes et animations étaient déjà terminées.
Cela semble incroyable, mais l’IA peut vraiment le changer.
À ce moment-là, les outils que nous pouvions utiliser étaient limités, seulement la première génération de Nano Banana, que nous utilisions généralement dans Google Whisk. Notre habitude est un dossier par plan, donc nous sommes allés dans chaque dossier un par un pour changer la couleur du chat, et nous avons tout terminé en un jour et demi.
Plus tard, lors de la révision, Banana Pro est sorti, et nous avons constaté que des efficacités encore plus incroyables étaient à venir. L’IA peut non seulement le changer, mais aussi le changer de plus en plus rapidement. Sur les plateformes tierces, vous pouvez télécharger toutes les images fixes à la fois et changer le protagoniste chat noir en chat blanc avec une seule phrase, ce qui est plus efficace.

Beaucoup de gens demandent où Nano Banana Pro est le mieux utilisé.
Notre expérience montre que le système d'abonnement de Google comporte pas mal d'écueils. Nous avons souscrit à l'abonnement Google Ultra haut de gamme dès son lancement et l'utilisons encore aujourd'hui. On voit souvent d'autres personnes dire que Google propose des réductions, comme 79 $ par mois pendant trois mois, ou un tarif semestriel, mais quand on regarde le prix de son propre abonnement, il ne change peut-être pas du tout et reste très cher, voire plus élevé avec les taxes.
Un autre point qui nous rend très mécontents est que le seuil d'entrée pour la 4K n'est pas clair. Certains disent que c'est dans Flow, mais la génération par défaut de Flow est en 1K, et elle ne passe en super-résolution 4K qu'au téléchargement. Nous ne savons pas s'il s'agit d'une super-résolution ou d'une 4K native. Google AI Studio peut produire de la 4K de manière plus native, mais c'est facturé séparément.
Si vous êtes un membre Ultra comme nous, voici notre utilisation plus pragmatique : utilisez Flow pour une génération rapide de type gacha car c'est rapide avec une base 1K. Utilisez Gemini pour des itérations multi-tours ; les tours de dialogue sont très pratiques. Lorsque vous avez une bonne maîtrise du résultat, vous pouvez aller sur AI Studio pour une 4K native.
De plus, nos prompts deviennent de plus en plus simples. La compréhension multimodale du modèle est très forte et ne nécessite souvent pas de longs discours. Par exemple, je vais insérer une image, lui faire extraire le chat et le papillon, les placer sur un fond de couleur unie, puis les transformer en pixel art. Après avoir stabilisé le style, étendre les éléments est très efficace.
Et les prompts d'aujourd'hui ont-ils vraiment besoin d'être de longs discours ?
Nous avions un plan qui nécessitait une vue de face d'une exposition, mais personne ne pouvait entrer pendant la période d'installation ; le personnel ne pouvait nous envoyer que deux clichés rapides de loin.
Ces deux photos étaient déjà très précieuses pour nous, alors nous les avons utilisées comme source d'information et avons directement laissé Gemini générer une vue de face de l'exposition basée sur les deux photos, en 16:9.
Le résultat était très bon, et nous l'avons utilisé pour finaliser le plan final.
Encore plus surprenant, lorsque nous sommes allés sur place le jour de l'ouverture, nous avons constaté que c'était presque identique à l'emplacement réel. Les gens ne pouvaient pas se faufiler, mais l'IA le pouvait.

Quand un modèle est suffisamment puissant, il ne se soucie pas de l'origine du storyboard. Autrement dit, parfois vous lui donnez des storyboards assez farfelus, et il comprend instantanément ce que vous voulez et génère directement des visuels très agréables. Ce sont tous des visuels directement produits par le modèle en utilisant les storyboards de Hai Xin, et ils sont tous très bons.

Mais pour une créativité complexe, vous devez itérer par étapes.
Prenons l'exemple du plan « le chat marchant sur le rivage, avec le reflet dans l'eau étant un paon ».
D'abord, je comprendrais la perspective du croquis du storyboard.
J'ai l'habitude de construire un croquis très grossier dans PPT. Il se trouve que j'avais sous la main un PNG transparent d'un « acteur vétéran » de chat blanc ; le placer dans le cadre construit la perspective. Ensuite, je jette ce croquis grossier dans le modèle pour le transformer en un style réaliste, obtenant d'abord une scène de base d'« un chat marchant sur le rivage avec un lac à proximité ».
La deuxième étape consiste à poser le carrelage. J'ai effectivement utilisé des prompts pour poser du carrelage sur le sol en béton, en essayant de nombreux mots-clés jusqu'à trouver une version avec la « densité parfaite ». Après les avoir posés, l'image a pris forme, mais plusieurs itérations déformaient la posture du chat, alors j'ai laissé l'IA l'ajuster à nouveau.
La troisième étape consiste à ajouter les informations de l'exposition. La façon la plus simple est de les superposer dans PS et d'ajuster le style de calque. Mais nous avons constaté que le reflet du paon dans le lac était difficile à faire bouger car les paons stylisés ne se convertissent pas facilement en dynamique réaliste. Je suis donc retourné dans PS, j'ai effacé le paon, je l'ai remplacé par une ombre de paon réaliste, et je l'ai renvoyé dans le modèle pour continuer.
Plus tard, la couleur du chat a dû être changée. Après l'avoir changée, j'ai constaté que le carrelage « mangeait » le chat blanc, j'ai donc reposé le carrelage à nouveau pour obtenir l'image fixe finale.

Enfin, faire l'animation était en fait la partie la plus simple. Habituellement, c'est une sortie directe ; deux ou trois essais peuvent donner une bonne dynamique, comme le chat marchant le long du rivage et le reflet du paon dans l'eau qui le suit.
Ensuite, un peu d'expérience en art concernant le compositing de scènes réelles.
Il y a de nombreux monuments et expositions dans le court métrage qui ne peuvent pas être erronés, nous avons donc besoin de certitude. Souvent, nous compositons le chat sur des monuments réels existants.
Maintenant, ce genre de compositing est très simple ; il suffit de dire à Nano Banana Pro qu'il y a un chat orange de dos à la caméra poursuivant un papillon d'une couleur spécifiée dans la scène, et il peut le générer.
Deux petits conseils pour améliorer le taux de réussite. Premièrement, recadrez avant de générer. Par exemple, nous n'avions pas besoin des décorations en bas du matériel de l'Hôtel Peace, donc je les ai recadrées avant de les donner au modèle. De nombreux plans intérieurs sont les mêmes ; recadrez d'abord les zones inutiles, et le modèle devient plus concentré.
Deuxièmement, si vous devez faire un match cut ou réutiliser un sujet à plusieurs reprises, il est recommandé d'extraire d'abord le chat et le papillon sur un fond de couleur unie, puis de changer différents arrière-plans. Laisser le modèle changer constamment de scène directement dans la même image mange facilement le papillon, mange le chat ou change la couleur du chat. Extraire d'abord le sujet, puis changer l'arrière-plan a un taux de réussite beaucoup plus élevé.

Beaucoup de gens demandent pourquoi nous n'utilisons pas la référence multi-image pour la génération vidéo.
Concernant les produits vidéo multi-références, nous avons essayé presque tout ce qui existe sur le marché en réalisant ces deux courts métrages, et le problème de netteté est difficile à guérir ; les éléments deviennent flous au moindre mouvement.
Même avec la nouvelle fonction multi-référence récemment lancée sur Flow, nous l'avons essayée, et il est difficile de garantir que les expositions que nous voulons restent inchangées. Nous avons trop de sujets stables à maintenir, y compris plusieurs expositions, le chat et le papillon, donc finalement, la routine de la première et de la dernière image est plus stable.
Beaucoup d'amis demandent aussi, a-t-on encore besoin de PS ?
Je pense que PS est toujours utile, mais nous l'ouvrons de moins en moins souvent. Je recommande vivement une fonction que peu de gens utilisent, appelée « Harmoniser ».
Vous collez un PNG ou une image sur une image fixe, cliquez sur harmoniser, et il fait automatiquement correspondre l'éclairage ambiant, rendant le composite plus intégré. Par exemple, dans le plan avec l'assiette flottante, je clique sur harmoniser, et la différence d'éclairage avant et après est très évidente ; l'efficacité est élevée.
En même temps, Banana Pro est suffisamment puissant pour que beaucoup de choses puissent être faites directement avec. Par exemple, dans le film du chat orange, il y a un plan où j'ai d'abord utilisé Vidu pour générer un aperçu ; la netteté n'était pas suffisante et les expositions n'étaient pas stables, mais la relation entre le mouvement du chat et les expositions était correcte.
J'ai donc jeté à la fois l'aperçu et les matériaux d'exposition dans Banana Pro, en lui demandant de garder la composition inchangée et de remplacer les expositions flottantes par celles que j'avais fournies, leur permettant d'apparaître de manière répétée et dispersée. Le résultat était une très bonne image dès la première version, et il a même automatiquement ajouté une profondeur de champ avant/arrière-plan et un flou de mouvement, répondant essentiellement aux besoins de production.

VI. Animation
Notre principal outil vidéo est Flow. Notre modèle vidéo couramment utilisé est VEO 3.1.
Flow a également récemment lancé une fonction 4K, qui aide à la qualité d'image. Pour les modèles vidéo auxiliaires, nous utilisons aussi Kling, Hailuo, Jimeng, Wanxiang, Luma, etc., mais Flow est plus pratique à utiliser, et les visuels ont plus une sensation cinématographique.
Nous avons l'impression d'être entrés dans une ère où nous pouvons « éditer la vidéo ». De nombreux outils vidéo peuvent éditer directement la vidéo. Il y a une fonction cachée dans Flow, avec un point d'entrée profond ; il y a un bouton « éditer » en haut à gauche de la vidéo générée. Une fois à l'intérieur, vous pouvez ajouter des choses à la vidéo, en couper, et même changer la position et le mouvement de la caméra ; c'est un peu expérimental mais parfois utile.
Ses limites sont également évidentes ; par exemple, il peut ajouter et couper, mais il est difficile de faire « éditer et remplacer », comme changer un chat noir en chat blanc. Pour y parvenir, vous devez d'abord supprimer puis insérer, ce qui semble très lourd.
Dans Flow, nous utilisons aussi beaucoup la fonction de gribouillage. Le texte pur est difficile pour faire effectuer certaines actions au chat, comme lui faire faire un saut direct ; nous n'y sommes pas parvenus même après de nombreux essais.

Mais en dessinant un gribouillage sur la première image pour donner des instructions de mouvement, comme où le papillon devrait voler et le chat le suivant, puis en ajoutant un prompt « suis les instructions dans l'annotation puis supprime mon annotation », le modèle générera selon les règles de mouvement que vous avez annotées, et le chat peut sortir du cadre en douceur.
Et Ray3 de Luma est étonnamment utile. Nous avons fait un test à Noël, en téléchargeant un aperçu très grossier et en ajoutant un prompt ; il a généré très joliment avec une grande netteté, créant même quelque chose à partir de rien dans la vidéo originale.
L'inconvénient est la génération lente, mais l'avantage est la haute qualité de compositing, adaptée à la production.
La nouvelle fonction de création de personnage de Wan 2.6 mérite également d'être notée. Ses personnages humains sont encore sujets à être hors personnage, mais les personnages animaux sont bien plus excitants que les humains. J'ai téléchargé au hasard une vidéo très floue et sombre de mon chat Nika, et après avoir construit le personnage, j'ai pu utiliser @ pour l'invoquer dans Wan 2.6 ; la qualité de génération était à un niveau « approuvé par le maître » et très haute définition. Nous lui avons fait faire beaucoup de choses, comme un dinosaure venant le sauver. Cette fonction a été lancée après que nos deux courts métrages aient déjà été publiés, ce qui était un peu un mauvais timing.
Un autre petit conseil : lorsque vous faites des micro-animations pour l'écran de fin, vous pouvez choisir un « modèle légèrement moins bon », c'est-à-dire un modèle de génération précédente. Les amplitudes de mouvement des générations précédentes sont généralement plus petites, ce qui est parfois parfait pour l'écran de fin. Par exemple, pour l'écran de fin, nous voulons que l'environnement bouge légèrement, mais Flow pourrait ajouter beaucoup de motifs imaginés et bouger trop.
Utiliser un modèle de génération précédente bouge en fait juste ce qu'il faut. J'ai utilisé Jimeng 3.0 cette fois, et cette amplitude de micro-mouvement était très appropriée.
VII. Brouillons Abandonnés
Il y a eu de nombreux brouillons abandonnés cette fois, en particulier pour celui du chat orange, car après la sortie de Pro, la mise en œuvre de certaines idées était rapide et la quantité d'exploration était plus grande. En voici quelques-uns que nous avons particulièrement aimés mais que nous avons douloureusement supprimés.
L'un est le « Feuilleté Papillon » que le public shanghaïen adore demander. Le feuilleté papillon de Shanghai est très célèbre, et nous avons effectivement fabriqué un feuilleté papillon géant, et nous aimions beaucoup le visuel. Mais dans l'IA, une fois que le feuilleté papillon bouge, il se retransforme en vrai papillon et ne vole jamais, donc nous avons dû y renoncer.
Un autre est un point de photo très populaire au Musée d'Art de Pudong où l'on peut photographier la Perle Orientale. Nous avons fait un plan où un papillon colle une demi-aile de l'extérieur de la fenêtre, et l'autre moitié de l'aile est complétée par l'ombre de la lumière du soleil, formant un papillon complet. Le visuel était beau, mais quand il bougeait, le papillon ne volait toujours pas, donc il a été supprimé.
Un autre était un plan de la galerie d'art islamique du Louvre ; nous voulions initialement le rendre plus exagéré, même avec une dynamique de niveau tsunami, mais nous avons ensuite estimé que c'était trop fantastique et ne correspondait pas à l'ambiance « discret mais fantastique » que nous voulions, donc il a également été supprimé.

Pour Finir
Enfin, le point central que nous voulons transmettre est le suivant :
Plus le modèle est pratique, plus vous devez vous pousser à faire mieux.
Maintenant que les modèles sont de plus en plus pratiques, de nombreux créateurs ont tendance à utiliser des agents pour produire directement des ensembles complets de solutions de storyboard ou les laisser accomplir une plus grande partie de la création. Mais ce que nous voulons dire, c'est que la commodité du modèle ne doit pas être une excuse pour la paresse.
C'est plutôt un rappel : vous avez plus de capacité à rendre votre travail meilleur.
En terminant par une phrase que nous disons souvent :
Tant que vous êtes en action, vous avancez.
Merci à tous, notre partage d'aujourd'hui s'arrête ici.
Si vous l'avez trouvé utile, n'hésitez pas à le partager avec vos amis ; c'est une énorme aide pour nous !





