Dans l'oeil du cyclone
Salut les naufragés, bienvenue dans cette nouvelle édition de GENERATIVE, la newsletter explosive alimentée par le flots radioactif de news en IA générative.
Cette semaine encore, ça tabasse.
Mettez votre casque intégral, enfilez vos palmes et votre tuba, accrochez vos ceintures et tenez vous fermement à nous, ça va appuyer fort sur l’accélérateur.
🔹 HEYGEN STUDIO – Mise à jour Avatar IV avec contrôle gestuel
Heygen AI Studio intègre désormais le contrôle gestuel, la synchronisation labiale et la voix personnalisée dans ses avatars. Avatar IV permet d’animer des photos pour en faire des vidéos réalistes.
HeyGen améliore Avatar IV avec “plus de fluidité dans les gestes, une meilleure synchronisation labiale et une personnalisation accrue.”
On a testé, ça marche plutôt pas mal.
On vous partage cette excellente démo de Sebastian Ungrad :
🔹 HIGGSFIELD Speak : avatars animés expressifs
Higgsfield dévoile "Speak", une fonction de génération vidéo centrée sur les avatars qui parlent. Style, mouvement et émotion sont contrôlables via un prompt. Verdict : super sur les démos anglophones, moins convaincant sur nos tests en français
🔹 Modify Video : le video-to-video d’un autre niveau
Luma AI sort “Modify Video” qui permet de modifier une vidéo existante avec un prompt ou une image de référence. Le modèle conserve les mouvements et la structure, tout en intégrant de nouvelles informations visuelles… L’avantage par rapport à un transfert de style, c’est qu’il permet de réaliser des scènes avec les “moyens du bord” et d’obtenir de très bons résultats. Attention, cette fonctionnalité se limite a des vidéos de 10 secondes.
Envie d’en savoir plus ? Un webinaire aura lieu mercredi prochain (à 20h pour nous les Frenchies). Inscription sur formulaire.
🔹 ElevenLabs V3 (alpha)
ElevenLabs V3, en version alpha, améliore fortement la qualité de la synthèse vocale avec des balises audio qui contrôlent l’émotion, le style ou l’accent.
Le choix de la voix est central : elle doit correspondre à l’intention (ex. voix neutre pour un rendu fiable). La stabilité règle la fidélité à la voix source : “Creative” permet plus d’expressivité, “Robust” est plus constant. Les balises comme [whispers]
, [sarcastic]
ou [laughs]
ajoutent du réalisme. Cela fonctionne aussi pour dialogues multi-voix, par contre une façon de prompter bien spécifique est requise (selon le guide que vous retrouverez ici)
J’ai retesté avec des petits [laughs],l
e résultat est assez réaliste
🔹 L’accès VEO 3 débarque officiellement chez les Frenchies !!
Leonardo AI et Replicate lancent les hostilités en ce vendredi matin : plus besoin de VPN et plus d’excuses ! Par contre, prévoyez le porte monnaie : 2500 crédits sur le premier et 6$ par vidéo sur le second. Ouch !
Suivis de près par Pollo.Ai qui permet 2 générations grâce aux crédits journaliers de l’abonnement pro de 800 crédits par mois. A raison de 330 crédits par vidéo, après 2 essais, vous pourrez soit patienter, soit ressortir la carte de crédit (offre annuelle à moitié prix en ce moment). Le long métrage n’est pas pour demain… A moins de casser la tirelire !
Bien sûr Freepik et Krea AI n’ont pas tardé à remettre une pièce pour vous demander de venir dépenser vos crédits chez eux… Ca sera donc 4000 crédits les 5 secondes “en promo” chez Freepik (8000 crédits en temps normal) et une mention “VERY EXPENSIVE” chez Krea.
Et arrêter de flamber vos crédits les gens, on ne peut plus prompter tranquille
🔹 Le tips de la semaine pour faire de l’extend sur Veo 3 :
1. Générer une video initiale
2. Sélectionner "add-to-scene"
3. Sélectionner "extend"
4. Ajouter un prompt & Générer
A répéter à l’infini !
🔹 Manus Vid : Générateur vidéo narratif IA
Manus AI propose d’envisager le futur avec cette nouvelle fonctionnalité capable de transforme un prompt (ou une série de prompts) en vidéo longue.
Positionné comme un outil de storytelling complet, il facilite la prévisualisation ou la production rapide de contenus audiovisuels. Voilà la démo :
Maintenant voilà notre test maison :
Prompt : “Je souhaite réaliser une video promotionnelle pour la Newsletter GENERATIVE. Elle est spécialisée dans l'actualité des outils de création visuelle avec l'IA. C'est une newsletter hebdomadaire rédigée par Caroline Thireau et Gilles Guerraz.
Je souhaite une vidéo courte entre 15 et 30 secondes. Je n'ai pas de logo spécifique. Le CTA est "abonnez vous !" Le style visuel doit être coloré. Caroline Thireau est une petite brune avec des lunettes. Gilles Guerraz est grand, chauve avec une barbe poivre et sel et des lunettes Rayban Meta. La newsletter est hébergée ici : GENERATIVE”
Et voilà le chef d’oeuvre généré en 14 minutes et 57 secondes (non, y’a pas de son):
🔹 Leonardo Lucid Realism, leu nouveau modèle image IA
Grosse semaine pour Leonardo AI qui présente également, Lucid Realism qui produit des images très détaillées au rendu prétendument “cinématographique”.
Nous on trouve ça beaucoup trop “3D render”, et vous ?
Il peut être utilisé avec Motion 2.0 pour un rendu plus dynamique.
🔹 … et Leonardo OMNI, leur suite créative image IA
OMNI Editing est une interface de création IA polyvalente qui intègre Flux Kontext, pour modifier vos images rapidement et efficacement :
Avis de Caro : On a voulu tester sur Kiki, le nouvel animal de compagnie de Gilles, et lui mettre une crête rose à lui aussi… Beaucoup d’attente sur la génération et un résultat one shot un peu déceptif et une interface pas toujours intuitive. (NDLR : Si Gilles a tombé le tshirt, aucun animal n’a été blessé au cours de ce test !)
🔹 Captions Mirage : Création vidéo sans acteur
Le modèle "Mirage" de Captions.ai peut transformer un script ou un audio en vidéo “UGC” (User Generated Content) avec avatars virtuels très réalistes. Il génère les expressions faciales, gestes et synchronisation labiale… Un modèle qui s’affine discrètement malgré des postures un peu figées sur cette démo de Linus Ekenstam.
Le rendu n’est pas encore très naturel… mais pour combien de temps encore ?
🔹 Bloom Topaz : Upscaler IA 8x avec styles
Topaz Bloom propose un upscaling x2, x4, x6 ou x8 de vos images IA, avec 5 styles de rendus différents. Il améliore les détails et vous pouvez décider de respecter l’esthétique originale ou de choisir un upscaling créatif.
En conclusion, le choix entre Bloom et Magnific AI dépend des priorités : simplicité et qualité immédiate pour Topaz Bloom, ou flexibilité et hautes résolutions pour Magnific AI. Les utilisateurs semblent divisés, avec une préférence pour Topaz Bloom dans les cas simples et Magnific AI pour des besoins plus complexes, reflétant une complémentarité potentielle dans les workflows créatifs.
🔹 MOVE AI 3D – Dex : capture précise des mains et doigts
Move AI lance "Dex", une solution de motion capture sans capteurs, spécialisée dans le suivi des mains et des doigts. Cette technologie permet de capter des mouvements complexes en haute fidélité à partir de simples vidéos, autant vous dire, un tout autre niveau ! Un bon coup de pouce pour l’animation de personnages 3D sans tournage lourd.
🔹 Flux Kontext dans Firefly Boards d’Adobe
Adobe Firefly Boards intègre Flux Kontext, que nous vous avons présenté la semaine dernière. Il s’agit d’un outil qui permet d’éditer facilement des images, comme GPT 4-o ou Gen-4 Reference. A noter qu’il est possible de s’inscrire sur liste d’attente pour tester la version bêta du board ici (sous réserve d’être déjà abonné apparemment). Démo ici.
🔹 Runway Selfie : Génération avec presets
Runway lance la fonction “Presets” sur son App iOS : des selfies sont transformés automatiquement en images stylisées à partager… Un bon moyen pour Runway de marcher sur les terres des Pika pour les créations social media !
🔹 FINEGRAIN x Freepik : Suppression d’objets précise
Finegrain alimente désormais l’outil d’effacement d’objets de Freepik. L’outil supprime proprement les éléments d’une image avec préservation des ombres et textures. Idéal pour la retouche rapide d’images produit ou la création d’assets visuels propres.
🔹 Virtual Try-On : Comparatif des modèles
Rory Flynn compare Runway, Gemini, Midjourney et d’autres sur leur capacité à simuler des essayages virtuels. Chaque modèle présente des écarts sur la gestion des textures, éclairages et poses. Un benchmark qui peut s’avérer utile pour les créateurs e-commerce ou mode.
🔹 Colossyan : Lecteur multilingue interactif
Colossyan, spécialisé dans la génération d’avatars, ajoute une option multilingue pour la voix off de son lecteur vidéo. On choisit directement la langue dans l’interface et la celle-ci s’adapte. Plutôt à destination de contenu d’entreprise ou de formation. Spoiler alert : C’est loin de la qualité d’un Heygen (oui, nous sommes devenus exigeants).
Ce n’est pas un hasard si la démo ci dessous ne montre pas le produit en action…
🔹 TopView AI : Génération automatique de vidéos marketing
TopView AI propose de générer des vidéos virales et marketing à partir de simples liens ou visuels. L’outil s’occupe de tout : script, montage, voix-off. Plutôt destiné aux agences ou équipes marketing qui souhaitent produire rapidement des vidéos promotionnelles.
Je sais pas vous, mais nous on angoisse un peu à l’idée que nos feeds instagram et Youtube se remplissent d’influenceurs synthétiques.
Cela fait il de nous les prochaines boomers ?
🔹 Flux Kontext dans FLORA : Éditions localisées d’image
Avec Flux.1Kontext, l’outil FLORA, à mi chemin entre Comfy et les whiteboards, permet des retouches d’éléments précis d’image. Cela donne plus de contrôle sans avoir à regénérer l’intégralité d’une scène.
Avis de Caro : Inspirée par le test de Rory Flynn plus haut, j’ai testé en utilisant des visuels générés dans Seelab.ai pour les combiner avec GPT 4.o et Flux Kontext.
Constat : meilleurs contrôle et consistance sur le second mais des générations qui ne respectent pas forcément le cadrage shooting initial et donc perdent certains des éléments à combiner. Angles de vue & cadrages à bien repréciser dans vos prompts.
🔹 Runway x AMC : Partenariat contenu IA
Runway annonce un partenariat avec AMC, chaîne américaine connue pour ses séries originales comme Breaking Bad et The Walking Dead, diffusée via câble et streaming sur AMC+, autour de la production de contenu IA. L’objectif est d’optimiser la création de contenus courts pour plateformes de streaming.
🔹 ARCHI : Transformation de formes IA en modèles 3D Rhino
À partir de visuels générés en 2D par IA, l’architecte Ar. June Chow recrée des volumes dans l’outil 3D Rhino, une passerelle concrète entre IA visuelle et modélisation architecturale.
🔹 Weavy : Workflows image/vidéo nodaux
Weavy AI est une interface node-based pour gérer plusieurs modèles IA : text, image, vidéo, 3D… Elle permet de construire des pipelines créatifs complexes sans coder.
Avis de Caro : une belle démo qui donne envie avec énormément de modèles dispos… dans l’usage, une interface un peu moins intuitive qu’annoncée.
🔹 Descript : Édition audio/vidéo comme un texte
Descript transforme l’édition de fichiers audio/vidéo en une tâche aussi simple que la correction d’un document texte. Il devient plus facile d’ajouter des scènes vides, d’ajuster les pauses/espaces entre les mots et de modifier les calques à partir de la chronologie. Très adapté pour podcasteurs, créateurs YouTube ou pros du montage rapide.
🔹 FREEPIK GEN 4 Ref: Cohérence visuelle avec Runway
Freepik intègre l’indispensable fonctionnalité Gen-4 Reference de Runway qui permet de conserver la cohérence de personnages, couleurs et lumières cohérents sur plusieurs images comme on en parlait dans notre précédente édition. On peut ici aussi uploader jusqu’à 3 images de référence.
🔹 KIVE MULTI PRODUCT : collections de produits en série
Kive AI propose un nouvel outil pour générer des visuels de collections produits en un seul prompt : couleurs, angles et arrière-plans… pour décliner des visuels de e-commerçants et créateurs de catalogues.
🔹 L’open source de la semaine : TIC-FT & le Fine-tuning contextuel vidéo
Une fois n’est pas coutume, le camarade Stéphane Parsoire nous partage cet outil open source. TIC-FT (Temporal In-Context Fine-Tuning) ajuste les modèles de diffusion vidéo à différents usages via concaténation de clips et prompts à partir d’échantillon de 10 à 30 visuels d’entraînement. Utile pour adapter un modèle pré-entraîné à des besoins spécifiques. Papier avec les infos sur Github.
🔹 WAN 2.1 : Open source vidéo optimisé
Le camarade Luka Tisler nous partage comment Wan 2.1 améliore le rendu video open source avec des modèles plus stables et des générations vidéos plus cohérentes et stylisées. Ce modèle s’impose dans l’écosystème AnimateDiff comme une alternative sérieuse à des solutions plus lourdes. A suivre !
🔹 Electric Pink / Shaike – Courts métrages IA sélectionnés à Tribeca
Deux films générés partiellement par IA, Electric Pink et Kung Fu 2077, seront présentés au Tribeca Film Festival. Ces projets hybrides montrent l’usage croissant de l’IA dans la fiction indépendante.
Nous vous présentons Electric Pink, conçu et réalisé par le talentueux Henry Daubrez, avec des outils Google (Imagen et Veo).
Cette édition est terminée, merci de l’avoir lue jusqu’ici ! Si elle vous a plu, vous pouvez la partager en cliquant juste ici :
Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.
Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇