Le (faux) calme avant la tempête ?

mai 16, 2025

Salut les puces de silicium, les ventilateurs de GPU, les barrettes de RAM et les refroidisseurs liquides, bienvenue dans cette 110e édition de GENERATIVE, la newsletter IA fidèle au rapport hebdomadaire.

Cette semaine a été presque calme par rapport aux dizaines de précédentes. Pas d’annonces majeure cette semaine, mais rassurez vous, il y a encore de quoi faire.

Sans parler de la rumeur de la semaine qui commence par “Veo” et qui finit par “3”, on vous en reparle dès qu’on en sait davantage, après le prochain Google I/O.

Pour les particuliers, indépendants, freelances, solopreneurs qui lisent ces lignes, j'aurais le plaisir d'animer une nouvelle session de formation CPF à Paris les 19 et 20 juin prochain. Au programme Image + vidéo IA, mais aussi workflows, sons et tips.
Pour vous préinscrire, c’est ICI.

Let’s go !

Mais avant, c’est l’heure du grand…

⭐️ SONDAGE !! ⭐️
Depuis plus de deux ans, je décortique chaque semaine l’actualité des outils créatifs de l’IA pour vous — un travail qui me prenait plus de dix heures par semaine avant l’arrivée de Caroline Thireau, mon indispensable binôme, que je rémunère pour ce travail.
Même à deux, la montée en puissance continue de l’IA multiplie les sujets et les heures passées à vous préparer un contenu clair, utile et gratuit.

Aujourd’hui, pour continuer à maintenir la qualité sans sacrifier l’équilibre, j’envisage d’ajouter une formule payante (ou une section premium) qui financerait le temps de recherche, d’écriture et les outils que nous utilisons.

Cette section contiendrait également des Bonus, comme des vidéos "Behind The Scenes" de projets IA, des tutos, des tests plus poussés, etc...

Avant de prendre une décision, j’aimerais connaître votre opinion:

Seriez-vous prêt·e·s à soutenir la newsletter via une option payante ?

Répondez en un clic au sondage ci-dessous : votre vote pèsera réellement dans la balance.

Chargement...

Un grand merci pour votre fidélité et votre confiance !

🔷 Luma : Reframe
L’une des grosses news de la semaine c’est Reframe de Luma, qui permet de faire de l’outpainting vidéo, comme Runway Gen-3 Expand. Idéal pour décliner un contenu sur tous les réseaux sans perte visuelle.

Outil puissant pour le motion design rapide, mais réservé aux abonnements Unlimited et Enterprise. Attention, les crédits fondent rapidement.

🔹 Higgsfield AI : Nouveaux effets spéciaux en 5 secondes
Higgsfield AI, ce petit nouveau qu’on n’arrête plus, a adopté le rythme de Freepik et Pika : un update toutes les semaines.
Cette semaine, c’est un pack de 9 effets vidéo VFX de feu, explosion, métal, lévitation… qui nous rappellent les Marvels et autre DC Comics.
L’effet 3D Rotation permet aussi une rotation autour d’un objet, visuellement propre et rapide à générer, ce qui peut être très utile pour des démos produits, des concepts visuels ou sur les réseaux sociaux. Pas encore un remplaçant du VFX classique, mais un challenger en constante amélioration.

Ceux qui marquent le plus de points sur la toile sont “Turning Metal” et “Set on Fire”
(Appréciez au passage mon avatar LoRa réalisé avec Seelab)

Quant à Caroline, elle ne jure que par le “Morphskin” :

Higgsfield, encore et toujours, ne s’arrête plus et sort “Ads”, une série d’effets prédéfinis destinés à animer des packshots publicitaires.

🔹 Freepik AI : Flux de travail & correctif
On en parlait la semaine dernière, Freepik a ajouté un assistant IA piloté par ChatGPT-4o avec des “workflows” personnalisés. L’outil permet de créer facilement des visuels pour le merchandising, les mises en scène produits ou d’intérieur. Il suffit de choisir un modèle et d’interagir via chat. L’automatisation est efficace pour accélérer les tâches graphiques répétitives, mais reste limitée à des usages simples et dépend du modèle choisi.

Peut être saviez vous que ChatGPT 4-o était excellent dans la génération d’images MAIS… toutes ses générations proposent une teinte trop jaune. Freepik propose donc une correction qui consiste à ajuster séparément les canaux RVB. Le résultat est plus naturel, sans perte de détail. Process dispo sur leur Blog.

🔹 Topaz Photo AI 4 : Retouche d’image automatisée
Topaz Photo AI 4 améliore les images en quelques secondes : suppression de poussières, récupération de visages, mise au point intelligente. L’outil propose aussi un contrôle précis des masques (visage, cheveux...). L’interface simplifiée masque la complexité des traitements. Une bonne alternative aux retouches manuelles fastidieuses.

Breaking News du jeudi (comme d’habitude, il faut savoir rester vif !).
Topaz Labs introduit Starlight Mini dans le tout nouveau Video AI 7, tout premier modèle de diffusion d’amélioration vidéo avec rendu local qui peut être exécuté localement sur des machines Windows hautes performances avec des GPU NVIDIA, ou dans le cloud (3 fois moins chère que le modèle Starlight standard).

🔹 ElevenLabs Infinite Soundboard
Eleven Labs annonce le “SB-1”, en le présentant comme “à la fois une table d’harmonie, une boîte à rythmes et un générateur de bruit ambiant sans fin”.
Vous pouvez décrire les effets musicaux et sonores que vous souhaitez entendre, puis SB-1 les génère à l’aide d’un modèle Text-to-SFX.

🔹 Runway : Astuces
Runway utilise ses “Gen-4 References” pour améliorer la suppression d’arrière-plan. En s’appuyant sur des images de référence, les résultats sont plus précis, notamment sur les cheveux, ombres ou objets flous.

Il est également possible d’intégrer des éléments et objets dans un environnement avec un certain contrôle sur l’emplacement recherché. Regardez, les possibilités sont assez fofolles. A partir de 2 images de référence et d’un schéma, on peut faire du “scene blocking” comme disent les américains :

Avis de Caro : Attention, il s'agit de fonctions de type "enhancer" qui régénèrent vos images sources, avec une légère altération possible du visuel d’origine. Par exemple ici, les gouttes de condensation sur la canette en haut ou la posture de la statue en bas.

🔹 Meta 3D AssetGen 2.0 : Génération d’assets 3D
AssetGen 2.0 transforme des textes ou images en modèles 3D complets avec maillage et textures. Par rapport à la version précédente, les objets sont plus nets, cohérents et exploitables directement. Ce modèle jette les bases de la création automatique de scènes entières. Destiné aux studios et créateurs 3D, il reste pour l’instant interne chez Meta.

🔹 Pika & ses Pikapocalypses
Pika continue de sortir un effet par semaine. Les mauvaises langues diront que c’est la durée de vie de leurs trends.
Cette semaine, on penche vers l’absurde avec une approche surréaliste, inspirée du chaos ou du dystopique.
Avis de Caro : Outil de narration visuelle plus conceptuel que fonctionnel, il reste intéressant pour expérimenter ou détourner les codes, pas forcément pour des usages classiques mais potentiellement dans la pub comme dans l’exemple de notre précédente édition ici.

🔹 Stable Audio Open Small : Génération audio mobile offline
Stable Audio Small est un modèle texte-vers-audio qui tourne directement sur smartphone, sans connexion. Il génère jusqu’à 11 secondes de loops audio (batterie, bruitages, ambiances...). Le modèle est open source, compact et accessible sur Huggingface.

🔹 Weavy : un nouveau Flora ?
Weavy est une interface de création IA visuelle (image + vidéo), entre ComfyUI et Midjourney. Elle est nodale, mais simple à prendre en main et intègre des modèles populaires (Stable Diffusion, Runway, Veo2...) et quelques fonctionnalités avancées. Encore en bêta fermée.
Avis de Caro : un concurrent direct à Flora dont on vous parlait sur les 2 dernières éditions.

🔹 Rubbrband : AutoStoryboard
Rubbrband génère automatiquement des storyboards à partir d’un script texte. L’outil garantit la cohérence des scènes, des personnages et du découpage. Pratique pour accélérer les phases de prévisualisation, cela ne remplace pas un storyboarder !

🔹 Veo 2 vs Sora : Le Comparatif
Un comparatif dede Jeff Hinz, réalisateur et artiste IA américain, qui nous permet de comparer les 2 outils sur du DaftPunk. Votre préférence ?

🔹 Affogato AI : Vidéos parlantes à partir d’une photo
Passé sous nos radars, Affogato AI propose de transformer une image en vidéo avec un personnage qui parle avec synchronisation labiale et génération des expressions.

🔹 Sketch2Anim – Animation 3D à partir de dessins 2D
Caro a été emballé par ce partage de l’ami Stéphane Parsoire, pour transformer des croquis simples en animations 3D fluides. Basé sur un système d’analyse des poses et mouvements dessinés, l’outil convertit les sketchs en animation avec un modèle de diffusion. Pour l’instant uniquement en Démo. A suivre !

🔹 Omagic AI
Caro a pu tester un nouvel arrivant pour créer du contenu réseaux sociaux, branding, marketing et visuels web... Omagic AI permet de transformer des images ou du texte en vidéos 3D animées, sans compétences techniques. L'utilisateur choisit un modèle parmi une trentaine, téléverse son contenu (texte, video, asset 3D) et demande la génération d’une animation avec effets visuels.
• Avantages : rapide, simple, adapté aux réseaux sociaux.
• Limites : personnalisation limitée, qualité variable selon les cas, tous les modèles ne sont pas disponibles sans prendre un abonnement payant.
• Temps de latence un peu long, comme pour l’exemple ci-dessous : 4min.
• Bêta dispo sur le site.

🔹 Loveart AI : automatisation de la création graphique
Autre nouvel arrivant repéré sur les rendus graphique, l’agent Design Lovart AI transforme une simple idée en identité visuelle complète : logos, couleurs, typos et maquettes. Il analyse un brief, propose un style, génère les visuels, puis permet de les éditer. L’outil fonctionne en langage naturel, sans besoin de savoir utiliser Photoshop ou Figma.
• Avantages : rapidité, qualité des supports en sortie
• Limites : contrôle créatif parfois limité, accès sur liste d’attente avec un certain délai d’attente.

🔹 Fenestra – Visualisation 3D pour architectes
Fenestra transforme croquis, moodboards ou maquettes 3D en rendus visuels réalistes. Conçu pour l’architecture, l’intérieur et le design, il accélère la création d’images de présentation sans passer par des rendus manuels. Une alternative rapide pour les concours, clients ou mood exploratoires.

🔹Wondercraft : créer de l’audio pro à partir de texte
Wondercraft génère des contenus audio (podcasts, pubs, livres audio) à partir d’un simple script écrit. Il propose des voix réalistes (ou clonées), ajoute musique et effets, et gère plusieurs langues. Publie directement sur Spotify ou Apple Podcasts. Attention les options sont limitées en version gratuite.
On vous partage ici le travail de Juha Pönkänen qui le combine avec Higgsfield et Midjourney.

🔹 Geometry-Aware Diffusion – Remplissage intelligent de scènes
Une nouvelle méthode permet de supprimer ou remplir des zones spécifiques dans une scène à partir de plusieurs vues, sans modèle 3D. Elle utilise un système de diffusion qui comprend la forme et l’apparence des objets pour reconstituer des scènes en photo ou vidéo, sans setup complexe. Une sorte de Photoshop intelligent pour plusieurs angles. Page Github avec + d’infos ici en attendant le code.

Avis de Caro : On voit sur la démo le “fantôme du nuage de diffusion” de l’objet supprimé, cela reste malgré tout une fonctionnalité open source à suivre de près selon moi.

🔹 Choisis bien ton rêve
Cette semaine j'ai le plaisir de vous présenter mon dernier court métrage réalisé dans le cadre de la session “Money Money” du Prompt Club. Au final, c'est environ 40 heures de travail, un brainstorming partagé avec ChatGPT et Google Gemini, un peu plus de 12000 images générées avec MidJourney V7 et animées avec Kling 2.0. J'ai également utilisé Google Veo2 pour tous les plans de flashback, Luma pour les plans les plus dynamiques et Higgsfield pour deux plans à effet Special.
La voix du personnage est la mienne que j'ai modifiée avec Eleven Labs.
Quant à la musique et au sound design, j'ai eu le privilège de pouvoir travailler avec Christophe Ménassier, musicien et ingénieur du son de talent. J'ai découvert le travail à travers ses collaborations inspirées avec mon talentueux camarade, Stéphan Muntaner.

Mais la vraie pépite de la semaine, c’est le court métrage de mon camarade et membre du Prompt Club Stéphane Galienni qui, avec beaucoup d’inspiration et de talent, invoque Claude Monet, le monde des gros sous et l’animation japonaise, à travers la touchante quête personnelle d’un personnage qui rend hommage à son père. Extraordinaire à tous points de vue, et je pèse mes mots :

Cette édition est terminée, merci de l’avoir lue jusqu’ici ! Si elle vous a plu, vous pouvez la partager en cliquant juste ici :

Partagez Generative

Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.

Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇

Generative

Le (faux) calme avant la tempête ?

Avis de Caro : Attention, il s'agit de fonctions de type "enhancer" qui régénèrent vos images sources, avec une légère altération possible du visuel d’origine. Par exemple ici, les gouttes de condensation sur la canette en haut ou la posture de la statue en bas.

Avis de Caro : On voit sur la démo le “fantôme du nuage de diffusion” de l’objet supprimé, cela reste malgré tout une fonctionnalité open source à suivre de près selon moi.

Discussion à propos de ce post