Salut les machines en surchauffe, le mois de mai est là, l’été aussi, j’ai eu plus chaud à Paris qu’à Marseille cette semaine, mais que fait la police de la météo ?
L’IA générative quant à elle, ne fait pas de pont et continue à avancer sur sa cadence habituelle : INFERNALE.
Avec Caro, on vous a fait le tri, on vous dit tout, c’est tout de suite maintenant let’s go !
Let’s go !
P.S. Chaque semaine, j’oublie de vous dire que GENERATIVE se décline aussi en résumés vidéos, et possède désormais sa propre chaine YouTube !
🔹Runway Gen-4 References : cohérence visuelle à partir d’images
Runway lance “Gen-4 References”, une nouvelle fonction pour générer des personnages ou lieux cohérents en important jusqu’à 3 images de référence. L’outil permet de modifier poses, habits, lumière, tout en gardant la même identité visuelle et offre donc plus de contrôle et de cohérence. Pas d’upscaler intégré pour le moment et une fonction réservée aux creative partners et aux utilisateurs de Gen:48 le week-end dernier. La démo envoie du lourd, regardez :
Dans la pratique, j’ai trouvé le fonctionnement un peu aléatoire. Tantôt ça marche super bien, tantôt la cohérence n‘est pas parfaitement respectée.
🔹 Midjourney s’update !
Midjourney s’enrichit de nouvelles fonctionnalités avec
1. Omni-Reference (--ow).
Ce paramètre permet d’intégrer Créez des personnage, des objets, des véhicules, etc… dans une image préexistante. J’ai testé, ça a l’air de fonctionner pas mal du tout.
Workflow : Faites glisser une image de référence et ajoutez un prompt.
Ici : "A man with a baby T-Rex”

Omni-Reference fonctionne avec la personnalisation, la stylisation, les références de style et les moodboards.
2. Mise à jour du modèle d’image V7
La qualité de l’image, la précision de l’immédiateté, la précision de la main et la cohérence du corps devraient être légèrement améliorées.
Cela s’applique à toutes les images faites avec --v 7.
3. Nouveau paramètre --exp
Il s’agit d’un nouveau paramètre expérimental de l’esthétique de l’image.
Similaire à --stylize (et vous pouvez le combiner avec stylize), il est censé rendre les images plus détaillées, peut-être plus dynamiques, créatives et plus « tone mapped »
N.B. • Des valeurs plus élevées réduisent la précision des invites et augmentent la variabilité de l’image
• Au-dessus de 50, il a tendance à dominer les autres paramètres.
Un exemple en images réalisé par Ross Symons.
🔹 Ideogram 3.0 se met à jour
Ideogram a lancé hier une mise à jour majeure d’Ideogram 3.0 : un réalisme amélioré, des styles plus polyvalents, un meilleur suivi des prompts et une plus grande diversité.
Vous pouvez désormais utiliser Magic Fill and Extend with 3.0 dans Ideogram Canvas pour modifier les images téléchargées et générées.
De plus, Ideogram 3.0 est disponible via API à developer.ideogram.ai et sur les plateformes partenaires : Picsart, Freepik, Gamma, Replicate, fal, krea.ai, FLORA.
🔹 Higgsfield START & END FRAME
Higgsfield AI, le générateur de vidéos qui permet d’intégrer des mouvements de caméra réalistes divers et variés lance une fonctionnalité “START & END FRAME”, comme dans Runway, Luma et Kling.
On peut désormais créer des vidéos avec une direction claire et un mouvement ciblé, améliorant ainsi le potentiel narratif de votre contenu.
🔹 Freepik + Fal.ai = F-lite
Freepik et Fal.ai lancent F Lite, un modèle de diffusion open source de 10 milliards de paramètres, entraîné sur 80 millions d’images sous licence. Deux versions sont proposées : l’une plus stable et fidèle aux prompts, l’autre plus texturée et expérimentale. Le modèle s’intègre à ComfyUI et Diffusers, fonctionne avec un GPU de 24 Go minimum, et peut être utilisé commercialement. A tester sur fal.ai avec une démo sur Hugging Face.
Nos premiers tests sont assez… décevants.
🔹 Krea x Topaz Labs
Krea Ai vient enrichir sa suite côté Enhancer avec l’intégration de Topaz Labs, qui améliore les textures et la netteté, avec une résolution allant jusqu’à 22K.
🔹 Krea 3D & Chat GPT
L’arrivée de l’API GPT-4o la semaine passée permet de créer directement les scènes 3D avec un bon maintien de la cohérence des personnages et de l’environnement.
Krea lance également GPT Paint qui permet de composer une image à partir de plusieurs éléments et des instructions annotées directement sur l’interface. A tester sur Krea AI.
🔹NotebookLM : synthèses audio naturelles en 50 langues
NotebookLM transforme désormais vos documents en dialogues audio réalistes dans plus de 50 langues, là où seul l’anglais était possible avant. Les voix sont naturelles, le ton et le style sont personnalisables et l’outil gère des conversations à deux voix crédibles.
Et en +, c’est gratuit. En test ici sur notre précédente édition dédiée à Adobe :
🔹Lyria 2 de Google Deepmind
Lyria 2 est le modèle musical de Google Deepmind qui génère du son, comprend le style, intéragit et co-crée. Avec de l’audio de qualité studio à 48 kHz, un contrôle possible du tempo, de la tonalité, de l’ambiance et un composition en temps réel avec Lyria RealTime. Un filigrane via SynthID permet également plus de transparence. Google évoque l’IA comme un nouvel instrument de musique.
🔹FLORA la suite
FLORA, l’outil créatif en ligne dont on vous parlait la semaine passée, permet de transformer facilement des images en vidéos animées, grâce à une interface visuelle très simple. On glisse des blocs (texte, image, vidéo) sur une grande toile, puis on peut animer l’ensemble avec un modèle IA comme Luma Ray 2 (leur API est dispo depuis cette semaine).
Pour ceux qui veulent plus de contrôle, on peut écrire des instructions en JSON (JavaScript Object Notation)— un format de texte qui classe des infos sous forme de "clé : valeur", comme une fiche de consignes. Mais même sans coder, FLORA reste accessible : il suffit de suivre des exemples ou copier des modèles déjà prêts. Preuve en image ici avec la démo de Audric Gagnon.
🔹Kling AI : effet Polaroid 3D animé en un clic
Kling AI propose une nouvelle fonction qui transforme vos photos en animations 3D au style Polaroid rétro avec un effet ludo-cinématographique. Un pas vers les Pikaffects ?
Caro a testé, ça marche plutôt pas mal !
🔹Le Pika effect de la semaine
Comme chaque semaine, Pika nous sort un nouvel effet destiné à lancer des trends virales sur les réseaux sociaux. Si j’avais des cheveux, j’aurais peut être trouvé ça cool.
🔹 Freepik Mystic Fluid
Freepik propose à présent Mystic Fluid, un générateur d’images excellent, tant au niveau de l’adhérence aux prompts que de la définition.
🔹ChatGPT Image : comment garder un personnage cohérent
Sur ChatGPT, générer plusieurs fois une image d’un même personnage peut aboutir à des visages totalement différents. C’est un biais courant : l’IA reconstruit une image de manière probabiliste à chaque requête, sans pouvoir la "recopier" avec exactitude.
Une astuce pour limiter les dérives : utiliser un gros plan, nommer le personnage, réinjecter l’image en cas de doute, ou tester des outils comme Sora Remix. La cohérence parfaite n’existe pas mais on peut s’en approcher comme le démontre ici Tianyu Xu.
🔹 Heygen sounds better with “voice mirroring”
Grâce à la nouvelle fonctionnalité “voice mirroring”, votre avatar Heygen peut maintenant parler exactement comme vous en enregistrant simplement la façon dont vous le voulez et avec le ton qui va bien. On vous partage la petite video explicative de Heygen sur la technique appliquée.
🔹Hummingbird-0 : un nouvel outil de lipsync IA
Tavus lance Hummingbird-0, un modèle qui synchronise voix et vidéo sans réglage : il suffit d’un MP3 et d’un MP4. Comme souvent, la démo est convaincante :
Mais…
🔹 Pixverse App
L’application PixVerse permet la création vidéo avec sa version 2.0, jusqu’ici rien d’extraordinaire. Par contre, elle propose de créer des transitions fluides entre deux photos, réaliser du transfert de style, utiliser l’effet “Danse” comme sur cette démo :
Dreamina lip-sync
Les générations avec Dreamina Seedream 3.0 fonctionnent plutôt pas mal avec la fonction de synchronisation labiale de la suite. Ici un bon exemple de Armina Valunas.
🔹 Upgrade Suno
Suno lance sa version 4.5, et annonce des des mélanges de genres plus réussis et davantage de contrôle.
🔹 Hunyuan2.5 3D
On vous en parlait dans une édition précédente, voici une génération d’un modèle 3D à partir d’une image dans l’outil Hunyuan2.5 : la qualité du rendu est très bonne.
Transfert Video-to-Video
James Gerde connu pour ses transferts de danseurs et bols de nouilles, nous propose un petit état des lieux des possibilités à aujourd’hui sur du video-to-video. Avec Flux, Wan et Sora d’OpenAI, il transforme des vidéos brutes en scènes cinématographiques sans 3D ni effets spéciaux manuels mais avec des styles réalistes et des mouvements de caméra dynamiques.
🔹 “A Wonderful Dream”
Mike Vogel nous propose de suivre un jour dans la vie d’une mamie polonaise.
Il a généré les vidéos dans Google Whisk avec Veo 2. Pour l’audio, il a utilisé sa propre voix, l’a doublée en polonais avec l’IA et a changé la voix avec Eleven Labs.
La 2e pépite est Film de Stéphane Benini, du Prompt Club : Un soldat traverse un monde en ruines, hanté par un enfant qui incarne son innocence perdue. Le film questionne la déshumanisation des conflits et le prix de nos croyances dans une société où même la vie devient marchandise. Un récit visuel entre obéissance, vide intérieur et espoir fragile. Avec Freepik & Kling au casting ! (Avis de Caro : un bijou !)
Cette édition est terminée, merci de l’avoir lue jusqu’ici ! Si elle vous a plu, vous pouvez la partager en cliquant juste ici :
Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.
Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇
Merci pour ces news Gilles et Caro
Il y'a beaucoup de choses à tester
Je ne sais pas comment je vais faire pour tout tester :-D
De la bombe !