Midjourney v7, Runway Gen-4 et 2-3 autres trucs dont on voulait vous parler...

avr. 05, 2025

Salut les surchargés cognitifs, j’ai une mauvaise nouvelle nouvelle pour vous cette semaine : la surcharge va s’alourdir.

Après une semaine précédente extraordinaire, nous avons vécu une nouvelle semaine incroyable.

🔸 Midjourney v7 est sorti en version Alpha !!

🔸 Runway a (enfin) sorti Gen-4 !

Le reste de l’actu n’est pas en reste, ça déborde, ça dépasse, ça donne le tournis comme rarement.

On vous auras prévenus.

Attachez vos ceintures, c’est parti !

🔹Midjourney v7 est là !
La bombe de ce vendredi, c’est la sortie de Midjourney v7 ALPHA !

Il s’agit d’un modèle entièrement nouveau avec des points forts uniques et probablement quelques faiblesses.

▪️ La V7 est le premier modèle dont la personnalisation est activée par défaut.
La fonctionnalité phare est le « Draft Mode ». Ce mode coûte deux fois moins cher et génère les images 10(!) fois plus vite.
▪️ Attendez-vous à de nouvelles fonctionnalités toutes les semaines ou toutes les deux semaines, pendant les 60 prochains jours.
▪️La plus grande fonctionnalité à venir sera une nouvelle référence de personnage et d’objet V7.

Il vous faudra faire un ranking de 200 images minimum pour créer un “personalization profile” et l'activer.

WARNING : cette étape est cruciale, comme dirait chatGPT. Prenez le temps de bien voter pour vos images préférées, ne votez pas à la va-vite.

L’une des features les plus dingues est la commande vocale du “Draft Mode”. L’interaction vocale avec l’IA nous projette directement dans le futur, regardez cette démo de Leo Kadieff. Et quelle vitesse…

Je me garderais bien de porter un jugement sur cette nouvelle version. Je conserve le souvenir d’artistes IA expérimentés, habitués à la v5.2, qui émettaient des avis très négatifs sur la v6 à sa sortie… pour ensuite l’encenser quelques semaines plus tard.

Je ne vous partagerais que mes premières impressions à chaud, susceptibles d’évoluer au fil des prochaines jours.

Vendredi matin, 1h après la sortie
Certains parlent de “réalisme incroyable”, je ne dois pas utiliser la même version qu’eux :

OMG ! Mais quels sont ces rendus so 2023 ???

J’en ai discuté avec Nicolas Geniart, l’un des experts Midjourney les plus affûtés de France, il m’a conseillé de refaire mon image rating pour créer un nouveau personalization profile (ça devient technique, pardon), je l’ai fait, ça a un peu amélioré les choses mais c’était pas encore ça.
Bref, “Test and see” comme on dit chez nous !

Retour en force des “plastic skins” ? - v7

Nous sommes dans un “Effet Sora”. Une très longue attente (la v6 est sortie en novembre 2023) suivie d’une grosse déception à la sortie. Mais comme pour Sora, j’ai le sentiment qu’il ne faut pas juger trop vite et persévérer.

La vérité appartient à l’avenir.

UPDATE Vendredi soir !
Sans prévenir, les nuages se sont écartés, le soleil est entré et s'est posé sur mes générations Midjourney v7. Regardez moi ça, c'est complètement dingue.

A gauche, la génération du matin. A droite, la génération du soir. Même prompt à chaque fois : “Photorealistic portrait focused on the subject, an Australian man with textured, detailed, weathered skin”

Le niveau de détails sur les peaux est assez sidérant. J’ai le sentiment net que le résultat est supérieur aux générations Mystic 2.5 Super Real, Flux 1.1 Pro RAW, REVE et Ideogram 3.0.

Tout ça fleure bon les tests comparatifs…

En revanche, la gestion du texte et des doigts est très inférieure à celle de la v6.1

On vous laisse décanter avec cet excellent article de Geniart qui vous permettra de comprendre la v7 un peu plus en profondeur.

🔹Runway Gen-4 is here !
C’est officiel, Runway a sorti la 4e génération de son modèle de génération de vidéo. Sorti en juin 2024, Gen-3 commençait à accuser le poids du temps (9 mois dans la vie d’un modèle d’IA c’est au moins 15 ans dans la vie d’un humain) face à des concurrents toujours plus performants.

🔹 Points forts

Qualité de rendu supérieure : netteté, détails et fluidité
Fidélité à l'image source : respect des couleurs et du style
Meilleure adhérence aux prompts
Analyse d'image performante même sans prompt
Compatibilité avec multiples formats (16:9, 9:16, 1:1, 4:3, 3:4, 21:9) mais abandon du 16:10 de Gen-3

⚠️ Points à améliorer

Animations parfois statiques durant les 10 secondes
Rythme généralement lent (sauf avec prompts dynamiques)
Temps de génération élevé (1m50 pour 5s, 3m20 pour 10s) - Gen-3 Turbo reste 6x plus rapide
Absence de fonction "Extend" pour les vidéos
Pas de text2vid, mais Frame permet la génération d'images
Aucune nouveauté pour lypsync ou act-one

Mes premiers tests sont assez concluants, Gen-4 montre une excellente “compréhension” du monde physique et une cohérence spatiale digne des meilleurs du marché :

Ce qui m’a complètement scotché, c’est le passage à 4’20’’ dans la vidéo ci-dessous.
En premier lieu, le degré de “réalisme cinématographique” est extrêmement poussé. On chasse très clairement sur les terres de Google Veo 2.

Ensuite, et c’est le plus important, à partir de 5’35’’ je suis devenu dingue lorsque Cristobal explique qu’il sera possible de compositer les plans élément par élément.
Je ne sais pas si vous réalisez à quel point ce type de feature est un game changer total pour la création video IA.
C’est un premier pas vers un niveau de contrôle extraordinaire au sein de chaque plan généré.

C’est aussi révolutionnaire que l’interaction textuelle désinvolte (“vazy, change moi la couleur du t-shirt steuplé”") dans la génération d’images par ChatGPT 4-o.

🔹 Formez vous à l’IA avec moi !
J’aurai le plaisir d’animer 2 journées de formations image + vidéo IA les 24 et 25 avril prochains, à Paris.
Pour vous inscrire c’est ICI

Marseillais, Sudistes, gens du soleil, j’ai pensé à vous (et à moi)
Vous pouvez vous inscrire ICI

Au programme, les bases de l’IA générative pour créer des images, des vidéos et des sons, les meilleurs outils du marché, y compris les plus récents (oui, nous parlerons de Midjourney v7, Gen-4, GPT 4-o, voire de Sora 2 et Veo 3 s’ils sortent d’ici là), et des workshops pour mettre toutes vos connaissances en pratique !

🔹Luma Ray 2 Camera Motion
Luma AI introduit les "Camera Motion" dans Dream Machine. 20+ mouvements prédéfinis (travellings, rotations, zooms...) peuvent être combinés pour enrichir les vidéos générées.

Concrètement, ça se présente comme le Director mode de Hailuo AI Minimax, c’est assez intuitif.

🔹Higgsfield AI
Higgsfield AI, dont on vous parlait dans la 100e de Generative, intègre des mouvements de caméra prédéfinis à partir d’une image d’entrée, comme par exemple le "bullet time", les “dolly zooms” ou encore les “Bolt cams” (cam sur bras robotisé).

Dans les faits, ça fonctionne plutôt pas mal avec une bonne cohérence à la génération. Avec parfois quelques surprises assez amusantes…

🔹Hedra is back !
Hedra relance Freedra, offrant 400 crédits mensuels gratuits, l’équivalent d’une minute de vidéo IA de haute qualité. Cette offre sans engagement permet d'explorer les capacités de Character-3.
Pour des besoins accrus, des options payantes proposent jusqu'à 5 minutes de génération, un accès prioritaire (indispensable sinon ça mouline pendant des heures) et l'utilisation complète des modèles IA avancés pour un contenu professionnel.

🔹Magnific AI Structure + Ref
Magnific AI propose une nouvelle fonctionnalité qui combine structure et référence de style pour la génération d'images. Les utilisateurs peuvent ajuster précisément ces paramètres grâce à des curseurs dédiés, offrant un meilleur contrôle sur le rendu final. Cette mise à jour est également disponible via l'API.

🔹Krea Ship Week : intégration de Gemini
Krea ai intègre Gemini Image Editing, pour l’édition d’images par langage naturel dans son interface Chat. L’utilisateur écrit ce qu’il souhaite changer et l’image est modifiée en conséquence. Une approche directe et sans les outils graphiques habituels.

Note de Caro : C’est un peu comme chaque semaine au QG de GENERATIVE, pas trop de surprise ! Même problème de perte de qualité qu’avec Google AI Studio. Et comme en natif (contrairement à 4o), pensez à cliquer sur “Edit” après votre génération pour conserver les modifs, sinon c’est retour à l’image d’origine, comme ici avec la couleur du sweat.

🔹Krea video restyle
Krea ai a décidé de passer à la contre attaque face à Freepik. Ils sortent des news tous les jours de la semaine, on se croirait dans un calendrier de l’avent avec beaucoup d’avance (ou un peu de retard diront les mauvaises langues). Après l’arrivée de Gemini, on découvre le Video Re-style :

Note de Caro : Krea n’a pas réussi à digérer sa propre génération video avant 10 bonnes minutes malgré le respect des 512 px minimum requis. (A croire que tout le monde n’était pas sur la V7 de Midjourney !) Ensuite, en appliquant un Style Krea prédéfini, on se rend compte qu’au bout de moins d’une seconde la structure reste mais le style disparaît. Dommage.

🔹Pika Multi-Frames
Pika Labs améliore ses Pikaframes : il est possible d’en ajouter désormais jusqu'à 5 images pour créer des vidéos de 25 secondes. Disponible sur pika.art et l'application iOS, cette fonctionnalité peut donner du morphing de qualité. La preuve en images :

Note de Caro : On a challengé le modèle avec de l’illustration. Sympa mais on n’en fera pas des folies. (merci à Stéphane Tranquillin d’avoir lancé ces générations sur sa pause déj !)

🔹Krea : Outils 3D & mode collaboratif Teams & Outil 3D
La mise à jour Krea ai s'accompagne d'une refonte complète de l'interface et de l'introduction d'un nouvel outil 3D. De plus, une réduction de 20 % est offerte sur les abonnements annuels, avec 5 formations vidéo gratuites pour tous les utilisateurs payants cette semaine !

Note de Caro : On a testé pour GENERATIVE. C’est un bon début avec une génération rapide. Par contre, une perte du texte et de la qualité sur le rendu final.

Les Team Plans sont également lancés pour permettre aux équipes de collaborer et de partager des ressources de calcul pour la génération d'images et de vidéos.

🔹Sezam V2
La plateforme française Sezam refait son interface et sort un nouveau modèle : NOVA-3. Il vient compléter les 37 (!) modèles disponibles. Pour tester les nouvelles fonctionnalités, utilisez le code "YDSEZAM" lors de l'inscription pour obtenir 50 crédits gratuits.

🔹Freepik Video Editor
Freepik ajoute un éditeur vidéo à sa suite IA. On peut importer ses clips, couper, modifier, ajuster, ajouter du texte, des images ou de la musique depuis Freepik Tunes. Avantage : On peut désormais réaliser son montage vidéo sans quitter la plateforme.

🔹Meta MoCha
Meta dévoile MoCha, un modèle d'IA capable de générer des scènes video à partir de texte et de voix. MoCha crée des animations réalistes synchronisées avec l'audio, incluant expressions faciales et des gestuelles adaptées. Il gère aussi les dialogues entre plusieurs personnages.
Le résultat est assez troublant : il dessine les contours de futures fictions sans interprétation humaine. J’ai tellement d’admiration et de respect pour l’art dramatique que cette news me rend tout chose…. Le code n'est pas encore disponible.

🔹Eleven Labs Doggy Style
Le 1ᵉʳ avril 2025, ElevenLabs a annoncé 'Text to Bark', un modèle d'IA transformant du texte en aboiements réalistes, adaptés à différentes races de chiens. Cette annonce, faite le jour du poisson d'avril, est une bonne plaisanterie. Un bon moyen de souligner l'innovation continue d'ElevenLabs dans le domaine de l'IA vocale.

🔹ComfyUi Copilot
ComfyUI-Copilot facilite la création de workflows IA avec une interface guidée. Il répond aux questions, aide à chercher des nœuds, suggère des modèles et propose des astuces d’utilisation. À venir : un assistant de correction d’erreurs et un ajustement automatique des paramètres pour optimiser les rendus, sans avoir besoin d’expertise technique.C’est par ici pour le Github !

🔹 Le Super Agent Genspark
Genspark dévoile Super Agent, une IA polyvalente qui surpasse Manus et OpenAI Deep Research au test GAIA. Elle planifie des voyages, réserve des restaurants via appels vocaux, crée des vidéos et gère des tâches complexes. Son architecture "Mixture-of-Agents" intègre 8 modèles de langage et plus de 80 outils, offrant une assistance complète et efficace.

🔹UDIO Styles
Udio introduit Styles pour générer un morceau à partir d’un extrait audio comme référence. Disponible pour les abonnés Pro uniquement, la fonction s’applique à toutes les options : Créer, Éditer, Extend et Remix.

🔹DOMO AI revient
DomoAI permet désormais de remplacer un acteur dans une scène sans toucher au décor. Les mouvements restent synchronisés, l’ambiance intacte. Le rendu garde le réalisme du tournage original, sans reshoot. Une avancée pour adapter, localiser ou tester des idées en post-prod.

🔹 Polycam
Polycam génère un modèle 3D en moins d’une minute à partir d’une seule photo. Aucun réglage complexe : on importe une image, l’outil fait le reste. Résultats variables selon l’image, mais très rapide. Tripo dont nous parlions ici offre souvent de meilleurs résultats. A suivre avec cette tendance clairement 2025.

🔹 AccVideo
AccVideo est un outil open source qui génère des vidéos 8,5 fois + vite que Hunyuan Video, avec une résolution 720×1280 à 24 fps. Il s’entraîne sur un dataset synthétique de débruitage et combine ensuite 2 méthodes : une rapide pour guider la création, l’autre pour rendre les vidéos plus réalistes. Résultat : un modèle + léger, des rendus nets, réalistes, en un temps réduit. Et pourquoi pas vers de la génération vidéo en temps réel. + d’info par ici : Github AccVideo.

La pépite de la semaine est ce film de SF sur la conquête spatiale.
Réalisé par une seule personne sur une durée de 2 mois et demi : Aze Alter.
Il dit : « Age of Beyond n’est qu’un concept avec lequel je joue depuis un moment. Lorsque la technologie de l’IA sera meilleure, j’adorerais la revisiter en faisant une visite approfondie de chaque lieu.

Ce film est mon ode à l’espace et mon amour pour la science-fiction. Je suis vraiment optimiste quant à notre avenir. Ce sont mes vrais sentiments sur l’humanité/l’IA. Si nous travaillons ensemble, nous pouvons réaliser des choses incroyables.»

David Blagojevic teste ici les limites actuelle de l’IA pour cette fausse pub KFC Storyboard à la main, il mixe 3D, VFX et son généré avec Suno. Objectif : imiter le style KFC avec des outils comme Sora, Pika, Veo2, Luma ou Runway.
Résultat : une fausse pub bluffante, 100 % artificielle, 0 % vrai poulet (Qui a dit “Comme chez KFC ?”)

Cette édition est terminée, merci de l’avoir lue jusqu’ici ! Si elle vous a plu, vous pouvez la partager en cliquant juste ici :

Partagez Generative

Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.

Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇

Generative

Midjourney v7, Runway Gen-4 et 2-3 autres trucs dont on voulait vous parler...

Note de Caro : On a challengé le modèle avec de l’illustration. Sympa mais on n’en fera pas des folies. (merci à Stéphane Tranquillin d’avoir lancé ces générations sur sa pause déj !)

Note de Caro : On a testé pour GENERATIVE. C’est un bon début avec une génération rapide. Par contre, une perte du texte et de la qualité sur le rendu final.

Discussion à propos de ce post