La très très grosse rentrée

août 30, 2024

Bonjour à toutes et tous, et bienvenue dans cette 73e édition de GENERATIVE, la newsletter spécialiste des outils créatifs d’intelligence générative.

La grosse nouveauté de la rentrée : j’ai le plaisir d’accueillir un membre dans la rédaction ! Antoine est désormais à mes côtés sur le front des news incessantes de l’Ia générative, je suis ravi de cette nouvelle collaboration !

Si vous êtes partis en vacances cet été en coupant vos feeds d’actu IA, préparez vous au choc : en 2 mois, il s’est passé à peu près autant de choses qu’entre le précambrien et la révolution industrielle.

TLDR : Kling dispo en Europe, Gen-3 et Luma ont sorti un nouveau modèle, des concurrents sérieux à Midjourney émergent.

Sans plus attendre, voici le sommaire :
Les (très nombreuses) news de la semaine
Le grand chamboulement des générateurs d’images : Midjourney est il en danger ?
La pépite de la semaine

Kling débarque en Occident

C’est probablement l’une des plus grosses news de l’été : après des semaines à nous faire baver devant des vidéos chinoises, Kling est officiellement disponible dans le reste du monde.
Pour mémoire, kling est un générateur de vidéo très performant par rapport aux standard actuels. Initialement disponible sur mobile app uniquement, Kling s’offre une interface web pour l’occasion. Il est possible de générer des vidéos jusqu’à 10 secondes, insérer des images clés (début et fin), contrôle de la caméra sur text2image (à la Runway Gen-2). Il est possible de tester gratuitement l’outil avec 66 crédits offerts chaque jour (une vidéo basse def consomme 10 crédits).
Ça se passe ici

Victoire pour les artistes dans l'affaire de droit d'auteur contre l'IA

Un juge fédéral américain a autorisé la poursuite d'un procès intenté par des artistes contre Midjourney et Stability AI, accusés d'avoir utilisé leurs œuvres sans autorisation pour entraîner des modèles d'IA. Cette décision ouvre la voie à une phase de découverte cruciale, où les artistes pourront demander des preuves aux entreprises. Bien que certaines plaintes aient été rejetées, les principales accusations de violation du droit d'auteur restent valides. Cette affaire pourrait créer un précédent important pour l'industrie de l'IA, en obligeant les entreprises à revoir leurs pratiques en matière de collecte et d'utilisation de données.

Midjourney disponible sur le web ( et pour tous )

Pour ceux qui ne sont pas adeptes du réseau Discord , Midjourney ouvre désormais son éditeur web pour tous. Vous pouvez désormais prompter vos images depuis le site Midjourney.com
Auparavant disponible pour certains utilisateurs, la fonctionnalité est désormais accessible à tous, à la seule condition d’avoir déjà généré 10 images. Vous pouvez tester le fameux text-to-image avec 25 générations d'images gratuites

Mid Journey a également ajouté quelques features très intéressantes, a découvrir en vidéo :

Cocorico AI

Mistral semble avoir décomplexé l'écosystème IA français . En attendant peut-être l'émergence d'une french touch AI, c'est Finegrain qui semble nous sortir un banger avec un nouveau "text to erase" . Alors oui il y a déjà de la concurrence sur ce type de tool mais appréciez un peu la qualité du rendu. Un vrai tour de magie.

Dream Bigger

Et revoilà la Dream Machine de Luma AI qui avait agité l'écosystème génératif aux prémices de l'été . La nouvelle release s'appelle 1.5
C'est le même produit mais en un peu ( X1,5?) mieux : meilleure qualité d'image , meilleure compréhension des prompts et amélioration du image-to-video

Et comme une vidéo vaut mieux que 1000 mots , on découvre tout ça avec le clip promo de Luna :

MacDonAld's

Ça y est, on rentre vraiment dans le concret du film publicitaire IA. Après les artistes qui sortent des vidéos IA de fakes pubs , les marques qui sortent des tests de pubs IA, c'est maintenant Mac Do Japon qui lance une vraie pub diffusée a travers le pays .

Réalisée par l'artiste KakuDrop armé de sa Dream Machine by Luma

Runway met le Turbo

Runway a lancé son nouveau modèle Gen-3 Alpha Turbo , et il change la donne en termes de vitesse de génération.
Annoncé comme beaucoup plus rapide , avec cependant un compromis sur la qualité, les premiers tests de la communauté le confirment : le gain serait très significatif en étant 6 fois plus rapide (environ 15 secondes de génération vs 90 secondes pour une vidéo de 10 secondes). Un exemple en images avec ces tests de Gabe Michael :

Hedra AI lance Character-1.5 et Stylize

Hedra AI est un outil pour créer des personnages animés qui parlent ou chantent à partir de texte et d'images

Cette nouvelle mise à jour introduit la stylisation, qui permet de vous transformer en un personnage tout en conservant votre identité. Character-1.5 apporte une sortie visuelle plus nette, des animations plus réalistes avec des clignements d'yeux et des mouvements de tête naturels, ainsi qu'une meilleure gestion des images téléchargées.

Moi j’en pense que cette v1.5 est toujours inférieure à l’”expressive photo avatar “ de Heygen :

Eleven Labs en mode discount

Eleven Labs a fortement réduit ses tarifs . En effet les modèles Turbo v2 et v2.5 sont désormais 50% moins chers. Ces 2 modèles offrent une latence ultra-faible et un son de haute qualité, ce qui les rend idéaux pour l'IA conversationnelle.
Autre nouveauté de l'été , Eleven Labs propose désormais la possibilité de reporter ses crédits inutilisés sur les 2 mois suivants

Peut on encore croire en ce que nous voyons ?

C’est la question que pose de plus clairement l’IA, notamment dans les sphères du face swapping et du deepfake. Les créatifs IA "The Dor Brothers" ont récemment sorti une vidéo rapidement devenue virale. On y voit quelques personnalités US en mauvaise situation.
Certains spéculent déjà sur une perte de vitesse des réseaux sociaux lorsque ce type de contenus sera présent partout, en masse, et viendra polluer tous nos feeds.
Qu’en pensez-vous ?

TOP 50

Andreessen Horowitz a publié son nouveau classement IA gen des 50 applications les plus populaires en IA générative à travers le monde. Lesquelles utilisez-vous ?

Midjourney menacé ?

Flux, Mystic et Ideogram réclament le trône de fer !

Flux : Le nouvel outil qui chamboule la Génération d'Images Open-Source.

Dans un monde où la génération d’images était dominée par Midjourney depuis 2 ans déjà, Flux émerge comme le véritable game-changer que personne n’attendait. Ou presque. Ceux qui suivent l’évolution de ces outils depuis 2022 attendaient beaucoup de Stable Diffusion 3, qui a énormément déçu à sa sortie.

Pour mémoire :

Stable Diffusion 3: Text Master, Prone Problems? — Epic fail de Stable Diffusion 3

Flux : Trois Modèles pour Répondre à Tous les Besoins

Flux propose trois modèles distincts : Pro, Dev et Schnell. Le modèle Pro, le plus performant, offre des résultats impressionnants pour un outil open source, tandis que les modèles Dev et Schnell, bien que légèrement moins performants, restent très bons et entièrement gratuits. Cette diversité permet à chacun, du novice à l'expert, de trouver le modèle adapté à ses besoins et à son budget.

L'Open-Source : Un Atout Majeur

L'une des forces de Flux réside dans son caractère open-source. En permettant à chacun de contribuer à son développement, cette approche collaborative favorise une amélioration continue et rapide du logiciel. Les développeurs du monde entier peuvent ainsi apporter leur pierre à l'édifice, faisant de Flux un projet en constante évolution.
L’autre avantage est que si demain vous avez une idée de SaaS qui implique de la génération d’images, vous pourrez utiliser facilement Flux via son API.

Sélection d’images générées avec les modèles Pro et Schnell.

Comment Utiliser Flux ?

Voici mes options préférées :

- Flux sur Freepik
la plateforme qui a récemment racheté Magnific AI propose un accès gratuit à FLUX dans sa version FAST. En revanche, pour utiliser les versions les plus performantes, un abonnement sera nécessaire.
J’aime beaucoup l’interface claire et intuitive de Freepik.

Autre avantage de Freepik, l’accès au “Realism Lora”, une customisation qui permet de booster le photoréalisme des générations :

A gauche Flux “normal”, à droite “Flux Realism Lora”. regardez les détails au niveau de la texture de la peau.

- Fal : Une plateforme API, où vous vous loggez avec votre compte Github et payez à l'image pour chaque génération, ce qui permet d’éviter l’abonnement avec engagement. Interface un peu spartiate.
https://fal.ai/

- Replicate : similaire à Fal, avec une interface un chouilla plus agréable.
https://replicate.com/black-forest-labs/flux-pro

- Krea.ai : La célèbre plateforme multifonctions intègre Flux avec 3 minutes de temps de GPU gratuit par jour (une dizaine d’images selon nos sources).
https://www.krea.ai/home
L’interface est simple mais claire et efficace :

Last minute : Krea annonce le “Flux Style Mixer” (gratuit) qui permet de mélanger plusieurs styles Flux avec un contrôle total sur l’influence de chacun des styles sur le résultat final. Parfait pour arrêter de dormir.

Les options gratuites

- Fluxpro.art : Permet d’utiliser FLUX de manière 100% gratuite (mais vos générations sont publiques). J’ai testé, ça marche très bien.
https://fluxpro.art/create

- Mage space : Plateforme de génération d’images qui propose un accès gratuit à Flux Schnell (Fast). L’interface est un peu bordélique et propose beaucoup de modèles de génération, dont ka plupart nécessitent un abonnement payant à partir de 8$/mois..
https://www.mage.space/

- Hugging Face : Accès gratuit à FLUX DEV mais interface aride et peu d'options
https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev

- Et pour les plus techniques / geeks / courageux d’entre vous, il reste bien sûr la possibilité d'installer FLUX en local.
Tuto WINDOWS
Tuto MAC
Attention, il est recommandé d’installer sur des machines puissantes avec des cartes graphiques de compète, sinon ça rame très fort.

Verdict : Midjourney Killer ?

Les tweets putaclic et les Youtubeurs en manque de traffic affectionnent tout particulièrement ces narratifs de “Midjourney killer” qui est servi à toutes les sauces dès qu’un modèle décent fait son apparition.

La réalité est souvent plus nuancée.

En l’occurence, Flux 1.0 incarne le Stable Diffusion 3 que tout le monde attendait : un générateur open source très performant et modulaire qui tantôt fait jeu égal avec le King Midjourney :

En revanche, dans le domaine du portrait, le modèle de fondation Flux 1.0 n’égale pourtant pas Midjourney. Encore trop de HDR (High Dynamic Range) et de micro contrastes dans les images pour prétendre au photoréalisme et pour marcher sur les plates bandes de Midjourney.

Dans le domaine du rendu illustratif / BD / Anime, Midjourney semble encore conserver l’avantage :

Au final, Flux représente une alternative sérieuse à Midjourney, pour celles et ceux qui ne souhaitent / ne peuvent pas souscrire un abonnement mensuel.

Mystic : le nouveau bébé de Javi Lopez

Si le nom de Javi Lopez vous est étranger, laissez moi vous éclairer : il s’agit du fondateur de Magnific AI, le fameux outil d’upscaling génératif leader sur son secteur.
Comme le reste du monde, Javi Lopez a été très impressionné par FLUX, au point de le customiser pour en faire un nouveau produit : MYSTIC.

Imaginez une bonne dose de flux, une pincée de Magnific AI et une “secret sauce” maison, et vous obtenez un outil très performant, dont j’ai eu la chance de tester la version alpha (merci Javi !).

Mes premières impressions sont extrêmement positives. On jurerait du Midjourney v6 :

Ce sont les images brutes, non retouchées, générées par Mystic sur Freepik.
En revanche, pas d’accès gratuit ici, Mystic pompe vite les crédits.

Sur Freepik (il consomme 4 fois plus que Flux Realism Lora, 12 fois plus que Flux Pro et 64 fois (!) plus que Flux Schnell).
Les plans Freepik démarrent à 5€ par mois (avec engagement annuel), ce qui représente 350 images/mois.

La qualité est folle. Et je t’ai même pas encore dit que les images sortent déjà upscalées. 2816x1406 pixels vs 1408x704 pour FLUX et 1456x816 pour Midjourney (en 16:9).

Je t’ai dit que j’étais parti en Inde cet été ?

Ideogram passe la seconde

Un peu plus d'un an après son lancement , Ideogram sort sa version 2.0
L'outil de génération d'image qui s'était fait connaître pour sa capacité a intégrer de manière précise des textes au sein des images semble désormais rentrer dans la cour des grands. Le photoréalisme franchit un cap spectaculaire :

Et la qualité de la génération typographique est exceptionnelle , ce qui le rend entre autre particulièrement adapté pour les affiches, les logos ou les publications graphiques.

De plus, les images Ideogram se marient très bien avec la vidéo, comme en atteste cet aperçu à partir de variations du logo a16z, avec un motion Luma Labs + Gen-3, des effets sonores Eleven Labs et Udio Music pour la bande son.

Un accès freemium est possible, avec 10 crédits offerts chaque jour (attention, 2 crédits par image avec le modèle 2.0, ça file vite)

Midjourney face à la concurrence

Alors, comment tous ces modèles se comparent entre eux ? Et avec les modèles existants ? J’ai réalisé un premier test en photo de portrait. J’en ferai d’autres dans des domaines différents.

Prompt : “a natural photo portrait of an old man, skin details, wrinckles, pores, natural lighting, muted color”

Leonardo, Ideogram, Mystic, Midjourney, Flux et Musavir

Que faut il retenir de ce comparatif ?

Le domaine du photoréalisme en portrait, qui a longtemps été la chasse gardée de Midjourney, est en train de se démocratiser à travers différents outils plus accessibles que Midjourney.
Soit par des interfaces plus simples, soit parce qu'ils sont open source (Hello Flux 1.0 !) et donc gratuits.

Midjourney est il has-been ?

La réponse est évidemment non.

MJ reste le king du ratio versatilité/style : il sait tout faire de manière plus esthétique que la concurrence.

A bientôt pour d’autres comparatifs.

Pour finir, la pépite de la semaine : un film d’animation publicitaire générée avec des outils d’IA. Le réalisateur, Simon Meyer, raconte qu’il a rédigé le script à la main avant de le faire réviser par ChatGPT.
Il a d’abord utilisé Ideogram pour créer un personnage de base, puis MidJourney avec le fameux paramètre —cref (référence de personnage) pour créer toutes les images de base.
Il anaimé le tout avec Runway Gen-3 et Luma Dream Machine.
Simon raconte que la chose la plus difficile à faire était de capturer l’émotion. Il souhaitait que Karl (le personnage principal) soit aussi réaliste que possible, alors il a itéré encore et encore avant d’obtenir les bonnes expressions faciales
La voix off a été créée avec ElevenLabs.

Cette édition est terminée, merci de l’avoir lue jusqu’ici !
Nous vous donnons rdv la semaine prochaine pour une nouvelle édition remplie de news et de tests.

Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.

Et n’oubliez pas de vous abonner pour ne rien rater des prochaines

Generative

Discussion à propos de ce post