Y’a pas que Midjourney dans la vie
Chaque semaine je vous bassine avec Midjourney, j’illustre des articles avec Midjourney, je vous partage des prompts Midjourney,… Vous aurez compris que j’adore ce logiciel que j’utilise quasi quotidiennement.
Mais en tant que “généraliste de l’IA générative” (une bonne formule pour ma prochaine carte de visite digitale), je me dois de vous éveiller à d’autres outils de génération d’images.
Joignant le geste à la parole, je vous annonce qu’AUCUNE des images qui illustrent cette édition n’a été conçue avec Midjourney. Toutes les illustrations ont été créees avec d’autres outils génératifs que je vous présente plus en détails dans le dossier de la semaine.
Sommaire
Les news de la semaine
Y’a pas que Midjourney dans la vie : le dossier sur les vraies alternatives à Midjourney
Les news de la demi-semaine
Vers la fin du handicap ?
Gert-Jan Oskam, 40 ans, paralysé à partir de la taille depuis 2011 à la suite d'un accident de moto, a pu remarcher grâce à une procédure chirurgicale facilitée par l'IA.
En 2022, des chercheurs de l'hôpital universitaire de Lausanne ont implanté des dispositifs électroniques dans les zones du cerveau et de la moelle épinière d'Oskam qui contrôlent les mouvements. L'IA a ensuite été utilisée pour créer un "pont numérique" entre son cerveau et sa colonne vertébrale, contournant ses blessures et traduisant ses pensées en actions.
Le système d'IA utilise des algorithmes adaptatifs pour décoder en temps réel les mouvements voulus à partir des enregistrements cérébraux, ce qui permet au patient de se déplacer de manière autonome. Oskam explique qu'il peut désormais penser à bouger et que son corps suit ses pensées. Même lorsque les capteurs sont éteints, il peut encore marcher à l'aide de béquilles.
La technologie en est encore à ses débuts et Oskam est le premier humain à subir cette procédure. Toutefois, les chercheurs ont pour objectif de rendre cette technologie plus largement accessible à d'autres patients à l'avenir.
Microsoft Teams assisté par l’IA
Microsoft a dévoilé mardi son assistant de réunion IA, baptisé "Intelligent Recap". Cet outil, intégré à Teams Premium, est conçu pour générer :
des comptes rendus de réunion
des suggestions de tâches
des points clé personnalisés
des call to action
et des horodatages
Avec des avantages évidents en qualité de concentration pendant la visio (terminé la prise de note pendant que les autres parlent), voire en qualité d’échange pendant la réunion. Cela signifie t-il une augmentation des performances et, in fine, moins de réunion ? Ou cela va t-il encourager les entreprises à favoriser les réunions Teams au détriment des réunions physiques ? Le futur le dira.
En continuant d’intégrer l’IA à l’ensemble de sa suite de produits, Microsoft continue de chercher à se positionner en leader sur sur l’intelligence artificielle générative.
La lutte des classes augmentée par l'IA
Un article récent du New Yorker propose une nouvelle métaphore pour les risques de l'IA, la comparant à McKinsey. Tout comme McKinsey, l'IA offre des solutions pour une variété de problèmes, mais souvent ces solutions favorisent le capital au détriment du travail. Il existe une préoccupation croissante quant au fait que l'IA devienne une autre version de McKinsey, servant d'exécuteur volontaire du capital.
L'article souligne que le principal défi est de construire une IA qui offre des solutions sociales sans pour autant sacrifier la valeur pour les actionnaires. Il pose également la question de savoir s'il est possible pour l'IA de faire autre chose que d'affûter la lame du capitalisme, en notant que l'IA est actuellement déployée pour remplacer l'humain dans certaines tâches, exactement le type de problème que les dirigeants d'entreprise et leurs actionnaires souhaitent résoudre.
L'article conclut en suggérant que si nous ne pouvons pas trouver des moyens pour l'IA de réduire la concentration de la richesse, alors il est difficile d'affirmer que l'IA est une technologie neutre, et encore moins bénéfique. Il remet également en question l'idée que le revenu de base universel est une solution adéquate au chômage causé par l'IA, notant que cette solution a le potentiel de devenir une excuse pour les développeurs d'IA de se décharger de la responsabilité sur le gouvernement.
ChatGPT dans la presse
Dans un monde où l'IA évolue à un rythme effréné, la couverture médiatique de ces avancées technologiques suscite des interrogations. Un récent article de la Columbia Journalism Review met en lumière la manière dont les médias ont couvert ChatGPT.
L'article souligne que la couverture médiatique a souvent été alarmiste, oscillant entre des visions apocalyptiques et utopiques de l'IA. Les journalistes de la Columbia Journalism Review critiquent le manque de contexte et de nuances dans la couverture médiatique, qui tend à se concentrer sur les déclarations sensationnelles des entreprises technologiques et appellent à une couverture plus équilibrée et informée, et finalement plus responsable de l'IA.
EarlyGPT
Une récente menée par le réputé Pew Research Center, sur la façon dont les adultes américains interagissent avec ChatGPT, met en lumière des informations étonnantes.
Malgré le fait qu'une majorité d'adultes américains connait l'existence de ChatGPT, le chatbot d'OpenAI n'a pas encore infiltré le quotidien de ces personnes. Les données exposent qu'une maigre portion de 14% a réellement franchi le pas pour interagir avec le chatbot.
En creusant davantage dans les habitudes de cette minorité, l'étude dévoile un panorama surprenant des usages :
Un solide 19% utilise ChatGPT à des fins récréatives, 14% l'emploient dans un objectif d'apprentissage, et un plus modeste 12% intègrent le chatbot à leur routine professionnelle.
Si vous utilisez déjà ChatGPT, vous êtes "early", comme disent les gens de la crypto.
chatPNJ
Les PNJ (Personnages Non Joueurs) qui débitent quelques lignes aléatoires d'un script pré-écrit lorsqu'un gamer interagit avec eux, c’est bientôt terminé. L'Avatar Cloud Engine de Nvidia, ou ACE en abrégé, va dépoussiérer tout ça.
"L'IA générative a le potentiel de révolutionner l'interactivité que les joueurs peuvent avoir avec les personnages des jeux et d'augmenter considérablement l'immersion dans les jeux", a déclaré John Spitzer, vice-président des technologies de développement et de performance chez Nvidia.
Cette technologie offre un aperçu de l'avenir des jeux. Kairos, Une démo développée sous Unreal Engine 5, présente un magasin de ramen cyberpunk et son propriétaire, Jin :
La conversation semble très standard à priori. En réalité, les modèles d'IA du jeu sont entraînés sur de vastes ensembles de données de conversations humaines et peuvent générer des réponses adaptées au contexte et cohérentes avec la backstory du personnage.
Le dialogue non scénarisé peut s'adapter aux choix et aux actions du joueur et les réponses générées par l'IA peuvent également être plus variées et plus intéressantes que les dialogues préprogrammés, ce qui rend le jeu plus agréable. En outre, les modèles d'animation générés par l'IA peuvent créer des mouvements de personnages plus réalistes et plus expressifs, améliorant ainsi l'expérience visuelle globale du jeu.
La pub encore et toujours disruptée par l'IA
WPP, le plus grand réseau d'agences de publicité au monde (107 000 personnes dans 3 000 bureaux à travers 112 pays), s'est associée à Nvidia avec l'objectif de créer des publicités utilisant l'intelligence artificielle générative.
La plateforme permettra aux équipes créatives de WPP d'intégrer du contenu provenant d'Adobe et de Getty Images avec l'IA générative pour produire des campagnes publicitaires à grande échelle. Cela permettra d'augmenter les volumes de création de contenus publicitaires, et de les adapter plus facilement aux marchés ciblés. Par exemple, l'IA pourrait placer la même voiture dans une rue de Londres ou à Rio de Janeiro pour cibler le marché brésilien, le tout sans avoir besoin de dépêcher une production sur place.
WPP a déclaré que sa nouvelle plateforme "surpasse les méthodes actuelles" qui consistent à demander à des personnes de "créer manuellement des centaines de milliers d'éléments de contenu en utilisant des données disparates provenant d'outils et de systèmes déconnectés les uns des autres". En d'autres termes, la nouvelle technologie pourrait permettre à des équipes de création beaucoup plus petites de réaliser la même quantité de travail.
"Il est beaucoup plus facile d'identifier les emplois que l'IA va perturber que d'identifier les emplois que l'IA va créer", a déclaré Mark Read,le CEO de WPP, au Financial Times lundi. "Nous avons beaucoup appliqué l'IA à nos activités médiatiques, mais très peu aux aspects créatifs de nos activités."
Ceci n’est pas un conseil en investissement
Selon un nouveau rapport de Bloomberg, l'essor des outils d'intelligence artificielle axés sur le consommateur, tels que ChatGPT et Google's Bard, devrait alimenter une croissance décennale du marché de l'IA générative, passant de 40 milliards de dollars l'année dernière à une estimation de 1,3 trillion de dollars de revenus d'ici 2032.
Le secteur pourrait s'étendre à un taux de 42% sur dix ans, stimulé d'abord par la demande d'infrastructure nécessaire pour former les systèmes d'IA, puis par les appareils qui utilisent les modèles d'IA, la publicité et d'autres services. Cette expansion est prévue pour être dirigée par la demande en infrastructure nécessaire pour former les systèmes d'IA, suivie par les appareils qui utilisent les modèles d'IA, la publicité et d'autres services.
Un peu de tech
La manière dont les machines traitent le langage est en train de changer grâce à une nouvelle approche appelée appelée "Tree of Thoughts" ou "Arbre de Pensées".
Dans le passé, l'intelligence artificielle prenait des décisions une par une, mais cela limitait sa capacité à résoudre des problèmes complexes. Avec l'"Arbre de Pensées", l'IA peut effectuer une prise de décision délibérée en considérant plusieurs chemins de raisonnement différents et en évaluant soi-même les choix pour décider du prochain cours d'action, ainsi que d'anticiper ou de revenir en arrière si nécessaire pour faire des choix globaux.
Cette méthode a été testée sur des tâches nécessitant une planification et une réflexion sérieuse, comme les jeux de logique, l'écriture créative et les mots croisés. Les résultats sont impressionnants : dans un jeu de logique appelé "Jeu de 24", l'IA (en l'occurrence GPT-4) est passée d'un taux de réussite de 4% à 74% grâce à cette nouvelle technique. C'est une avancée majeure qui pourrait rendre les machines plus efficaces dans de nombreux domaines.
TradingGPT
En février 2023, JPMorgan Chase a restreint l'utilisation de ChatGPT par son personnel. Plus tard, il a été révélé que JPMorgan développait un service logiciel similaire à ChatGPT qui utilise l'intelligence artificielle pour sélectionner des investissements pour les clients.
JPMorgan a déposé une demande de marque pour un chatbot financier appelé IndexGPT et prévoit d'embaucher environ 2000 gestionnaires de données, scientifiques de données et ingénieurs en apprentissage automatique pour améliorer ses capacités en IA. IndexGPT, similaire à ChatGPT en fonctionnalités, sera essentiellement un "logiciel de cloud computing utilisant l'intelligence artificielle" utilisé pour "analyser et sélectionner des titres adaptés aux besoins des clients".
White House Down
Dans une ambiance de désaccord, l'administration Biden se divise sur la question de la régulation des nouveaux outils d'intelligence artificielle.
Alors que certains officiels de la Maison Blanche et du Département du Commerce soutiennent les mesures strictes proposées par l'Union Européenne pour des outils IA comme ChatGPT et Dall-E, d'autres craignent qu'une régulation trop agressive ne mette en péril la compétitivité nationale.
Cette divergence a laissé les États-Unis sans réponse cohérente lors du Conseil du Commerce et de la Technologie US-EU en Suède. L'UE prévoit d'imposer des règles supplémentaires aux IA génératives, obligeant les développeurs à se conformer à des régulations strictes. La question de la responsabilité face aux risques associés à la technologie est au cœur des préoccupations.
Sam Altman, le PDG d'OpenAI, est devenu le visage public de l'inquiétude des entreprises face à un excès de régulation lorsqu'il a suggéré que sa société pourrait retirer ses produits du marché européen si les règles étaient trop difficiles à suivre.
la régulation de l'IA générative est un sujet brûlant qui divise non seulement les officiels américains, mais aussi les acteurs du marché technologique. Alors que l'UE avance dans l'élaboration de ses règles, la question de savoir comment les États-Unis répondront reste en suspens.
AI Camera
Bjørn Karmann, un designer danois, a ouvert de nouveaux horizons en photographie en créant Paragraphica, un appareil photo innovant basé sur l'intelligence artificielle.
Au lieu d'utiliser un capteur et un objectif, Paragraphica utilise des données de localisation pour créer des images. L'appareil génère une description détaillée du lieu et du moment, y compris des détails tels que l'adresse, la météo et les lieux environnants. Ensuite, l'IA crée une image qui reflète la manière dont elle perçoit le lieu décrit, offrant un reflet complexe et nuancé de l'endroit où se trouve l'utilisateur.
Paragraphica se présente sous deux formes : une caméra virtuelle accessible à tous et un prototype physique utilisé uniquement par Karmann. Il est également doté de trois molettes permettant de contrôler les paramètres de l'IA, offrant aux utilisateurs la possibilité de personnaliser leurs images. Karmann explique que Paragraphica offre une nouvelle façon d'appréhender le monde, qui va au-delà de la simple perception visuelle.
https://youtube.com/shorts/b4nxBm9MaIw?feature=share
Y’a pas que Midjourney dans la vie
Voici le dossier de la semaine : quelles sont les (vraies) alternatives à Midjourney ?
La question est épineuse tant Midjourney se positionne au dessus de la concurrence. Cependant, son pricing le destine davantage aux professionnels de la création qu’aux amateurs et autres curieux des possibilités des modèles d’intelligence artificielle générative “text-to-image”.
Personnellement, je déteste perdre mon temps à lire des articles qui présentent des solutions inutilisables, aussi je me garderai bien de vous faire perdre le votre.
Je ne vous présente donc QUE des prompt-to-image dignes de considération. Vous êtes prêts ?
C’est parti !
1️⃣ DALLE-E
Je commence avec DALL-E d’OpenAI, sorti en janvier 2021, précurseur dans le domaine des modèles text-to-image grand public.
DALL-E (à prononcer Dali) est, comme Midjourney, un programme d'intelligence artificielle générative capable de créer des images à partir de descriptions textuelles. Son nom est un mot-valise évoquant à la fois le robot de Pixar WALL-E et le peintre Salvador Dali.
Son interface est simple et efficace. Un champ de saisie pour le prompt, un lien cliquable pour uploader une image et un bouton “surprise me” pour démarrer sans trop réfléchir.
Je n’utilise presque jamais DALL-E pour générer des images depuis que j’ai pris mes habitudes avec Midjourney, mais je dois avouer qu’il mérite tout de même le détour.
Soyez simplement prévenus qu’avec DALL-E, c’est tout ou rien. Soit l’image générée est plaisante, soit elle sera inutilisable. Exemples par l’image :
Le résultat est meilleur en travaillant le prompt, mais est encore perfectible :
En comparaison, Midjourney v5 donne ça avec le même prompt :
Comme dirait l’autre “y’a pas photo”.
Si globalement, Dall-E est intéressant pour expérimenter des styles illustratifs non réalistes…
…il peut également se montrer à son aise en photographie réaliste
DALL-E propose également une fonctionnalité très intéressante : l’outpainting. Le principe est simple : on part d’une image de référence et DALL-E génère une extension de cette image.
Exemple avec l’image ci-dessus :
Ou avec une image plus connue :
Les résultats sont généralement très bons, mais restent toutefois légèrement inférieurs à ceux obtenus avec la récente fonctionnalité “Generative Fill” de la dernière version de Photoshop, actuellement en version bêta.
Même si sur cette image là, il y a match :
Pour utiliser Dall-E, vous avez besoin d’un compte sur openAI, le même que pour utiliser chatGPT. Ensuite vous allez ici et vous pouvez commencer à prompter.
Notez que Dall-E focntionnea vec un système de crédits. Ces crédits sont nécessaires pour générer des images. Lors de votre inscription, vous recevez 50 crédits gratuits. Par la suite, vous recevez 15 crédits par mois.
Il est également possible d’acheter des crédits additionnels pour un prix de 15$ pour 115 crédits, qui équivaut environ à 460 images.
2️⃣ STABLE DIFFUSION
Avec DALL-E et Midjourney, l’autre prompt-to-image le plus connu, c’est Stable Diffusion.
Contrairement à DALL-E, et Midjourney, Stable Diffusion est open source et peut être installé sur votre ordinateur. Il est également accessible sur internet.
Si vous souhaitez l’installer sur votre ordinateur, gardez à l’esprit que l’utilisation de Stable Diffusion est gourmande en ressource. Pour démarrer, vous pouvez utiliser Stable Diffusion gratuitement online sur stablediffusionweb.com, Nightcafe, clipdrop ou mieux, Dreamstudio.ai.
Il existe plusieurs versions de Stable Diffusion. Les plus répandues sont la 1.5 la 2.1 et SDXL. Stable Diffusion est globalement plus délicat à prendre en main que DALL-E pour une raison simple : les prompts négatifs ont presque autant d’importance que le prompt initial. De nombreuses personnes considèrent le negative prompting comme optionnel dans les modèles 1.4 ou 1.5 de Stable Diffusion. Les choses ont changé avec la sortie de Stable Diffusion v2, et l'invite négative est devenue indispensable.
Sur Dreamstudio, vous pouvez créer une image en utilisant un style parmi une bibliothèque de 16, saisir votre prompt ainsi qu’un éventuel prompt négatif, uploader une image de référence, et paramétrer le ratio d’image, le nombre d’images en sortie, etc.. c’est ergonomique et très complet.
Tous les nouveaux utilisateurs se voient accorder 25 crédits gratuits lors de la création d'un compte. Ensuite, c’est du pay per use. 10€ vous donnent droit à 1000 crédits.
Le pricing dépend du modèle utilisé et du format d’image en sortie.
Côté qualité, c’est pas mal du tout ! Ci-dessous 3 exemples créés en utilisant le modèle Stable Diffusion XL :
Pour utiliser Dreamstudio, rendez-vous sur ICI
Tips : une bonne manière de progresser en prompting Stable Diffusion est de vous rendre sur Lexica.art, une galerie consacrée à Stable Diffusion. Les créateurs y exposent fréquemment leurs œuvres les plus remarquables. Vous avez la possibilité de copier les prompts utilisés, en les modifiant selon vos besoins et envies.
3️⃣ BLUE WILLOW
Blue Willow est un copycat de Midjourney : Actuellement en v3, il fonctionne sur Discord et génère des images lorsqu’on tape “/imagine” suivi d’un prompt. Si vous savez utiliser Midjourney, alors vous saurez utiliser Blue Willow. Dans sa version gratuite, Blue Willow permet de créer 10 images par jour. Il existe plusieurs formules d’abonnement :
Les formules payantes permettent d’avoir accès à la v4, la dernière version de Blue Willow. Les différences entre les deux versions sont tantôt positives :
tantôt négatives
Blue Willow reste perfectible dans la manière dont il restitue certains détails, notamment les yeux des personnages. Il offre cependant de très bonnes surprises de temps en temps. Une solution intéressante pour s’exercer gratuitement au prompt-to-image.
4️⃣ Leonardo.ai est un outsider de choix : sans atteindre la perfection photographique de Midjourney, il permet de créer des visuels de grande qualité.
L’interface est plus ergonomique que celle d’un serveur Discord. Toutes les commandes sont claires et intuitives, une fois qu’on a compris le principe de la génération d’images.
La particularité de Leonardo est de proposer de très nombreux modèles de génération d’images, parmi lesquels les modèles maison (“Leonardo Diffusion”, “Leonardo Creative”, “Leonardo Select”, “Leonardo Signature” et “DreamShaper”), mais aussi Stable Diffusion 1.5 et 2.1…
…ainsi qu’une trentaine de modèles custom et plus d’une centaine (!) de modèles créés par la communauté. Ces derniers modèles ont extrêmement variés, les possibilités créatives sont gigantesques.
Et ce n’est pas fini ! Leonardo propose une killer feature : on peut uploader ses images pour créer et entrainer son propre modèle.
How cool is that ?
Le prompting est globalement un peu plus complexe que sur Midjourney, à cause des prompts négatifs qui rendent l’exercice plus délicat. Mais le jeu en vaut la chandelle, d’autant plus que Leonardo offre 150 crédits par jour dans sa version gratuite, ce qui équivaut à 75 images/jour.
La plateforme propose également une option de “prompt Generation” qui vous propose des idées de prompts plus complexes à partir d'une simple invite. Parfait pour débuter.
Spoiler alert : Leonardo.ai est mon alternative favorite, tant les possibilités qu’il offre sont vastes, et sans avoir à sortir la carte bleue.
P.S. N’oubliez pas de vous faire whitelister avant de pouvoir accéder à Leonardo.ai
5️⃣ Freepik
Freepik est une plateforme de ressources graphiques : vidéos, vecteurs, photos, fichiers PSD, etc… qui propose son propre générateur d’images.
L’interface est très simple : un champ de saisie pour le prompt, un style à choisir parmi 4 (Photo, Digital Art, painting, 3D) et un bouton “Generate”.
Le générateur utilise Stable Diffusion XL, la qualité est au rendez vous :
En revanche, on a droit uniquement à 3 images gratuites par jour. Il faudra bien réfléchir avant de prompter…
Et quand bien même on serait prêt à sortir la carte bleue, la génération grimpe à (seulement) 10 images par jour avec un compte Premium (9€/mois) qui inclut l’accès à toutes les ressources du site.
Bref, une fonctionnalité bonus pour les utilisateurs de Freepik, mais pas un prompt-to-image utilisable à volonté.
Freepik
6️⃣ Dreamlike
Outsider parmi les outsiders, Dreamlike créé la surprise en proposant outre une interface claire et pas moins de 8 modèles pour styliser vos images, des rendus d’une qualité surprenante.
L’ergonomie est peu ou prou similaire à celles des autres plateformes. On retrouve toutes les options de paramétrage des images typiques des modèles Stable Diffusion, les explications sont claires.
Et la bonne surprise, c’est que la qualité en sortie n’est pas mauvaise du tout 👇
Comme toujours avec Stable Diffusion et ses dérivés, vous n’obtiendrez pas des résultats similaires du premier coup. Il va falloir travaille run peu votre prompt engineering. A titre d’exemple, ma première tentative avec Dreamlike s’est soldée par cette image
Je ne sais pas ce que je préfère : les 3 bras ou les 7 doigts ? La qualité du résultat dépendra moins du prompt que du modèle que vous utiliserez. Une itération plus tard, avec le même prompt, j’obtenais ceci.
Ce qui est beaucoup mieux, à un doigt près.
Bref, expérimentez. D’autant plus que l’accès est gratuit. Vous commencez avec 50 crédits et vous pouvez demander 24 crédits gratuits par jour, jusqu'à 50 crédits. Vous pouvez obtenir davantage de crédits en souscrivant à un des plans proposés : 12, 24 ou 48$/mois. Mais à ce prix là, autant regarder du côté de Midjourney.
En conclusion, Midjourney reste le patron inconstesté et incontestable, tant par l’incroyable qualité des images produites que par la facilité avec laquelle il est possible d’atteindre d’excellents résultats. Cependant son accès payant le réserve à un usage régulier ou intensif dans un contexte passionné ou professionnel.
Pour tous les curieux de l’IA, les créatifs en recherche d’expériences génératives et les “hobbyistes”, d’autres outils performants sont disponibles, à commencer par Leonardo.ai qui est mon préféré, tant par la qualité des images générées, que par son interface et ses crédits offerts quotidiennement.
Snoop Dogg approuve ce message 👍
P.S. Il existe d’autres outils intéressants d’IA pour générer des images : Adobe Firefly, Playground AI, Bing image creator ou encore la surprenante app Imagine sur smartphone, dispo sur Android et sur Apple.
L’article vous a plu ? Partagez-le 👇
Nous arrivons à la fin de cette édition, j’espère que la lecture vous a plus et/ou aura été instructive. Je vous souhaite un excellent weekend au cours duquel, si vous en avez le temps et l’envie, je vous encourage à expérimenter avec les outils que je vous ai présentés. N’hésitez pas à me faire des retours en commentaires ou à me contacter, je suis disponible pour tout projet de création assistée par l’IA ou de formation sur l’IA générative.
Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔 pour être tenu informé des prochains posts, consulter mon compte instagram dédié à la création assistée par l’IA, ni à me contacter pour toute proposition d’intervention, conférence, projet, formation liée à l’intelligence artificielle générative.
Et bien sûr, abonnez-vous à GENERATIVE 👇