Bonjour à toutes et à tous, curieux, novices, experts, fascinés, inquiets, effrayés par l’intelligence artificielle et bienvenue dans cette nouvelle édition de GENERATIVE, la grosse newsletter hebdomadaire francophone qui vous résumé l’actu trépidante bouillonnante inquiétante fascinante (rayez la mention inutile) de l’intelligence artificielle générative.
Au sommaire cette semaine :
✔️ Les news de la semaine
✔️ Top of the Pops : Suno v3 est là !
✔️ Le magazine Stratégies parle d’IA…et de moi !
✔️ Des pubs avec de l’IA dedans
LET’S GO !
Les news de la semaine
TESLA et l’IA
Tesla intègre un assistant IA dans son application mobile, avec la promesse d’optimiser l'interaction avec ses véhicules. La mise à jour logicielle apporte un chatbot IA capable de répondre aux questions des utilisateurs, simplifiant l'accès à l'information et l'assistance. Cette nouveauté s'inscrit dans l'effort continu de Tesla pour améliorer l'expérience utilisateur et l'efficacité de ses services, marquant une étape significative dans l'évolution de l'écosystème connecté du constructeur.
Une plateforme video IA tout-en-un ?
Lightricks a lancé LTX Studio, une plateforme holistique qui résout de nombreux défis rencontrés lors de la création de vidéos IA. Cette plateforme rassemble tous les besoins externes en un seul endroit, offrant ainsi une solution complète pour la création de vidéos.
La vidéo de présentation montre des exemples de text-to-video, des contrôles de caméra, un éditeur de storyboard et des contrôles de mouvement de caméra. LTX Studio permet également de générer des pistes musicales, des dialogues et des effets sonores sur la plateforme. LTX Studio sera disponible à la fin du mois de mars.
L’IA, un guide vers une transition énergétique ?
Des chercheurs de l'université de Princeton ont développé une intelligence artificielle, capable de prédire et de contrôler les instabilités dans le plasma d'une réaction de fusion nucléaire. Cette IA peut anticiper les perturbations jusqu'à 300 millisecondes avant qu'elles ne surviennent, permettant d'ajuster les paramètres pour stabiliser le plasma. Testée avec succès, cette avancée représenterait une étape importante vers la réalisation de la fusion nucléaire comme source d'énergie propre et illimitée.
La carotte et le bâton
La semaine dernière, j’ai eu le plaisir de co-animer une session de workshop IA dans les superbes locaux du groupe Campari, à Milan. J’étais bien accompagné, aux côtés de Marie Robin et Ghislain Labay.
Pendant le workshop sur Microsoft Copilot, Marie a surpris les participants en intégrant une promesse de récompense dans son prompt (en alternance avec des menaces de punition, pour la comparaison).
Le blogger Max Woolf a mené une expérience similaire pour déterminer si offrir un pourboire à ChatGPT améliorait la qualité de sa génération de texte. Il a utilisé des contraintes de longueur et de qualité, ainsi que des incitations positives et négatives.
Bien qu'il y ait des indices que les pourboires ont un impact, Woolf conclut que des preuves supplémentaires sont nécessaires. Avez vous déjà essayé de promettre une récompense ou menacer chatGPT ?
Adobe se lance dans la musique IA
Adobe dévoile Project Music GenAI Control, un outil d'IA pour la création musicale à partir de prompts textuels. Les utilisateurs sont invités à préciser le genre et l'ambiance souhaités pour produire des compositions ajustables en tempo, structure et sonorité. Conçu comme un co-créateur, cet outil vise à assister professionnels du son et créateurs de contenu en facilitant la création musicale adaptée à leurs projets.
“Et Midjourney se répandit sur me monde…”
Lors de ses traditionnelles “Office Hours”, Midjourney a dévoilé quelques mises à jour futures. Voici les points qui ont suscité mon intérêt :
A court terme :
- un nouveau système de style récurrent, dans la continuité du paramètre "--sref"
- un système pour obtenir des personnages récurrents
- une nouvelle fonctionnalité "describe"
A moyen terme :
- La plateforme se préparerait à dévoiler son API dans les six prochains mois. Ça signifie l’apparition prochaines d’apps qui vont “faire du Midjourney”.
- Le modèle V7 serait prêt à produire des vidéos.
Je sens que la suite de cette année 2024 va être d’une intensité folle.
EMO
Des chercheurs de l'Institut de calcul intelligent d'Alibaba Group ont présenté EMO, un outil de génération de vidéos de portraits expressifs basé sur un modèle de diffusion audio2vidéo. Avec une seule image de référence et une source vocale, comme le chant ou le discours, l’outil peut générer des vidéos d'avatar avec des expressions faciales d’un réalisme assez incroyable, regardez :
Microsoft chasse sur les terres de la Finance et du CRM
Microsoft a révélé “Copilot for Finance”, un nouvel outil d'IA destiné à simplifier les tâches financières pour les entreprises. Cette outil est conçu pour analyser des données, identifier les risques et générer des rapports, offrant ainsi une alternative à la sous-traitance de ces opérations. Son prix et sa date de lancement restent inconnus. Microsoft envisagerait d'étendre l'offre Copilot à d'autres domaines tels que le marketing et la supply chain, accentuant ainsi la concurrence avec Salesforce, qui a récemment lancé l'assistant IA Einstein Copilot. Les démonstrations montrent que Copilot peut intégrer des systèmes CRM, y compris ceux de Salesforce, réduisant potentiellement la nécessité pour les vendeurs d'interagir directement avec ces systèmes.
Chacun cherche son Chat
Dans une interview au journal Le Monde, Arthur Mensch, cofondateur de Mistral AI, affirme que sa start-up peut concurrencer des géants comme Google et OpenAI “grâce à son innovation et son agilité”.
Il a également annoncé le lancement de Mistral Large, un modèle d'intelligence artificielle capable de rivaliser avec GPT-4, et d'un assistant conversationnel, Le Chat.
Mensch révèle aussi un partenariat de distribution avec Microsoft, tout en insistant sur la volonté de Mistral AI de rester un acteur européen indépendant.
Les premiers benchmarks semblent montrer que Mistral Large n’est pas venu pour faire de la figuration.
Je teste la bête depuis sa sortie et je dois dire que pour le moment, je suis très favorablement impressionné. Au point de préférer certaines générations de Mistral à celles de chatGPT-4. Je continue les tests avant de vous en parler plus en détails.
Sora effraie
Le comédien et producteur Tyler Perry aurait suspendu son projet d'expansion de studio Ciné de 800 millions de dollars suite à ses inquiétudes concernant l'impact de l'IA sur l'industrie du divertissement, en particulier après avoir découvert Sora, le nouveau modèle d'IA text-to-video d'OpenAI. Profondément impressionné par la capacité de Sora à générer des vidéos réalistes, Perry a souligné la nécessité d'une réglementation protectrice, prédisant les difficultés de survie de l'industrie sans celle-ci. Il y a ici une vraie question, au sujet de laquelle on vous prépare un épisode de IATUS, avec ma comparse Laura Ghazal.
Freepik 2.0
Freepik est un générateur d’images dont je ne vous avais jamais parlé parce qu’objectivement, il n’état pas très fortiche. Hier cependant, ils ont sorti une nouvelle version qui est très sensiblement plus performante que la précédente. L’interface est très bien pensée et cerise sur le gâteau, on peut tester gratuitement.
C’est par ici que ça se passe : https://www.freepik.com/ai
Ideogram 1.0
Même chose chez Ideogram.ai, un modèle dont je vous ai déjà parlé, en raison de sa capacité à générer du texte et des typos dans vos images. La plateforme accueille désormais un nouveau modèle sobrement intitulé “1.0”.
C’est pas encore Midjourney, mais c’est BEAUCOUP mieux que ce qu’on obtenait avec les modèles précédents, notamment pour les rendus photographiques.
Un before/after pour bien vous rendre compte :
Et comme je suis super sympa, je vous mets même la vidéo de démo de la v1.0
Read my Lips
Pika, qu’on avait oublié et enterré depuis les récentes updates de Gen-2, la démo de Google Lumière et surtout celle de Sora, refait parler de lui ‘avec l’annonce d’une fonctionnalité de lipsync (synchronisation labiale avec du son). On peut désormais faire parler les personnages générés par la plateforme, regardez et écoutez :
Top of the Pops : Suno v3 est là !
Depuis tout jeune, mon goût pour l’écoute musicale (et la danse quand j’étais plus jeune) est inversement proportionnel à mes connaissances en composition (quasi nulles). Quelque part dans un coin de ma tête subsiste le fantasme de mettre un jour la main sur un outil d’IA générative qui pourrait me permettre de composer un tube, moins pour l’aspect commercial que pour le plaisir et la fierté de “pondre un bon gros son bien fat”, comme on disait à l’époque.
C’est avec intérêt que j’ai appris l’existence d’Onyx, un morceau qui ferait la joie des teenagers fans de pop actuelle. Ce morceau a été “composé “ avec la v3 de Suno, un outil dont nous avons déja parlé en ces pages.
Je n’ai pas pu m’empêcher de m’inscrire (je vous prépare un article sur le coût mensuel des abonnements aux outils créatifs IA) pour moi aussi composer générer des morceaux, dont un à la gloire de cette newsletter.
”Because Why Not”, comme dirait Russel Westbrook, le joueur de basket le plus électrique de la 2e moitié des années 2010.
Mais revenons à nos générations.
J’ai commencé par prompter Mistral Le Chat (motorisé par le modèle “Large”), qui était sorti le jour même. Voici le prompt :
”Rédige des paroles de chanson en 155 mots. Le sujet est une newsletter hebdomadaire intitulée GENERATIVE. Elle parle de l'actualité bouillonnante de l'IA générative, des derniers outils pour augmenter la créativité. Elle est émaillée d'interviews de créateurs et de développeurs. De personnes qui créent des images, des vidéos mais aussi qui déploient des GPT sécurisés. Merci au 3000 lecteurs hebdomadaires qui me lisent chaque semaine”
Pourquoi 155 mots ? Parce que ça semble être la limite de Suno.
Pour l’anecdote, j’ai proposé le même prompt à ChatGPT-4, Google Gemini et Claude qui m’ont donné des résultats très différents. Claude était très (trop) littéral et ne m’a proposé aucune rime.
Gemini n‘a pas respecté le prompt et m’a sorti 87 mots avec des rimes très pauvres.
ChatGPT-4 m’a fait des rimes, mais avec des tournures de phrases alambiquées, un peu maladroites.
A ma surprise, c’est Mistral qui m’a donné les meilleurs résultats.
J’ai copié-collé les paroles dans Suno , choisi un style musical au hasard et j’ai cliqué sur le bouton "Create”.
1 minute plus tard, j’avais 2 morceaux.
Voici un electro pop :
Et une version acoustique :
J’ai testé des version rock, hip hop, techno, etc…
Et j’ai été fasciné par deux choses :
- la rapidité des générations (2 morceaux de 2 minutes chacun générés en une minute de temps, c’est assez sidérant)
- l’harmonie musicale (qu’on aime ou pas le résultat, l’époque de la génération musicale aléatoire avec des fausses notes à la pelle semble être révolue)
Au fil de ses updates, Suno s’impose non seulement comme le générateur musical le plus abouti à ma connaissance à l’heure actuelle, et également le plus ludique.
Stratégies parle d’IA
J’ai eu récemment le plaisir d’être interviewé par le magazine Stratégies, pour un article consacré à l’IA et la génération de videos.
L'article mentionne une vidéo IA que j'ai faite le mois dernier pour un grand équipementier sportif, dont j'espère pouvoir vous parler en détail très prochainement !
Et toi, tu fais quoi avec l’IA ?
Puisqu’on parle de vidéos avec de l’IA dedans, je voudrais vous partager aujourd’hui deux films publicitaires auxquels j’ai contribué… avec des contenus générés par l’IA.
Il s’agissait de films pour une agence de voyage dont le concept était le suivant :
Un roman photo-vidéo, avec des voix off de personnages qui lassent un message téléphonique à un proche, à leur retour de voyage.
Le brief était d’utiliser l’IA pour créer des photos de voyages, paysages et selfies, avec un double challenge :
1 - reproduire un rendu de photo smartphone amateur (pas évident)
2 - conserver les mêmes personnages au fil des selfies
J’ai donc commencé par faire un “casting” virtuel en créant un panel de personnages qui correspondaient au brief client. Avec l’objectif de short-lister 4 personnages à chaque fois
Et en parallèle, j’ai créé les visuels de selfies. Le challenge est ici de trouver les bons mots clés dans les prompts Midjourney pour obtenir un rendu amateur et réaliste.
J’ai également créé des snapshots de paysages, en essayant de me mettre dans la tête d’un touriste lambda sans compétence particulière en photographie. Des déclenchements peu réfléchis, des cadres hasardeux. En revanche je ne peux pas jouer sur la sous ou la sur-exposition ni d’éventuels défauts de mise au point : le degré d’automatisation des smartphones modernes est devenu si élevé qu’il faut le faire exprès pour faire des photos floues ou mal exposées.
Une fois que le casting est validé par le client, je “face swap” les visages validés sur les personnages des selfies. Et hop !
Ça à l’air facile comme ça, mais je suis obligé de découper mon image dans Photoshop pour isoler les visages à remplacer, sans quoi l’IA me remplace les deux premiers visages sur la photo, ce qui inclut notre guide au milieu.
Et voilà. Le montage, l’habillage et la voix off font le reste. Le montage final mêle habilement vraies photos, vraies vidéos et photos IA.
Je vous partage également un 2e film de la même série, avec des personnages de retour du Maroc. Le film a été conçu et réalisé selon le même procédé. 90% des photos ont été réalisées avec Midjourney.
Points négatifs : aucun photographe ni comédien n’a été utilisé sur le shoot photo.
Points positifs : Le coût du shoot a été divisé dans un ratio de 90 à 95%, et l’empreinte carbone réduite de l’ordre de 99% (je me base sur une étude estimative pas 100% scientifique mais néanmoins intéressante de Jonathan Gilbert (Detroit), qui comparait les émissions de carbone entre une production photographique traditionnelle et une production réalisée avec l'IA. On avait 672kgs de CO2 d’un côté et 600 grammes de l’autre.
Lien vers le post
Cette édition est terminée, merci de l’avoir lue. Si elle vous a plu, vous pouvez la partager en cliquant juste ici :
Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.
Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇
Bravo Gilles, super édition 👏🏻👏🏻👏🏻