Trop de news tue la news
Salut les plongeurs, les enclumes, les sous marins, les marécageux et les ensevelis vivants, bienvenue dans cette nouvelle édition de GENERATIVE, la newsletter hebdomadaire qui coule actuellement sous le raz-marée d’annonces et de news de ces deux dernières semaines.
Encore une session qui arrive avec un peu de retard, la faute à une semaine extrêmement chargée avec pas moins de 4 formations IA.
L’actualité déborde littéralement, il y a tellement de news que j’ai fait le choix de ne pas publier de dossier cette semaine. Trop de choses à dire pour en faire un sommaire, alors sans transition, let’s deep dive into it !
MASSIL.IA
Pour rappel, je co-organise MASSIL.IA un meetup IA à Marseille le mardi 25 juin prochain. Le cadre est idyllique : il s’agit du Riality Lab, à l’intérieur du Palais de la Bourse, sur la Canebière, à quelques dizaines de mètres du Vieux Port. Je ne pouvais pas rêver d’un endroit plus central et plus prestigieux pour ce 1er meetup !
Au programme, des intervenants de qualité :
Marguerite Leenhardt, PhD. nous présentera le riality IA Lab Marseille, ses sujets et prérogatives.
Rémi Rostan viendra nous parler de son process pour créer LHC, son magazine réalisé à 99% avec l'IA.
Eglantine Germain nous présentera les risques liés aux biais des modèles (racisme, sexisme, agéisme, biais implicites) et comment les atténuer .
stéphan Muntaner nous présentera un projet réalisé pour la ville de Calais, quoi mêle IA générative et outils traditionnels.
Thibaut Watrigant viendra nous présenter l' assistant virtuel d'IA de Gojob dédié au recrutement, construit sur une architecture Mistral.
J'aurai le plaisir de vous présenter l'évolution des outils de génération de vidéo depuis le début de l'année 2023 jusqu'à aujourd'hui. La soirée se terminera autour d'échanges, de discussions et de pizzas, l'occasion parfaite pour échanger et partager nos expériences. 🍕
Un grand merci à Jean-Michel FALCIASECCA pour la réalisation du visuel officiel de l'événement. 👏
Pour vous inscrire, c’est ICI.
Vous pouvez également en parler à vos contacts sudistes potentiellement intéressés.
Au fait…
On me dit souvent que si on associe volontiers mon nom à l’IA générative, on ne sait pas précisément ce que je fais avec cette technologie.
Je forme des profils communicants et créatifs aux outils d’IA génératif (chatGPT, Copilot, Midjourney, Firefly, Génération de vidéo, génération de voix et de sons).
Je créé également des contenus visuels (image, vidéo, sons) avec l’IA.
Si vous voulez travailler avec moi, envoyez moi un mail à : gilles.guerraz@nextrend.fr
Ou contactez moi via Linkedin.
Les news de la semaine
LA grosse news de la semaine, c’est la réponse attendue de Runway à LumaLabs Dream Machine (voir édition précédente).
Runway a annoncé Gen-3, son générateur de vidéo next-gen. En dépit que quelques artefacts caractéristiques des générateurs IA, il a l’air très impressionnant :
Gen-3 serait également à l’aise dans la représentation de visages humains réalistes :
Il serait également à l’aise pour représenter des mains humaines :
Le réalisme est parfois impressionnant.
Côté spécifications, on annonce 1mn30 de temps de génération pour des vidéos de 10 secondes. Il serait également possible de lancer plusieurs générations en parallèle.
Et aussi le motion brush, des commandes avancées de la caméra, mode réalisateur et des updates à pour un contrôle précis de la structure, du style et du mouvement.
(Annoncer des updates sur un outil pas encore sorti, c’est une stratégie pour mettre la pression aux concurrents ?)
”Il ne leur manque que la parole”
Hedra a sorti “Character-1”, un modèle basé (à priori) sur Hallo, une technologie open sources qui permet de faire parler une photo ou un dessin de manière réaliste.
Disponible gratuitement sur ordinateur et mobile, il propose des générations de vidéos de 30 secondes. L'entreprise affirme qu'il s'agit de la première étape de sa mission de créer un studio multimodal pour un contrôle total sur les “dialogues émotionnels” (?), J'ai été impressionné par l'expressivité des personnages (qui se rapproche un peu de celle, très impressionnante de EMO)et la capacité à maintenir la qualité tout au long des vidéos.
Essayez la version bêta gratuitement ici. Voici quelques-uns de mes résultats :
Comme avec la pluoart des outils créatifs d’IA générative, Hedra révèle son plein potentiel lorsqu’il est couplé à d’autres outils, comme par exemple ToonCrafter pour animer le décor. Les portes du dessin animé s’oivrent alors à vous, comme dans cette démo test réalisée par Douglas McGinness
LumaLabs strikes back
Moins d'une semaine après sa sortie, Luma AI a dévoilé un aperçu des prochaines updates de Dream Machine, parmi lesquelles une fonctionnalité d’inpainting en vidéo qui semble spectaculaire :
There’s a new Sheriff in town !
L’une des autres grosses news de la semaine, c’est la sortie de Claude 3.5. Le chatbot a fait forte impression. D’après les premières évaluations, il serait 2x plus rapide que Claude 3, et surpasserait GPT-4o, Gemini 1.5 Pro, et Llama 3 (400B) de Meta dans 7 des 9 benchmarks globaux.
Ce modèle excelle dans diverses tâches comme la programmation, l'optimisation des flux de travail, l'interprétation de graphiques et la transcription de texte à partir d'images. Il se distingue par un traitement du langage amélioré, gérant des tâches complexes avec une touche plus naturelle et humaine. Sa nouvelle fonctionnalité, "Artifacts", permet aux utilisateurs d'interagir directement avec les contenus générés par l'IA, comme on peut le voir dans la vidéo ci dessous.
L’utilisatrice a fourni une seule capture d’écran des instructions d’un jeu à Claude 3.5, qui lui a codé l’application en seulement 25 secondes (!) :
Update Midjourney
Midjourney a publié une nouvelle fonctionnalité qui plaira aux utilisateurs avancés. Il s’agit de la combinaison de styles.
Il est désormais possible de mélanger plusieurs codes --sref ensemble, de mixer les urls des images de référence de style et les codes aléatoires sref.
Vous pouvez également pondérer des codes ou des urls individuels (uniquement sur discord pour l'instant).
Source : Geniart
Relight my fire
Magnific AI lance “Relight”, une nouvelle fonctionnalité qui permet de modifier l'éclairage et le fond d'une photo sans altérer le sujet. Les créateurs de packshots publicitaires salivent déjà. Relight sera accessible à tous dès la semaine prochaine.
Super Slow-Mo
Krea.ai sort une fonctionnalité Super SLow-Mo. Il est désormais possible de contrôler la vitesse de lecture dans Krea Enhance et de réaliser des ralentis jusqu’à 120 images par seconde (soit environ 5 fois plus lent que la vitesse normale).
Intel et l’IA
Intel a dévoilé AI Playground, une application PC qui permet la création et l'édition d'images ainsi que l'accès à des réponses générées par l'IA. Destinée aux utilisateurs de GPU Intel Arc, l'application sera disponible gratuitement cet été. Les utilisateurs pourront créer des images, les améliorer, et obtenir des réponses grâce à des modèles de langage locaux.
Avatars text to speech
Azure AI Speech a introduit une fonctionnalité de Text-to-Speech Avatar, qui transforme le texte en avatars parlants photoréalistes, adaptée pour les vidéos et les bots interactifs en temps réel. Les utilisateurs peuvent choisir parmi des avatars prédéfinis ou personnaliser le leur. Cette technologie, renforcée par SSML (Langage de balisage de synthèse vocale) pour affiner expressions et gestes, ouvre de vastes possibilités dans les interactions, meme si des améliorations sont à apporter :
Indiana Jones dans ton salon
Ce qui me ravit avec les outils de génération d’image et de vidéo, est qu’il offre une baguette magique aux esprits créatifs entreprenants, à l’image du réalisateur John Finger qui nous sort cette séquence en 2 temps 3 mouvements, en utilisant une palette graphique, la fonction “style transfer” de Magnific AI et Luma Dream machine :
Kling
Je n’ai toujours pas réussi à mettre la main sur un numéro de téléphone chinois, mais je vois passer de temps en temps des générations Kling dans mon feed, comme cet astronaute qui s’entraine dur pour les J.O.
Muppet dog
Tandis que le monde s'enflamme pour les avancées de l'IA vidéo, d'autres préfèrent l'expérimentation visuelle paisible, loin de l'agitation, avec Stable Diffusion et leur fidèle compagnon canin.
Viggle V2-Turbo
A défaut d’avoir un chien, je m’amuse avec la V2-Turbo de Viggle, sortie hier.
Ça me fait toujours une sale tête, mais il est désormais possible de générer des vidéos d’une résolution supérieure, beaucoup plus rapidement, tout en conservant l'arrière-plan vidéo d'origine.
Admirez les dancing skills :
TikTok et l’IA
TikTok vient de dévoiler Symphony, une nouvelle gamme d'outils basés sur l'intelligence artificielle. Cette suite vise à simplifier la création de contenu sur la plateforme, avec notamment des avatars numériques, des outils de traduction automatique et un assistant virtuel. Les marques pourront désormais générer des porte-paroles virtuels pour leurs publicités et contenus, tandis que les créateurs bénéficieront d'un assistant pour l'idéation et l'optimisation de leurs vidéos.
Même si ikTok assure que les vidéos générées par IA seront clairement identifiées, je redoute l’entrée dans une ère peuplée d'avatars numériques, pas vous ?
Meta lance des nouveaux modèles
Meta FAIR, la branche de recherche en intelligence artificielle de Meta, vient de publier une série de modèles et techniques d'IA en accès libre. Cette publication inclut Chameleon, un modèle de langage multimodal capable de traiter images, audio et texte, ainsi que JASCO, un modèle de génération de musique par texte. Meta introduit également AudioSeal, un modèle de tatouage audio permettant de détecter les contenus audio générés par IA, et un modèle de prédiction multi-tokens pour améliorer l'autocomplétion de code.
Bigger than ever
Nvidia a dépassé toutes les autres grandes entreprises technologiques pour devenir l'entreprise la plus valorisée au monde. Cette étape importante souligne le rôle du “vendeur de pelles” dans la ruée vers l’or. En effet, la capitalisation de Nvidia est dûe à la vente de ses puissants GPU, indispensables pour faire fonctionner la technologie de l'IA générative.
IA et 4D
Roblox développe une IA générative 4D aller au-delà de la simple création d'objets 3D en intégrant l'interaction entre les éléments. Roblox a déjà lancé des outils d'IA générative pour aider les créateurs à concevoir des actifs 1D (scripts), 2D (surfaces) et 3D (espaces). L'objectif est désormais d'aller plus loin en intégrant la quatrième dimension : l'interaction. L'objectif est de permettre la création d'objets fonctionnels, interactifs et contrôlables dans un environnement virtuel. Bien que des défis subsistent, Roblox est confiant dans le potentiel de l'IA générative 4D pour révolutionner la création sur sa plateforme.
Scan cérébral
Des chercheurs d'Anthropic ont exploré le "cerveau" de l'IA Claude pour comprendre son fonctionnement. Ils ont découvert que l'IA stocke les concepts indépendamment du langage et regroupe certaines idées abstraites de manière similaire au cerveau humain. Cette connaissance permet de manipuler les caractéristiques de l'IA en amplifiant ou supprimant des concepts. L'objectif est de renforcer la sécurité en affaiblissant les liens entre les "mauvaises pensées" pour éviter que les IA deviennent nuisibles.
Soft Skills
Selon Peter Thiel, investisseur renommé, “L'IA est une mauvaise nouvelle pour les personnes douées en mathématiques et la société va évoluer en faveur des personnes ayant de solides compétences verbales.” La capacité à communiquer, influencer et persuader deviendra un atout majeur dans un monde où l'IA sera accessible à (presque) tous.
Face à cette révolution, développer ses compétences relationnelles devient crucial pour se démarquer dans un monde de plus en plus automatisé.
Je trouve fascinant de formaliser un Impact de l’IA tel, qu'il va modifier la hiérarchie des compétences humaines. Et vous ?
Les sous-doués passent le bac
Une professeure a évalué des copies fournies par ces IA sur des sujets de dissertation et de commentaire de texte du bac français 2024.
Spoiler alert : résultats insuffisants.
Les résultats montrent que, malgré une bonne maîtrise de la langue, les deux IA ont échoué à produire des analyses profondes et contextuelles attendues au niveau lycée, offrant des copies superficielles sans véritable compréhension des textes littéraires.
Et pendant ce temps-là
GPT-4 a passé avec succès le test de Turing selon une étude de l'Université de Californie à San Diego. Les chercheurs ont montré que GPT-4 pouvait mener des conversations indiscernables de celles d'un humain, trompant les participants 54 % du temps. Ce résultat indique que GPT-4 peut synthétiser des réponses complexes semblables à celles d'un être humain.
GrugeGPT
Un étudiant turc a été arrêté pour avoir utilisé un dispositif de triche sophistiqué lors d'un examen d'entrée à l'université, impliquant une caméra cachée et une intelligence artificielle. Comme dans un épisode de Mission Impossible, l’étudiant avait équipé un bouton de sa chemise avec une caméra pour scanner les questions de l'examen, les soumettre à une IA via un modem caché dans sa chaussure, et recevoir les réponses via une oreillette.
Cancel culture
La première de "The Last Screenwriter", un film écrit par l’IA, a été annulée à Londres suite à 200 plaintes contre le script écrit par ChatGPT4-o. Le réalisateur Peter Luisi soutient que le projet est mal compris et vise à enrichir le débat sur l'IA dans le cinéma. La bande annonce :
Les J.O. des LLM
Le site Tech&Co a évalué plusieurs IA pour déterminer laquelle est la meilleure pour résumer des documents. Les modèles évalués incluaient ChatGPT, Claude, Copilot, et Gemini. ChatGPT et Claude ont produit des résumés avec quelques erreurs, tandis que Copilot a été jugé moins précis et complet. Gemini, bien que payant, s'est avéré le plus performant en abordant tous les points essentiels sans erreur. Google semble avoir définitivement rattrapé son retard dans la course au meilleur chatbot du marché.
HouellebecqGPT
L’éditeur Gallimard a testé l'IA de Meta en lui demandant de rédiger une scène à la manière de Michel Houellebecq, connu pour son style controversé.
L'IA, conformément à ses paramètres de non-discrimination, a refusé de créer un contenu pouvant être offensant. Elle a proposé une scène positive et inclusive à la place. Gallimard critique cette approche, la jugeant simpliste et menaçante pour la diversité de la création littéraire, et souligne le problème du droit d'auteur avec les IA génératives.
En même temps, je trouve ça pas si mal moi qu’une IA ne soit pas capable de reproduire le style d’auteurs littéraires clivants. Que resterait-ils aux humains sinon ?
Désillusion ou adoption de masse ?
Gartner a publié cette semaine sa courbe de la “hype” l'IA générative. Selon le graphique, nous serions actuellement dans la phase de "Désillusion" du cycle de Hype. Pourtant, l'utilisation de ces outils explose. L'adoption massive de ces technologies contredit l'idée d'une désillusion.
Alors, qui a raison ? Gartner ou les millions d'utilisateurs convaincus par l'IA générative ?
I-Robot
En Chine, Ex-Robots continue de créer des robots humanoïdes dotés de la capacité de singer les émotions humaines par des expressions faciales variées. L’ambition d’ex-robots, c’est de proposer ces robots dans des domaines tels que la santé et l'éducation, pour enrichir les interactions par leur capacité à afficher et réagir “émotionnellement”. Pour le moment, je ne vois que des animatronics en latex.
Et vous ?
Optimus Prime
Puisqu’on parle de robotos, Tesla prévoit d'employer 1 000 robots humanoïdes « Optimus » dans ses usines en 2025. Ces robots, développés pour fonctionner de manière autonome, devraient participer à l'assemblage des véhicules et à la gestion des stocks. Elon Musk envisage de vendre ces robots à 20 000 dollars l'unité, après un coût de production estimé à 10 000 dollars, ouvrant ainsi la voie à de nouveaux profits potentiellement énormes pour Tesla. Le projet, audacieux, souligne l'ambition de Musk de faire d'Optimus le produit phare de Tesla, surpassant même ses voitures.
Télépathie unlocked
Une start-up britannique a créé une IA qui transforme les pensées en données pour dialoguer avec ChatGPT sans clavier ni microphone. Cette technologie, baptisée Mind Portal, identifie les signaux cérébraux et les convertit en phrases. Bien que prometteuse, cette interface présente des limitations, dont un temps de décodage variable et un taux de succès de 42%. Malgré ces défis, Mind Portal prévoit de rendre cette technologie accessible au grand public d'ici cinq ans.
La fuite des cerveaux continue chez OpenAI
Ilya Sutskever, cofondateur d'OpenAI, se lance dans une nouvelle aventure entrepreneuriale avec la création d'une entreprise entièrement focalisée sur le développement d'une Superintelligence Sécurisée (SSI). L'objectif ambitieux est de repousser les limites des capacités de l'IA tout en garantissant sa sécurité. La feuille de route de l'entreprise reste floue, mais l'accent mis sur la sécurité soulève des questions sur la faisabilité de ce projet. A suivre…
CNN dégaine l’IA dans sa dernière campagne
CNN a lancé une campagne publicitaire innovante intitulée "Nothing Goes Unnoticed" (Rien n'échappe à notre vigilance). Cette campagne utilise des images générées par l’IA qui représentent des scènes chaotiques où se cachent les visages de leaders politiques. L'objectif est de mettre en avant la capacité de CNN à couvrir l'actualité sous tous les angles, même les plus subtils.
Comparatif video IA
J’ai réalisé cette semaine un comparatif de (presque) tous les générateurs video IA du marché.
J'ai utilisé un prompt issu de la bibliothèque de SORA AI.
"An extreme close up shot of a young woman’s eye blinking, standing during magic hour, cinematic film shot in 70mm, depth of field, vivid colors"
Et j'ai lancé ce prompt avec :
- Pika Labs (1ère version)
- Pika 1.0
- FullJourney
- Pixverse
- Morphstudio
- Haiper
- Noisee
- Runway Gen-2
- Luma Dream Machine
Comme d'habitude, ce test n'est pas représentatif des capacités et des limitations des modèles. Certains sont beaucoup plus à l'aide pour animer des images que pour interpréter du texte.
Cela dit, il y a des surprises que je vous laisse découvrir dans la vidéo ci-dessous.
La bande son a été générée avec Udio
Cette édition est terminée, merci de l’avoir lue jusqu’ici ! Si elle vous a plu, vous pouvez la partager en cliquant juste ici :
Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.
Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇