Salut les humains (à priori), et bienvenue dans cette 71e édition de GENERATIVE, la newsletter qui fait le focus sur l’actualité des outils créatifs d’IA générative.
Cette semaine, nous parlons encore beaucoup de vidéo, le “hot topic du moment”.
Sans plus attendre, découvrons le sommaire de cette édition :
Sommaire
1. On travaille ensemble à la rentrée ?
2. Les news de de la semaine
3. Animations de photos et pseudo deepfakes
4. Et toi, tu fais quoi avec l’IA ?
On travaille ensemble à la rentrée ?
On me dit souvent que si on associe volontiers mon nom à l’IA générative, on ne sait pas précisément ce que je fais avec cette technologie.
Je forme des profils communicants et créatifs aux outils d’IA génératif (chatGPT, Copilot, Midjourney, Firefly, Génération de vidéos, génération de voix et de sons).
Cette semaine encore, j’ai formé les équipes de le société de production Satisfaction Group à Paris et animé une Masterclass IA en anglais (yes darling) devant une soixantaine de dirigeants des marques du groupe l’Oréal Luxe à Aix En Provence. J’espère avoir l’autorisation de vous en parler plus en détails ici prochainement.
Je créé également des contenus visuels (image, vidéo, sons) avec l’IA. J’ai créé un Avatar IA pour Transitions, marque du groupe Essilor-Luxottica, un film de 3mn en IA pour Decathlon, un film de veux pour l’agence CAPA, etc…
Si vous désirez que nous travaillions ensemble, envoyez moi un mail à : gilles.guerraz@nextrend.fr
Ou contactez moi via Linkedin.
Les news de la semaine
Sora arrive ?
OpenaI tease sur les réseaux sociaux. la sortie de Sora serait-elle imminente ?
Je suis excité comme avant la sortie de la Sega Saturn en 1995 (très gros niveau d’excitation donc)
DreamFlaire AI
DreamFlare est une plate-forme de contenus AI generated avec un twist : Ce sont les spectateurs qui choisissent la suite de l’histoire. Laurie Zingaretti avait eu la même idée il y a quelques mois avec sa série : “le colis”.
Pour découvrir la plateforme, c’est ici : https://dreamflare.ai/
Google recolle au peloton ?
Au cas où on aurait encore un doute, Google Deepmind nous rappelle que la saison de la vidéo IA est définitivement ouverte, avec cette vidéo de démo. Google multiplie les démos impressionnantes mais n’a encore rendu public aucun outil l’heure où je rédige ces lignes.
HeyGen lance Expressive Photos v1.0
La célèbre plateforme de clonage lance un nouveau modèle d’animation de photos. Il est possible de faire parler et chanter n’importe quel portrait ou avatar. L’animation est spectaculaire. J’en parle en détails un peu plus loin.
Donner vie aux vieilles photos
Les développeurs chinois semblent avoir un coup d’avance sur le reste du monde, comme en atteste ce modèle qui anime vos vieilles photos.
La question à 100 francs : ces apps vont-elles contribuer à une explosion du syndrôme du faux souvenir ? (des souvenirs qui présentent des distorsions par rapport à l'expérience réelle, intégrant des interprétations, soit des d'événements qui ne sont jamais advenus). Vous avez deux heures.
Roto 2.0
L’IA générative est-elle le nouveau rotoscoping ? C’est ce que cette vidéo réalisé sous ComfyUI semble suggérer :
Sezam Upscale
La plateforme française de création d’images Sezam, dont j’ai interviewé les fondateurs ICI, se dote d’une nouvelle fonctionnalité d’upscaling.
À essayer ici : https://lnkd.in/g6xyuu7x
Scene Transfer 2.0
Krea.ai met déjà à jour sa nouvelle fonctionnalité" “Scene Transfer” avec des préréglages supplémentaires.
Kling
Une pépite vidéo découverte grâce à Emmanuel Vivier. J’aime beaucoup la direction artistique qui me rappelle celle de certains films japonais des années 90, avec une chinese touch qui fait pa différence.
Kling again
Une autre vidéo récente de Kling qui dévoile la qualité des rendus obtenus par le modèle chinois :
Video again and again
Deux vidéos IA ont buzzé très fort cette semaine. La première, c’est ce clip vidéo réalisé par le créatif japonais Arata Fukoe.
Les outils utilisés : ChatGPT pour les paroles, Suno pour la musique, Midjourney et Stable Diffusion pour les images, Luma Dream Machine, Gen-3 et Kling pour la vidéo.
Ce clip confirme le postulat que la vidéo Ia arrive à un stade proche de la maturité.
La deuxième vidéo qui a buzzé cette semaine, c’est cette spec ad (fausse pub) Volvo réalisée en 24h avec Runway Gen-3 et finalisée sous After Effects. Gaal Laszlo, le créateur a déclaré :
”After Effects n’a été utilisé que pour la plaque d’immatriculation et le logo Volvo (ils ont trop changé) et il y a eu 1 à 2 plans où j’ai vraiment aimé le plan mais il y avait deux Volvo. En dehors de ceux-ci, les photos générées proviennent directement de Runway.”
Even Computers want a Byte
La saison des vidéos IA est définitivement ouverte. L’utilisateur Metapuppet sur X a réalisé cette fausse pub McDo en utilisant Midjourney, Magnific AI et Photoshop pour les Images, Gen-3 et Luma pour la vidéo, Eleven Labs pour l’audio et Premiere pour le montage.
Metapuppet revendique un coût de production inférieur à 60 happy meals. A 4,75€ le menu, ça nous fait un film à 285€. On ne sait pas si c’est le coût GPU ou le coût de tout ce qu’il a mangé en faisant le film.
MultiLipSync
Runway sort en version bêta fermée le multi characters lips sync :
A.I Camera tips
Rory Flynn partage du contenu de qualité sur Midjourney, à ceux qui ont un peu de temps à consacrer à l’outil. Depuis peu, il publie des posts consacrés à Runway Gen-3, établissant des passerelles entre les 2 outils, à ‘limage de cette vidéo :
MA.I.ngo
La marque de prêt à porter Mango lance sa première campagne Full IA. Anticipant le backlash sur les internets, le communiqué de presse précise :
« Diverses équipes internes ont collaboré au développement de la campagne, notamment le design, l’art et le stylisme de Mango Teen, la formation des ensembles de données et des modèles d’IA et notre studio de photographie. »
Si vous voulez mon petit avis personnel, j’ai du mal à comprendre le recours à l l’IA et autant de personnes pour obtenir le rendu d’une incrustation sur fond vert plutôt que de chercher à réaliser un visuel innovant et/ou impossible à capturer dans la réalité.
Prompt Generator
Heather Cooper a créé un générateur de prompts pour Runway Gen-3 en utilisant Claude 3.5 Artifact.
Voici le prompt qu’elle a donné à Claude :
"Create a cinematic video prompt generator incorporating the factors and recommendations for effective video prompts in this Project knowledge base."
Claude a créé un excellent template de texte et Heather travaille à présent sur une app de génération de prompts pour Gen-3. Voici les premiers clips générés :
On en pense quoi ? Besoin d’un générateur de prompts ou pas ?
Vers un futur positif
Pour terminer les news sur une touche d’espoir et d’humanité dans un monde de silicium, je vous propose une autre vidéo virale cette semaine.
En Tunisie, une enseignante a utilisé l'IA pour générer des images d'élèves en train d’exercer leur futur métier. Cette initiative a suscité enthousiasme et motivation auprès des élèves. En visualisant leurs aspirations, les enfants sont encouragés à travailler dur pour les atteindre, créant un cercle vertueux pour eux et pour la société.
ANIMATION PHOTO ET PSEUDO(?) DEEPFAKES
Vous le savez si vous suivez cette newsletter, l’animation de photo avec l’IA progresse rapidement depuis quelques semaines. En ligne de mire, EMO, le modèle extraordinaire (mais non disponible) de l’Institute for Intelligent Computing d’Alibaba Group. Je vous remets une démo, c’est sidérant de réalisme.
Les apps disponibles à l’heure actuelle ne sont pas aussi performantes qu’Emo, mais cela ne veut pas dire qu’elles ne le seront pas un jour, comme vous pouvez l’imaginer.
J’en ai benchmarké quelques unes, sur la base de mon avatar Beau Gosse en costume Prada.
J’ai commencé par un échauffement des sourcils et des maxillaires avec Live Portrait sur Hugging Face. Du sport de haute intensité.
J’ai essayé avec une vidéo home made, ça semble marcher un peu moins bien qu’avec les vidéos d’essai. Mais c’est quand même pas mal.
Certains obtiennent cependant des bons résultats avec des vidéos perso :
Ensuite, j’ai voulu tester les apps qui permettent de faire parler (ou chanter) des photos.
J’ai animé la même “photo” navec D-ID, Runway Lip Sync, Hedra ainsi qu’avec la toute dernière fonctionnalité de HeyGen : “Expressive Photo Avatar”.
Le tout sur une bande son Udio, avec des paroles signées Gemini Advanced.
Que remarque t-on ?
1- D-ID est loin derrière. Ils n’ont pas fait évolué leur modèle depuis 2023, ça se voit.
2 - RUNWAY manque d’expressivité.
3 - HEDRA est pas mal mais beaucoup de hochements de tête un peu “artificiels” si vous me permettez.
4 - HEYGEN est impressionnant tant en synchro labiale qu’en mouvement de la bouche et des maxillaires.
Heygen vainqueur par KO. Le seul problème, c’est le temps de génération. Comme au lancement de leur fonctionnalité de traduction vidéo multilingue, les générations se retrouvent dans un goulot d’étranglement qui peut vous faire attendre plusieurs heures si vous générez en fin de journée.
As usual, le matin ça va beaucoup plus vite.
God bless America. Ou pas.
J’ai fait un 2e test avec ce 2e avatar :
Les animations du bas du visage fonctionnent particulièrement bien : cou, machoire, lèvres. En revanche, ça manque un peu d’expressivité dans le haut du visage : les sourcils et le front sont encore un peu statiques.
Bon à savoir, j’ai essayé de faire parler le Pape en latin, mais HeyGen a détecté un visage célèbre et m’a refusé la génération. Par contre, il a accepté d’animer une image Midjourney représentant (avec plus ou moins d’acuité) Emmanuel Macron :
Au final, je vois des applications potentielles essentiellement dans les sphères du divertissement.
Animer son avatar sur les réseaux sociaux, une super activité pour occuper le temps de cerveau disponible des gens, entre deux parties de jeux vidéo et 3 vidéos Tik Tok.
J’y vois aussi des applications potentielles dans le monde de l’animation, pour gagner du temps sur le lipsync.
Un exemple avec cette vidéo dans laquelle le créateur a mélangé Live Portrait d’Hugging Face avec Runway Gen-3. Mini making of à la fin :
Mais à part ça, je demeure perplexe quant à d’autres usages. Et les progrès rapides de cette technologue continuent d’agiter le spectre du deepfake à la portée de tous.
Et toi tu fais quoi avec l’IA ?
Cette semaine, j’ai le plaisir d’interviewer Guillaume Viscogliosi, qui faisait partie des collaborateurs de la société de production Satisfaction Group, que j’ai formés récemment à la génération d’images et de vidéo avec l’IA générative. Nous avons fait 2 sessions de formation. Entre la première et la deuxième, Guillaume s’était plongé dans Runway Gen-3. Il nous partage son expérience avec l’outil :
Salut Guillaume, peux tu te présenter brièvement ?
Je suis responsable artistique et réalisateur pour La Grosse Equipe depuis 17 ans, je m'occupe de la création d'habillages et logos d'émissions de tv ainsi que la réalisation de génériques pour un large panel d'émissions allant de la Télé-réalité aux émissions jeunesse en passant par le doc, et les jeux tv.
Quel était ton usage de l'intelligence artificielle générative avant notre formation ?
Jusque la j'ai exclusivement utilisé Midjourney, pour concevoir des visuels pour notre service développement, on cherche toujours à concrétiser visuellement nos concepts des l'étape du pitch pour aider les chaînes à se projeter dans les univers qu'on leur propose.
Avais tu essayé d'utiliser Gen-2, Pika ou un équivalent sur des projets professionnels ?
Non, j'ai regardé les démos, mais je n'avais pas encore franchi le pas. J'étais en attente de Sora comme beaucoup de monde, et quand Runway Gen-3 est sorti, j'y ai vu l'opportunité de me lancer.
Raconte nous tes premiers pas avec Runway Gen-3
Comme toutes les IA au début on a le syndrome de la page blanche, les possibilités sont tellement infinies qu'on ne sait pas par quoi commencer, je compare un peu ça à un auteur de livre, tout est imaginable et pour la première fois en vidéo ça ne coute pas plus cher de faire un space opéra qu'une vidéo urbaine. Je pense qu'avec ce type d'outil il va falloir reconstruire notre manière de penser.
Dans les médias on a toujours tendance à réfléchir avec l'épée de Damoclès du budget au-dessus de la tête, alors que maintenant on rentre plutôt dans une course à la créativité, à l'originalité.
Ce qui est frustrant au début, c'est que les premiers prompts donnent souvent des résultats très moyens, éloignés des superbes images du trailer de Runway, on en vient même à se demander si ça a bien été fait avec, puis au détour d'un prompt mieux formuler, on est surpris par un résultat beaucoup plus convaincant qui finalement nous encourage à continuer encore et encore.
Comment as tu réussi à affiner tes prompts ? Quels conseils peux tu partager à ce sujet ?
L'important c'est de formuler ses prompts en indiquant toujours en premier lieu le type de mouvement de caméra, puis ensuite de décrire son sujet et le type d'action qu'il effectue, pour finir par une description du lieu et des indications de lumière.
Je prompt autant en anglais qu'en français, Runway réagit bien au deux, parfois quand le résultat est éloigné de mes attentes je remplace certains mots par des synonymes ou j'insiste plus sur certains détails.
Après ce n'est pas magique, il faut aussi générer pas mal de vidéo pour en avoir une correcte, de l'ordre de 10 pour 1.
Il y a une section d'aide sur le site de Runway qui donne pas mal de terme générique pour affiner ses prompts, c'est très utile, je laisse souvent la page d'aide ouverte dans un autre onglet, j'y trouve même quelques idées.
Un autre conseil pour améliorer ses prompts c'est d'aller faire un tour sur midjourney dans la galerie d'images, on peut y copier les prompts des images qui nous plaisent et les modifier sur runway.
Envisages-tu d'utiliser ces nouveaux outils dans tes projets professionnels ?
C'est déjà le cas, notamment pour du documentaire historique ou d'anticipation, et j'espère à l'avenir pour de la conception de générique tv.
Quelles sont les avancées que tu attends pour le 2nd semestre 2024 ?
Mon gros problème pour le moment c'est le manque de cohérence artistique et visuelle, on peut difficilement répliquer un personnage dans différentes situations, il ne se ressemblera pas d'un plan à l'autre vu qu'à chaque prompt l'IA de Runway repart à zéro. Il y a bien la possibilité de cocher la fonction "fixed seed" censée conserver certains paramètres qui orientent l'esthétique d'un plan mais malgré tout ça reste très aléatoire sur les personnages et objets.
Peut-être que lorsque Gen-3 permettra tout comme Gen-2 de partir d'une photo plutôt que d'un prompt on arrivera à créer plusieurs vidéos cohérentes entre elles.
J'attends également un gain en définition pour le moment on est limité au 720p sur la Gen-3, l'idéal serait de pouvoir pousser jusqu'à la 4k.
Dans un futur sans doute un peu plus lointain, ce serait top de pouvoir interagir avec Runway en lui suggérant des modifications un peu à la manière d'un chatGPT pour le texte, pour affiner petit à petit chaque plan dans les détails.
Merci Guillaume !
Merci à toi !
Cette édition est terminée, merci de l’avoir lue jusqu’ici ! Si elle vous a plu, vous pouvez la partager en cliquant juste ici :
Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.
Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇
Ultra instructif
Heygen annonce les avatars 3D la semaine prochaine pour les streaming Microsoft . On va voir ce que cela va donner.