There's a new video Sheriff in town
Salut les futurs cyborgs, et bienvenue dans cette nouvelle édition de GENERATIVE, la newsletter qui vous présente l’actu internationale de l’intelligence artificielle générative, ses outils et ceux qui l’utilisent.
Au sommaire :
Les news de la semaine
La tendance du moment : le détournement de logos
Le podcast de la semaine : comptoir IA
Le dossier de la semaine : Pika Labs, la crème de la vidéo AI ?
Let’s go !
Les news de la semaine
Alexa 2.0
Amazon prépare une mise à jour majeure de son assistant vocal Alexa, alimentée par un nouveau LLM (Large Language Model). Cette nouvelle version d'Alexa promet de comprendre les phrases conversationnelles, d'interpréter le contexte de manière plus efficace et d'exécuter plusieurs requêtes en une seule commande.
Le déploiement sera progressif et débutera aux États-Unis. Dave Limp, Senior vice-president d'Amazon pour les appareils et services, a également évoqué la possibilité de facturer cette version améliorée d'Alexa à l'avenir (et oui, faire tourner des modèles de langage coûte cher). Ce changement pourrait révolutionner l'automatisation domestique, en la faisant passer d'une expérience de télécommande vocale à un dialogue avec maison véritablement “intelligente”.
“Alexa, allume la télé sur le match de rugby, règle la température su 19 degrés et fais moi couler un cappuccino sans sucre s’il te plait.”
Shorts augmentés
YouTube annonce la sortie d’une nouvelle gamme d'outils basés sur l'IA. Parmi eux, "Dream Screen" permet de créer des arrière-plans fantastiques en tapant simplement une commande. L'application mobile gratuite "YouTube Create" offre des templates de montage vidéo destinés au “shorts”.
De plus, "Personalized AI Insights" propose des idées et des plans de vidéos sur mesure, en fonction de votre chaîne et des tendances actuelles. Plus de 70 % des beta testeurs auraient déclaré que cela les aidait à générer des idées créatives.
"Auto-Dubbing with Aloud" traduit automatiquement vos vidéos dans d'autres langues. Enfin, avec "Assistive Music Search", l'IA recommande les chansons et les rythmes qui correspondent le mieux à votre musique.
Je me demande quel impact ces outils auront sur la production de vidéos YouTube, et notamment avec Shorts qui génère maintenant 70 milliards de vues par jour (!).
“Montre moi et je ferai”
La scary news de la semaine nous vient de Toyota, qui innove dans le monde de la robotique avec une nouvelle technique d'intelligence artificielle. Cette IA permet aux robots d'apprendre des tâches physiques simplement en observant un humain les effectuer. (Relisez cette phrase en pensant à Snoop Dogg)
Baptisée "Diffusion Policy", cette innovation pourrait révolutionner le secteur : alors que les robots actuels sont surtout utilisés pour des tâches simples, cette avancée pourrait les rendre aussi compétents que les humains dans des domaines variés.
Quand je pense que chatGPT me jurait il y a encore quelques mois que le métiers manuels ne seraient pas impactés par l’IA… Va t-il falloir que j’oriente mes enfants dans d’autres disciplines que l’osthéopathie ou la plomberie ?
Better, faster, Stronger
Le cinquième superordinateur le plus rapide au monde, Summit, a franchi une étape majeure grâce à un nouvel algorithme de Machine Learning développé au Laboratoire national de Los Alamos. Cet algorithme est capable de traiter des ensembles de données massifs qui dépassent la mémoire disponible d'un ordinateur.
Il divise les données en lots gérables, permettant ainsi une analyse efficace sans surcharger la mémoire. Quels pourraient être les impacts de cette technologie dans des domaines comme la recherche sur le cancer, l'imagerie satellite et la science de la sécurité nationale ?
Vous avez deux heures…
Bard s’incruste
Google Bard, le chatbot de Google concurrent de chatGPT, ambitionne d'intégrer nos habitudes numériques. Bard sera bientôt intégré nativement dans les applications Google comme Doc, Gmail, Agenda et Maps, et sera disponible en 40 nouvelles langues.
L'outil offrira des fonctionnalités avancées comme la vérification des sources via un bouton "Google it" et la possibilité de planifier des voyages en utilisant vos données de navigation et d'historique YouTube. Bard pourra également interagir avec Google Drive pour retrouver et résumer des fichiers. Une extension navigateur centralisera toutes ces fonctionnalités avec l'objectif de faire de Bard un outil collaboratif incontournable. On peut d'ores et déjà que Microsoft fera la même chose en intégrant Bing chat à son “copilot”, et Apple en fera de même avec la prochaine version de Siri. A suivre….
Et Microsoft ?
Microsoft vient d’annoncer le lancement officiel de Microsoft Copilot, une solution IA conçue pour proposer pour une expérience utilisateur améliorée. Disponible dans Windows 11, Microsoft 365, Edge et Bing, Copilot agira comme un “compagnon IA”, fournissant une assistance contextuelle basée sur les activités de l'utilisateur.
Le déploiement commencera dès le 26 septembre avec Windows 11, suivi de Bing, Edge et Microsoft 365. La mise à jour de Windows 11 apportera plus de 150 fonctionnalités, intégrant l'IA dans des applications telles que Paint et Photos. Bing utilisera le modèle DALL.E 3 d'OpenAI pour des réponses personnalisées et une expérience d'achat améliorée. DALL-E 3 sera gratuit dans Bing Chat.
ChatGPT oui, mais pas tout le temps
Selon une étude du cabinet BCG et de l'Université d'Harvard, l'utilisation de ChatGPT dans le milieu professionnel présente des avantages et des inconvénients. Pour des tâches "classiques" comme la rédaction de communiqués de presse, l'IA augmente la productivité de 12,2% et la rapidité de 25,1%.
Cependant, pour des missions plus complexes, l'IA peut induire en erreur, avec des résultats moins bons que ceux obtenus sans son aide.
Dans la continuité, une nouvelle étude de la Harvard Business School et du Boston Consulting Group révèle que l'intelligence artificielle (IA) pourrait créer une division entre les "nantis" et les "démunis" parmi les travailleurs du savoir. L'IA, en particulier les modèles linguistiques comme ChatGPT, peut améliorer la productivité dans certains domaines, mais peut aussi réduire les performances dans d'autres.
Les chercheurs soulignent que l'IA peut être un atout ou un handicap, selon la manière dont elle est utilisée. Ils mettent en garde contre le risque de "s'endormir au volant", où une dépendance excessive à l'IA peut nuire à la productivité humaine.
Toi qui utilises un peu trop souvent chatGPT, reste vigilant.
Manu Vinz, 1995 édition
Emmanuel Macron restera t-il le Président le plus “deepfaké” (si vous m’autorisez le néologisme) de l'histoire de France (En attendant son/sa successeur.rice) ? Si les utilisations divertissantes sont légion, je suis curieux de voir les contenus vidéos lors de la prochaine élection présidentielle. Assistera t-on a de faux extraits de débats entre les candidats ? A des déclarations truquées ?
Dans l’attente, je vous laisse en compagnie de Manu Cassel.
L’attaque des clones
Puisqu’on parle deepfakes, saviez vous que la popularité des deepfakes explose sur les plateformes de streaming de commerce électronique en Chine ?
Des entreprises comme Silicon Intelligence et Xiaoice créent des avatars de streamers en direct pour travailler 24/7, réduisant ainsi les coûts pour les marques.
Ces avatars sont capables de s'adapter en temps réel aux commentaires et aux nombres de téléspectateurs. Bien que ces clones ne puissent pas remplacer les influenceurs de haut niveau, ils mettent la pression sur les streamers de niveau moyen. D’ici 2 ans, combien d’influenceurs / Youtubers / Tiktokers auront automatisé leur production de contenu et possèderont leur propre clone ?
DN.A.I
DeepMind, le laboratoire de recherche de Google, a dévoilé AlphaMissense, une intelligence artificielle capable de prédire les effets de 71 millions de mutations génétiques sur la santé humaine et dire si des mutations génétiques sont dangereuses ou non. Cette avancée pourrait révolutionner la recherche sur les maladies rares.
L'outil a examiné des mutations "faux-sens" qui affectent une seule lettre du code génétique et peuvent changer la fonction des protéines. Sur les quatre millions de mutations observées chez les humains, AlphaMissense a pu se prononcer sur 89 % d'entre elles. Il a classé 57 % comme probablement bénignes et 32 % comme probablement pathogènes. Les experts estiment que cette IA pourrait aider à développer de nouveaux traitements.
Merci Joe
Le président américain Joe Biden a appelé à une collaboration internationale sur l'utilisation éthique de l'intelligence artificielle lors de son discours à l'Assemblée générale des Nations unies. Biden souligne que l'IA offre un "énorme potentiel et un énorme danger".
Il insiste sur l'importance d'utiliser cette technologie pour améliorer la vie des gens plutôt que de la compromettre. Les États-Unis envisagent de travailler avec d'autres nations pour établir des règles garantissant une utilisation sûre et contrôlée de l'IA.
There’s a new kid in town
OpenAI vient d’annoncer DALL-E 3, presque un an et demi après la sortie de DALL-E 2. Ce qui fait la particularité de ce modèle, ce n'est pas seulement sa capacité à générer des images, mais aussi sa facilité à comprendre les requêtes en langage naturel.
Jusqu'ici, l'un des plus gros défis pour les utilisateurs était de maîtriser un "langage de prompt" spécifique, souvent complexe et propre à chaque modèle d'IA. Technique mais relativement rapide à maîtriser dans Midjourney, l’art du prompt peut se révéler parfois plus délicat, comme c’est le cas pour Stable Diffusion.
DALL-E 3 change la donne, rendant l'interaction avec l'IA plus accessible et promettant de stimuler une nouvelle vague d'adoption en rendant l'IA plus compréhensible pour le grand public.
DALL-E 3 sera disponible début octobre pour les utilisateurs de ChatGPT Plus et chatGPT Entreprise. Certains influenceurs ont eu un accès anticipé, et se sont déjà lancés dans des comparatifs entre DALL-E 3 et Midjourney
A chaud, quelle est votre première impression ?
La tendance de la semaine
Cette semaine a vu l’émergence de détournements de logos de marques connues, avec des outils IA (essentiellement Stable Diffusion + Control Net). Une manière potentiellement ludique de communiquer pour les marques prêtes à se prêter au jeu.
Le podcast de la semaine
Ça fait plusieurs semaines déjà que je veux vous parler de l’excellent podcast Comptoir IA, créé et animé par le camarade Nicolas Guyon.
Je profite de mes (pas assez fréquents) passages à la salle de sport pour écouter et réécouter les épisodes, tellement les invités et les informations qu’ils partagent sont d’un excellent niveau.
Passionnant si l’on cherche à s’intéresser de près à l’intelligence artificielle.
Je vous invite à découvrir ou redécouvrir Comptoir IA sur vos plateformes de podcasts préférées.
Le dossier de la semaine : Pika Labs
Vous le savez probablement, en tant que réalisateur, le domaine de création vidéo assistée par l’IA me passionne tout particulièrement.
J’ai testé à peu près tous les outils sur le marché, des plus connus (Gen-1, Gen-2, Kaiber, Pika Labs…) jusqu’aux plus improbables comme FullJourney, Genmo (qui vient de sortir une mise à jour et dont je vous reparlerai très prochainement) ou le Modelscope d’Hugging Face.
Je vous parle aujourd’hui de Pika Labs, un outil sorti il y a quelques mois déjà. Evidemment, je me suis rué dessus dès sa parution. A l’époque, je l’avais trouvé divertissant à défaut d’être réellement convaincant : des outputs approximatifs et un framerate de 8 images par seconde qui piquait les yeux m’ont amené à rapidement délaisser Pika Labs au profit de Runway Gen-1 puis Gen-2.
Mais Pika Labs a récemment bénéficié de mises à jour majeures, permettant aux utilisateurs d’animer des images, de créer des vidéos en 24 images par secondes et même d’ajouter des mouvements de caméra dans leurs vidéos. Tout ça avec un rendu visuel très “propre” et, in fine, assez impressionnant.
Comme disent les youtubeurs ricains, '“let’s dive in !”
Une Introduction à Pika
Si vous êtes déjà utilisateur.rice de Midjourney ou habitué.e des serveurs Discord, vous ne serez pas dépaysé.es avec Pika Labs.
Après avoir rejoint le serveur Discord de Pika, les utilisateurs peuvent simplement saisir un prompt qui démarre par “/create” dans l'une des salles de génération.
Comme dans Midjourney, on décrit ensuite dans le prompt le contenu de la vidéo qu’on souhaite générer. En appuyant sur "Entrée", Pika génère une vidéo de trois secondes qui correspond à l'invite. Le résultat est souvent bizarre, parfois même presque malaisant, comme souvent avec les outils IA de génération de vidéos.
(Ne me flagellez pas, la vidéo c—dessous n’est pas de moi. Je l’ai trouvée sur le Discord communautaire de Pika, pour la science)
Prompt : “young dark haired girl walking along a beach in thailand in bikini”
Le cadrage guillotine, l’anatomie approximative, l’éclairage artificiel, absolument tout est bizarre (“—weird 1000”) dans cette vidéo.
Cependant, là ou Pika brille, c’est lorsqu’on lui donne une image de référence. A l’instar de Runway Gen-2, Pika Labs est capable d’animer n’importe quelle image donnée en référence. Et il le fait très bien.
Exemple avec cette image que j’ai généré dans Midjourney, un product designer concentré à son bureau, qui ressemble vaguement à Pierre Niney.
Après avoir créé l’image, on peut alors l’animer dans Pika Labs avec ou sans réutiliser le prompt Midjourney. Notons toutefois que réutiliser le prompt apportera plus de précision au résultat.
Exemple avec la vidéo ci-dessous dont le prompt est uniquement “-motion 3”, un paramètre de degré de mouvement au sein d’une vidéo. Il est gradué de 1 à 4.
Et celle ci dont le prompt est : “Cinematic shot of a product designer in the research and development department is examining a smartphone, -motion 2”. Nous avons repris le début du prompt Midjourney, en y ajoutant le paramètre “-motion 2”.
(Vous remarquerez au passage le petit mouvement de caméra non explicitement prompté mais fort sympathique).
La main gauche est un peu étrange mais la qualité globale est excellente.
Les utilisateurs peuvent également animer des images en utilisant la commande /animate
, qui fonctionne pas mal elle aussi.
Contrôles Avancés
Comme Runway, Pika offre une gamme de contrôles avancés qui permettent aux utilisateurs de jouer les réalisateurs. Vous pouvez ajuster le rapport d'aspect, contrôler les mouvements de la caméra (zoom in, zoom out, pan right, pan left, rotation droite ou gauche), ajuster des paramètres comme le nombre d’ images par seconde (entre 8 et 24) et même d'éliminer les défauts comme le flou et la distorsion.
Création de Vidéos Plus Longues
Il existe une solution pour ceux qui cherchent à créer des vidéos plus longues que 3 secondes. Les utilisateurs peuvent télécharger leur clip de trois secondes, extraire la dernière image et l'utiliser comme point de départ pour le prochain clip. Ce processus peut être répété pour créer plusieurs vidéos de 3 secondes, qui peuvent ensuite être assemblées dans votre logiciel de montage favori.
Une Communauté Créative
Comme c’est le cas pour Midjourney, le serveur Discord agit comme une plateforme communautaire où les créateurs peuvent partager leurs œuvres, obtenir des retours et collaborer sur de nouvelles idées. Ça crée un environnement dynamique qui encourage l'expérimentation et l'innovation.
Interaction Personnalisée
Pika permet également une interaction plus personnelle. Bien que vous ne puissiez pas inviter Pika sur votre propre serveur Discord, vous pouvez interagir avec le bot Pika en privé dans l'une des salles de génération. Cela permet de générer dans le calme et la sérénité, sans passer son temps à chercher ses créations parmi celles de milliers d’utilisateurs qui promptent à la chaine.
Et par rapport à Gen-2, ça dit quoi ?
C’est effectivement la question à 1000 francs. Le rendu est très différents entre ces deux outils.
Gen-2 est probablement meilleur pour les mouvements de caméra, mais je trouve Pika plus performant pour générer des textures photoréalistes tout en gardant une cohérence visuelle tout au long de la vidéo.
J’ai monté ce side by side rapide à partir d’une image shootée sur un fashion film dont j’ai signé la direction de la photographie il y a quelques années.
Conclusion
Pour celles et ceux qui ont envie de plonger dans le monde de la création vidéo assistée par IA, Pika me semble être un excellent point de départ.
Non seulement il propose un processus de création vidéo relativement simple si Discord vous est familier, mais il offre également un niveau de qualité très élevé au vu des standards actuels, ainsi qu’une gamme de fonctionnalités avancées qui permettent une personnalisation poussée.
Ajoutez à cela une communauté active et un bon potentiel d'amélioration, et vous avez un outil incontournable à l’heure actuelle.
”One last thing” comme disait Steve Jobs aux 3/4 de ses keynotes, j’ai gardé le meilleur pour la fin : Pika Labs est accessible gratuitement !
Comme dirait Georges :
Voilà, cette édition est terminée, merci de l’avoir lue jusqu’ici !
Je vous donne rendez vous la semaine prochaine pour une nouvelle grosse édition.
N’hésitez pas à partager cette édition, me suivre sur LinkedIn et activer la cloche 🔔 pour être tenu informé des prochains posts, à consulter mon compte instagram dédié à la création assistée par l’IA, ni à me contacter pour toute proposition d’intervention, conférence, projet, formation liée à l’intelligence artificielle générative. Et bien sûr, à vous abonner à GENERATIVE 👇