Champagne, chatbots et révolution vidéo

févr. 16, 2024

Bonjour à toutes et à tous, humains augmentés ou pas, clones, machines, modèles de langage, générateurs de vidéo, je vous souhaite la bienvenue dans cette 50e édition de GENERATIVE ! J’espère que vous accepterez cette coupe de champagne virtuelle pour célébrer ce joli chiffre rond.

Product photoshoot of a cup of champaign, luxury, classy — Prompt : “Product photoshoot of a cup of champaign” / LeonardoAI - Photo Real v2

Quelques statistiques en dégustant la coupe de champagne :
Nous sommes passés de 26 abonnés à l’issue de la première édition le 14 avril 2023 à 1643 abonnés aujourd’hui.
Malgré cette inflation, le taux d’ouverture reste stable et plutôt élevé pour une newsletter : 60% au début, 57% actuellement (normalement, les newsletters c’est plutôt autour de 25% de taux d’ouverture)
Près de la moitié des lecteurs ne sont pas (encore) abonnés, les articles les plus lus dépassent les 3000 lecteurs.
D’ailleurs si vous n’êtes pas encore abonnés , n’hésitez pas à cliquer, c’est gratuit :

Mais ce qui m’a le plus surpris, c’est que les lecteurs de Generative sont répartis à travers le monde ! (Hors Europe, il y a des lecteurs en Indonésie, en Corée, en Inde, en Turquie, en Estonie, au Congo, au Cameroun, au Burkina Faso, en Algérie, au Brésil, au Canada, au Sénégal, en Côte d’Ivoire, à Madagascar, en Australie et au Gabon !)
Merci donc à tout ce joli monde, je trinque à votre santé !

Pour cette édition “milestone”, je vous propose un sommaire alléchant :

✔️ Les news de la semaine

✔️ Sora d’OpenAI, la révolution vidéo IA est en marche !

✔️ Et toi, tu fais quoi avec l’IA ? Interview de Cyrille Magnetto

Les news de la semaine

“Nihongo o hanaseru ?”
Saviez vous que ChatGPT (et tous les LLMS en général)sont à la peine lorsqu'ils traitent des langues non latines telles que le japonais, le chinois, ou encore le khmer ?Malgré sa capacité à traduire correctement de nombreuses langues, ChatGPT peine à rédiger des textes formels dans ces langues, souvent à cause des nuances culturelles, comme les formules de politesse et les marqueurs de hiérarchie sociale, qui sont essentielles dans les communications au Japon.
C’est pour cette raison que le Japon investirait des centaines de millions de yens dans le développement de modèles de langage adaptés à la langue et à la culture japonaises. Avec comme objectif de combler l'écart avec les pays anglophones en matière d'IA conversationnelle et d'accélérer la recherche scientifique.

Prompt : “a japanese robot in the streets of Harajuku by night, neon lights --s 1000 --v 6.0 --ar 103:45” - Midjourney v6

CraftGPT
Pour tester l'adaptabilité des intelligences artificielles, des chercheurs ont introduit une IA dans le jeu vidéo Minecraft, observant ses capacités à se débrouiller dans un environnement ouvert et complexe. Ce test, mené par l'université du Witwatersrand, visait à évaluer la capacité des IA à apprendre et à réaliser des tâches sans directives précises.
Les résultats ont été variés, avec un modèle réussissant la majorité des tâches simples et intermédiaires, tandis qu'un autre échouait face à des tâches plus complexes, soulignant l'importance de l'apprentissage autonome pour le développement futur de l'IA dans des domaines encore plus complexes.

HackGPT
Un récent article du Monde met en lumière la vulnérabilité des intelligences artificielles génératives face aux attaques de hackers. En exploitant les failles liées aux données, modèles et processus d'apprentissage, ils ont réussi à tromper ou faire dérailler ces systèmes, à leur faire dire ou faire ce qu'ils ne devraient pas, par des techniques d'empoisonnement des données, d'injection de consignes masquées ou de saturation de la mémoire. Tout cela démontre un actuel manque de robustesse des modèles, et les risques potentiels pour les utilisateurs, même si les chercheurs travaillent aussi avec les fabricants pour améliorer la sécurité de ces technologies.

SuperPubs
Le Superbowl, finale du championnat US de football américain, a eu lieu le week end dernier. Cet événement très regardé (123 millions d’américains devant leur téléviseur) en fait une cible de choix pour les publicitaires, qui ont pris l’habitude de sortir leurs plus grosses production à cette occasion.
Et cette année, plusieurs pubs parlaient d’IA générative, parmi lesquelles Microsoft :

Ce beau film Google réalisé par le réalisateur malvoyant Adam Morse :

Ou encore ce film BodyArmor qui se moque de l’IA générative :

ChatGPT Killer ?
Google a dévoilé Gemini 1.5, un upgrade de son dernier chatbot éponyme, capable de traiter jusqu'à 1 million de token.
En comparaison, la fenêtre contextuelle de chatGPT4 n’est “que” de 32 000 token.
Gemini 1.5 peut ainsi analyser des documents TRES volumineux.
Et surtout, par rapport à d’autres modèles qui sont incapables de récupérer le contexte de leur grande fenêtre contextuelle et qui ne répondent pas aux questions sur votre contenu, Google affirme que Gemini Pro 1.5 a un taux de réussite de 99,7% !
Il peut répondre, par exemple, à presque toutes les questions sur un livre ou un film avec un minimum d’erreur.
Il est actuellement en cours de déploiement auprès d’un petit nombre de développeurs et d’entreprises clientes à des fins de test. Si vous faites partie des chanceux, vous devriez pouvoir y accéder via Google AI Studio ou Google Vertex AI.

ChatGcherché
OpenAI développerait un nouveau moteur de recherche basé sur Bing afin de concurrencer Google. L’objectif serait de redéfinir l'exploration web en intégrant des fonctionnalités avancées de ChatGPT, telles que la personnalisation et la mémorisation des préférences utilisateurs. Reste à voir si cette offre saura surpasser Google Search, leader historique du marché, et réussira à s'imposer face aux récents efforts de ce dernier avec des services comme Gemini.

“L’espion qui m’aimait”
Selon une nouvelle étude du projet Privacy Not Included de Mozilla, les boyfriends/girlfiends IA seraient de véritables catastrophes en matière de protection des données personnelles. Ces chatbots romantiques collectent des informations extrêmement privées sur la santé, les traitements médicaux, etc… et les revendent à l’insu des utilisateurs.
Mozilla a examiné 11 chatbots de romance IA, constatant que tous étaient classés comme n'incluant pas la confidentialité, avec des problèmes de sécurité et une utilisation excessive de traceurs pour recueillir et partager des données. Les applications encouragent activement le partage de détails intimes, posant de sérieuses questions sur la sécurité des données personnelles des utilisateurs.

Prompt : “vintage grain photography, underwater kiss, two people kissing underwater, bubbles, motion, fluid, flowing, passion, motion underwater” - Leonardo Photo Real v2

Empathie synthétique
Sur un sujet connexe, en Chine, les chatbots romantiques connaissent un succès croissant, offrant compagnie et soutien émotionnel aux utilisateurs en quête d'empathie non trouvée dans les relations humaines. Ces assistants virtuels, développés par des géants comme Baidu, proposent des interactions personnalisées, répondant aux besoins quotidiens et offrant des conseils.
Les utilisateurs, souvent jeunes, apprécient ces compagnons pour leur capacité à offrir du réconfort à tout moment, répondant à des standards idéalisés de partenaires. Ces développements soulèvent néanmoins des questions sur la vie privée et l'avenir des relations interpersonnelles, tout en imaginant un futur où les robots pourraient devenir des partenaires de vie tangibles.

Tout ça me donne des idées de scénario de SF où, dans un future relativement proche, les relations amoureuses virtuelles seraient la norme. Avec une chute drastique de la natalité. On arriverait proche du postulat de départ de cet excellent film, dont je vous recommande le visionnage, si vous ne le connaissez pas encore :

Les Fils de l'homme (film) - Réalisateurs, Acteurs, Actualités

V-JEPA
Meta a conçu V-JEPA, un modèle d'IA prédictif pour la vidéo basé sur l'architecture "Joint Embedding". Il comble les parties manquantes de vidéos dans un espace abstrait, sans générer les pixels. Apprentissage auto-supervisé, efficacité améliorée. Excellent en reconnaissance fine d'actions. Ce "modèle du monde physique" servira en réalité augmentée, aide contextuelle. V-JEPA promet des avancées dans la compréhension des vidéos, avec des projets futurs incluant l'amélioration de la reconnaissance sonore et la planification à plus long terme.
Si tout ce jargon n’est pas très clair, jetez un oeil à cette vidéo :

SORA, la vraie révolution de la vidéo IA ?

La nouvelle est tombée hier en début de soirée et a fait l’effet d’une bombe.
A un moment où les limites des outils phares de génération de vidéo se font sentir (réalisme approximatif, générations hasardeuses, déformations anatomiques…) et où des améliorations notables semblaient pouvoir venir de Google avec “Lumiere”, leur prochain outil annoncé il y a deux semaines, la surprise est venue d’un acteur qu’on n’attendait pas et pas des moindres, puisqu’il s’agit d’OpenAI, éditeur de chatGPT et de DALL-E.

Le new kid on the block s’appelle Sora. Il comprend le langage en profondeur, interprète avec précision les prompts et génère des personnages réalistes.
Sora peut créer des vidéos complexes avec plusieurs personnages, mouvements spécifiques et détails précis. Il est même capable de simuler la physique du monde réel. Avec un maximum de 60 secondes par video.

OpenAI a publié hier sur un site dédié des vidéos démo de Sora. J’espère que vous êtes bien assis, les exemples sont HALLUCINANTS (et je pèse mes mots). Ils le sont d’autant plus qu’OpenAI assure que les vidéos n’ont pas été modifiées après génération.

Prompt : “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.”

Mais comment est-ce possible ? Me demanderez vous.
OpenAI explique que "En donnant au modèle la prévision de plusieurs images à la fois, nous avons résolu un problème difficile qui consiste à s'assurer qu'un sujet reste le même même lorsqu'il sort temporairement du champ de vision."

Concrètement, c'est comme pour Google Lumière. Le modèle génère une vidéo "d'un seul bloc", par exemple 240 images d'un coup pour une vidéo de 10 secondes, plutôt que de générer les images une par une.
C’est ce qui évite les déformations anatomiques non sollicitées dans les générations Gen-2 ou Pika.

Prompt: “A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.”

Mais regardez moi ce plan de caméra et cette qualité d’image ! J’ai failli tomber de ma chaise en découvrant la vidéo :

Prompt: “"A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.”

D’un point de vue technique, je vous partage les réflexions intéressantes de Jim Fan, chercheur Senior chez Nvidia
”Je ne serais pas surpris si Sora était entraîné sur beaucoup de données synthétiques à l’aide de Unreal Engine 5.
Décortiquons la vidéo suivante. Prompt : « Vidéo photoréaliste en gros plan de deux navires pirates qui se battent l’un contre l’autre alors qu’ils naviguent à l’intérieur d’une tasse de café. »

- Le simulateur instancie deux éléments 3D : des bateaux pirates avec des décorations différentes. Sora doit résoudre le text-to-3D dans son espace latent.
- Les objets 3D sont animés de manière cohérente lorsqu’ils naviguent et évitent les trajectoires des autres.
- La dynamique des fluides du café, même les mousses qui se forment autour des navires. La simulation des fluides est un sous-domaine entier de l’infographie, qui nécessite traditionnellement des algorithmes et des équations très complexes.
- Photoréalisme, presque comme le rendu avec du raytracing.
- Le simulateur prend en compte la petite taille de la tasse par rapport aux océans, et applique un look “tilt shift” (photographie à bascule et décentrement) pour donner une ambiance « minuscule ».
- La sémantique de la scène n’existe pas dans le monde réel, mais le moteur implémente toujours les règles physiques correctes que nous attendons.”

Ce que je trouve très intéressant là-dedans, c’est la capacité du modèle à reproduire avec précision les lois de la physique du monde réel dans un contexte imaginaire ou surréaliste. Comme si Sora avait déjà 2 ou 3 générations d’avance sur les modèles concurrents.

Toutes les vidéos de Sora que j’ai vu passer dans mes feeds Linkedin et X parlent de text-to-video, mais il faut signaler que le modèle est également capable de faire de la video-to-video. Comme Gen-1, mais en beaucoup plus réaliste.

Alors bien sûr, j’ai toujours un doute. Tout le monde se souvient de la bande annonce de Pika 1.0 qui promettait des résultats ultra spectaculaires en quelques secondes avec des prompts simples. La réalité s’est avérée différente : ce n’est pas facile d’obtenir d’excellents résultats avec Pika.
Tout comme avec Runway Gen-2.

Alors, ça sort quand ?
Avant de rendre Sora accessible au public, OpenAI prévient qu’il soumet le modèle à des tests poussés de sécurité et de conformité pour prévenir les usages dangereux. L'entreprise collabore aussi avec des spécialistes en désinformation, contenus haineux et biais.

C’est avec une grande impatience que j’attends l’opportunité de tester SORA. Mais si cette démo reflète les capacités réelles du modèle, cela pourrait marquer un tournant décisif, suivi d’un raz de marée aussi inéluctable qu’inarrêtable dans la production audiovisuelle.

https://openai.com/sora

Et toi, tu fais quoi avec l’IA ?

Cette semaine j’ai le plaisir d’interviewer mon ami Cyrille Magnetto, VP Innovation chez AXA France, qui nous partage ses travaux et ses réflexions autour de l’intelligence artificielle générative.

Bonjour Cyrille , pourrais-tu te présenter ?

Je m'appelle Cyrille Magnetto, j’ai 45 ans, sudiste de cœur et parisien d’adoption, fier papa de deux enfants extraordinaires. Je suis un intrapreneur à la croisée des chemins entre design, marketing et stratégie, avec un penchant pour l'innovation et la disruption.

Actuellement VP Innovation chez AXA France, je pilote un studio d’innovation, dédiée à capter les signaux faibles, comprendre les attentes de nos utilisateurs, défier le statu quo, et dessiner les contours de futurs produits, services ou business models innovants. Mon rôle est de créer un environnement où les idées novatrices peuvent germer et s'épanouir.

Au-delà de mes fonctions chez AXA, je partage ma vision du futur et mon enthousiasme pour l'innovation à travers des conférences, des cours et des ateliers, en collaboration avec des écoles et des incubateurs.

C'est le gaming qui démocratise les nouvelles technologies”, le métavers de Cyrille Magnetto (AXA France) – La Réclame — Cyrille Magnetto dans un Metavers

Quand as-tu commencé ton parcours en IA générative, et comment cela s'est-il passé ?

J'ai plongé dans l'univers de l'IA générative en novembre 2022 avec le lancement de ChatGPT. J’ai commencé tout de suite à expérimenter. Un de mes 1ers usages étaient d’utiliser GPT comme copilote pour imaginer des histoires à raconter à ma fille le soir ! C’est très vite devenu interactif, et on s’est bien amusé en demandant à l’IA de créer des cliffhangers incroyables dans le récit.

Début 2023, j’ai commencé à tester des outils créatifs, je me souviens m’être amusé à envoyer mes voeux sous forme de poèmes ultra-personnalisés... C’était fun, mais à l’époque j’étais encore à fond sur le Web3 et le Métavers ! ;-)

Depuis mars 2023, mon équipe a pris une nouvelle direction, effectuant un pivot pour se consacrer pleinement à l'exploration de l'IA Générative. Nous avons alors commencé à développer des concepts et des Proof of Concepts axés sur des usages professionnels.

Peux-tu nous présenter quelques projets IA que tu as dirigé chez AXA ?

Ah, tu me poses là une question délicate car la plupart de nos projets ne sont pas encore publics ! :-) Toutefois je peux te dire que nous avons déjà déployé à l’échelle du Groupe AXA, impliquant nos 150 000 collaborateurs, notre propre outil SecureGPT, privé et sécurisé pour les différents métiers de l'entreprise avec une couche de confiance sur la gestion des droits et la confidentialité des données.

Cette plateforme est encore en évolution. Nous y avons récemment mis à disposition une bibliothèque de prompts. A terme, on pourrait imaginer l'entraîner sur des documents spécifiques (embedding).

En parallèle on explore encore le potentiel : nous avons déjà mené une quinzaine d’expérimentations en 2023, dont certaines vont être industrialisées dès cette année et la backlog d’idées ne cesse de grandir. Pour faire simple disons que nos recherches se concentrent sur trois axes :

Dialogue avec des données complexes : afin de gagner du temps dans la recherche, la navigation, l'extraction et l'analyse d'informations à partir de vastes ensembles de données non structurées. Un exemple d’usage un peu prospectif pour que tu puisses te projeter : Imagine toi pouvoir discuter avec tes contrats d'assurance comme avec un ami, comprenant instantanément tes couvertures de manière ultra-personnalisée.
L’amélioration de l’expérience utilisateur, en rendant les interactions en ligne plus fluides, naturelles, conversationnelles et gratifiantes.
La génération de contenu en un clic, permettant de produire rapidement texte, code, images, vidéos ou musique, afin de stimuler la créativité de nos collaborateurs.

Quels ont été les principaux challenges que tes équipes et toi avez rencontré et comment les avez-vous relevés ?

Générer des idées, et concrétiser des cas d’usages est une première étape, mais le véritable défi réside dans le passage à l’échelle. Comment identifier les solutions réellement matures et les intégrer dans les process et workflows existants de chacun des métiers?

Les défis sont nombreux : réduire les hallucinations, offrir un cadre de confiance en terme de sécurité IT, s’assurer de l’application des règles de confidentialité des données/ RGPD, tout en permettant à toutes nos équipes de créer leur propres agents GPTs spécialisés par branche.

Le sujet des coûts est aussi un vrai problème : les tarifications par token ne sont pas clairs, ce qui pose de vraies questions sur le coût réel de la mise à disposition de LLM à tous nos employés... et en même temps si nous n’offrons pas de solutions GenAI à nos équipes, cela reviendrait à les envoyer au combat avec des armes archaïques face à des concurrents mieux équipés.

Et bien sûr la question de l’impact écologique et énergétique est un sujet de préoccupation majeur. l’IA Générative peut s’avérer très séduisante mais n’est pas toujours nécessaire. On ne sort pas la Rolls pour faire 1Km !

Pour relever tous ces défis, il est essentiel de mettre en place une gouvernance solide, afin de fixer un cap clair et permettre de garantir un usage responsable de l'IA générative.

Quels sont les outils Gen AI que tu utilises le + à titre personnel ?

Au quotidien, j’utilise beaucoup HuggingChat et ChatGPT avec une particularité : je suis un grand fan de GPTVoice, le module de conversation vocal pour mes interactions. Franchement, taper des questions et éplucher des réponses longues comme le bras, c’est parfois pénible, et j’y vois un vrai gain de temps !

Je m’en sers pour faire des recherches, dialoguer avec des bases de connaissances, mais aussi pour du media training, et même pour gamifier les révisions d’histoire-géo de mon ado. J’ai créé pas mal de GPTs spécialisés aussi. Et j’explore aussi depuis peu comment coupler GenAI et outils No Code pour automatiser des tâches quotidiennes : le champ des possibles est énorme !

Je consacre également pas mal de temps aux outils créatifs. Chaque vendredi, mon équipe et moi nous octroyons un moment pour explorer les nouveautés. Personnellement, j'ai mes favoris : Midjourney pour créer des images, Krea pour améliorer la qualité d'image, Runway Gen-2 pour animer des vidéos, Eleven Labs pour générer des voix off, et HeyGen pour le doublage.

En regardant en arrière sur l'année 2023, qu'est-ce qui t'a le plus marqué ou surpris dans le monde de l'IA générative ?

L’effervescence et l’accélération autour de ces sujets ! Tout comme toi, je rédige une newsletter mensuelle sur l'IA générative, mais destinée à mes collègues chez AXA. Le rythme auquel émergent les nouveautés, les annonces, et les outils est hallucinant. Se tenir à jour est un véritable marathon, mais quel moment exaltant pour être au cœur d'une équipe d'innovation !

Quelles sont les innovations que tu anticipes sur l'années 2024 dans le domaine des outils créatifs d'IA générative ?

OK laisse moi consulter ma boule de cristal…

Pour 2024 je prédis une révolution majeure dans les domaines de la vidéo, de la publicité, de la 3D mais aussi de la formation. Comme toi je vais continuer à suivre de près les outils de text-to-video ou image-to-video tels que RunwayML, Pika Labs, Leonardo video, et le futur Midjourney Video. Ces technologies, actuellement à un stade expérimental, devraient évoluer vers une capacité à produire des vidéos de qualité professionnelle.

On peut attendre beaucoup de nouveautés aussi côté audio autour de la voix (Murf, Eleven labs) ou de la musique.

Pour ce qui est du multimodal, nous sommes déjà sur la bonne voie, mais on peut s’attendre à une évolution encore plus prononcée. L'intégration avancée de la reconnaissance d'images dans des outils comme ChatGPT (Vision) et la gestion sophistiquée de l'audio vont renforcer notre capacité à interagir avec et à travers divers formats de contenu.

Je crois aussi qu'on assistera progressivement à l'obsolescence des interfaces traditionnelles, au profit de l'émergence d'interfaces homme-machine (IHM) vocales révolutionnaires. Imagine ChatGPT prenant les commandes dans le cockpit de ta voiture, détrônant SIRI ou Alexa avec des assistants basés sur l'IA générative, sans oublier l'arrivée de wearables innovants tels que le Rabbit R1, qui a déjà créé le buzz au dernier CES de Las Vegas.

Je pense enfin qu’on va aller vers des LLMs plus petits mais aussi performants. Un pas de plus pour l'usage sur des smartphones et un coût/temps/conso énergétique/puissance de calcul réduit pour l'entrainement et le fonctionnement pour le bien de tous !

Merci Cyrille pour le partage de ton point de vue éclairant à travers ces réponses détaillées !

Cette édition est terminée, merci de l’avoir lue. Si elle vous a plu, vous pouvez la partager en cliquant juste ici :

Partagez Generative

Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.

Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇

Generative