Magazines, vidéos et audioguides augmentés
Bonjour à tous les chatbots et aux humains qui nous lisent, et bienvenue dans cette 47e édition de GENERATIVE, la newsletter qui aborde l’actu de l’IA générative, les outils créatifs et donne la parole à des personnes qui font des choses inspirantes avec cette technologie.
Bienvenue également aux 234 lecteurs qui nous ont rejoint ce mois ci. Vous êtes désormais 1523 abonnés et un peu plus de 2500 lecteurs au total à lire cette newsletter chaque semaine. Je n’ose imaginer la taille de l’espace adapté à un meetup live de tout ce beau monde (et je ne compte pas les chatbots !).
Merci d’être si nombreux chaque semaine !
Sans plus attendre, le sommaire :
✔️ Les news de la semaine (divisées en 2 parties : les news généralistes et les news du côté créatif)
✔️ LHC, le magazine 99% IA a sorti son édition de janvier
✔️ Et toi, tu fais quoi avec l’IA ? Interview passionnante de Valentin Schmitte
Les news généralistes
Google met de l’IA partout
Google Messages, l’application de messagerie Google, intègrera bientôt le chatbot Bard pour offrir des fonctionnalités telles que la rédaction de messages, la traduction de textes, ou l'identification d'images. Bard sera accessible directement dans l'application, affiché comme un chat autonome. Cependant, les conversations avec Bard ne bénéficieront pas du même niveau de chiffrement que les échanges habituels, et les données pourraient être conservées jusqu'à trois ans (!) pour améliorer l'outil.
Jailbreak Rock
Des chercheurs de l'Université Technologique de Nanyang à Singapour ont découvert comment manipuler des chatbots comme ChatGPT et Google Bard pour créer du contenu inapproprié. Ils ont utilisé une technique de jailbreaking (procédé qui consiste à exploiter les failles d'un système informatique ou d’un appareil électronique verrouillé), qui génère automatiquement des requêtes pour contourner les défenses des chatbots. Cette méthode expose les vulnérabilités des systèmes basés sur l'intelligence artificielle, soulignant la nécessité pour les développeurs d'améliorer la sécurité de ces technologies. Les résultats de cette recherche ont été communiqués aux fournisseurs concernés pour sensibiliser aux risques potentiels de sécurité.
Bing toujours à la traine malgré l’IA
En 2023, malgré l'intégration de ChatGPT et Dalle-E, Bing de Microsoft n'a pas réussi à s'imposer significativement dans le marché des moteurs de recherche. Selon Bloomberg, Bing n'a augmenté que de moins d'un point, avec 3,4 % des recherches mondiales, tandis que Google conserve une large majorité avec 91,6 %.
Quiconque a déjà essayé les 2 outils comprendra cet écart…
Malgré cela, Microsoft continue d'investir dans l'IA et cherche à l'intégrer dans ses offres, notamment avec Copilot dans Windows, en plus du Pack Office.
Champollion 3.0
Une équipe de chercheurs des Émirats Arabes Unis a mis au point une IA capable d'apprendre le style d'écriture manuscrite d'une personne, et de générer du texte qui imite ce style. Je vous vois déjà imaginer le champ des possibles dans le domaine de la falsification de chèques en bois et de faux papiers d’identité, mais les chercheurs mettent en avant une aide potentielle pour les personnes ne pouvant plus tenir un stylo ou encore le décodage de l'écriture des médecins. Qu’en pensez vous ?
Source
Protéger ses droits en dupant les machines
En janvier 2024, OpenAI a provoqué une controverse en admettant l'utilisation inévitable de contenus protégés par le droit d’auteur pour entraîner des IA, soulevant des inquiétudes chez les créateurs. Pour contrer cela, le logiciel Nightshade a été développé. Il permet de modifier les images de manière à tromper les IA sans changer leur apparence pour les humains.
Par exemple : “Nightshade va faire « voir » à l’IA un contenu radicalement altéré. En utilisant Nightshade « Les yeux humains pourront voir l’image d’une vache dans un champ verdoyant, mais une IA verra un grand sac à main en cuir posé dans l’herbe”.
Source
”il ne leur manque que la parole”
L’une des tendances actuelles chez les constructeurs automobiles semble être l’intégration d’assistants vocaux à l’intérieur des voitures. Ainsi, DS Automobiles a testé l'intégration de ChatGPT dans une DS 4 hybride, permettant aux conducteurs de poser des questions via commande vocale. L'IA répond à diverses requêtes, parfois avec des réponses jugées “étonnamment humaines”. À terme, DS Automobiles veut proposer ChatGPT en série sur ses voitures via une offre de services sur abonnement à 9,90€ par mois. Ce système pourrait devenir une habitude courante dans les voitures à l'avenir.
Source
Bayerische Robotiken Werke
Puisqu’on parle automobile, saviez vous que BMW prévoit d'introduire des robots humanoïdes, nommés “Figure 01”, dans son usine de Caroline du Sud pour épauler les humains ? Conçus par l'entreprise Figure, ces robots s'appuient sur l'intelligence artificielle pour effectuer diverses tâches, bien que leurs rôles exacts ne soient pas encore définis. Ils pourraient s'occuper de manutention et de déplacement d'objets. Cette initiative s'inscrit dans une tendance croissante à l'utilisation de robots humanoïdes dans l'industrie.
Source
Amazon robotise encore et encore
Maintenant qu’on a commencé à parler robots, je vous propose la vidéo SF de la semaine. “SF réelle” devrais-je préciser. Amazon a déployé 750 000 robots dans ses entrepôts, dont 400 000 sur les deux dernières années. Pour mémoire, il n’étaient que 1000 en 2013…
Les news du côté créatif
Fiat Lux
La news qui a fait grand bruit cette semaine est la sortie d’une démo de “LUMIERE”, le prochain outil IA de génération et retouches vidéo de Google. La démo est tellement impressionnante qu’on peine à y croire, d’autant plus que le souvenir de la démo truquée optimisée de Gemini est encore fraîche dans nos mémoires.
Alors? Real or Fake ? Regardez et donnez moi votre avis :
Doublage 3.0
Eleven Labs, plateforme spécialisée dans la synthèse vocale dopée à l’IA vient de sortir son “dubbing studio”.
Les fonctionnalités sont alléchantes : transcription et traduction automatique de contenus videos dans 29 langues, tout en clonant les voix originales pour conserver l'authenticité. Le logiciel permet des ajustements précis sur les traductions, le style, et la synchronisation avec l'action à l'écran, offrant une flexibilité inégalée dans la production de contenu multilingue.
La v6 cherche sa vitesse de croisière
Midjourney commence à ajouter à sa v6 des fonctionnalités très appréciées des utilisateurs sur la v5.2, comme le zoom out, le custom out, Vary Region et l’outpainting.
Le zoom out fonctionne très bien
Le Vary Region semble plus aléatoire. J’ai voulu ici remplacer la femme par un jeune garçon… absent dans 3 générations sur 4.
Je continue de tester les autres fonctionnalités et vous tiens au courant.
LEGOLAND
Une fois n’est pas coutume, un prompt Midjourney est devenu viral cette semaine.
Le voici : Une photo à la première personne POV | [scène] dans un monde de briques LEGO | capturant les mains du personnage [action] avec des briques LEGO formant le [lieu] et les environs | sous l'angle --ar 16:9 --s 10 --v 6.0
Traduisez le anglais pour avoir de meilleurs résultats
Le camarade Mathieu Cruq a été inspiré au point de réaliser cette vidéo, en utilisant Midjourney, Runway, Capcut et probablement Suno pour la bande son.
Midjourney for All
Et puisqu’on parle de ce prompt et de Midjourney, sachez que Midjourney est ENFIN accessible depuis une interface web ! Les réfractaires à Discord pourront enfin accéder au meilleur générateur d’images actuel. Un petit pas pour Midjourney, un grand pas pour une adoption plus large de l’outil.
Rendez vous ici : https://alpha.midjourney.com
Pushing the limits
Un groupe appelé “Storybook Studio” a récemment publié cette ban,de annonce 100% générée avec des outils IA. La qualité est sensiblement supérieure à celle constatée habituellement sur ce genre de productions. Le groupe a mentionné “de nouvelles techniques” sans dévoiler leurs secrets. L’investigation est lancée…
Prompt-to-video 2.0
En trainant sur le GPT Store, je suis tombé sur “Video Maker by Invideo AI”. Il s’agit d’un prompt to video très spectaculaire : vous décrivez le contenu votre vidéo via un un prompt. L’outil va ensuite vous générer une vidéo complète avec vidéos de stock et voix off IA. C’est prêt en quelques minutes. On peut ensuite modifier le montage, la voix off, ou encore exporter la vidéo.
Parfait pour créer une chaine YouTube faceless ou des mini documentaires à la maison pour illustrer les cours d’histoire des enfants. Par contre, ça génère des voix off en anglais par défaut. Il est possible de traduire les textes, mais la synthèse vocale sonne alors comme une voix américaine qui lit du français sans en comprendre un traitre mot.
Accessible également sur le net :
IATUS Strikes Back
Après quelques semaines d'absence, ma camarade Laura Ghazal et moi revenons avec un nouvel épisode de IATUS, le podcast qui démystifie l'intelligence artificielle générative.
Au programme cette semaine : "IA et productivité". Cliquez sur l’image pour accéder au podcast.
LHC de janvier est sorti !
J’ai eu le grand plaisir d’être interviewé en page 39 de l’édition de janvier de mon magazine IA préféré : LHC.
Je vous ai également concoté un petit quizz IA en page 42, bonne chance à celles et ceux qui décideront de relever le challenge !
Comme l’exige son concept, le magazine est découpé en 3 sections distinctes :
La section LHI - Les Heures InnovAntes est marquée par le thème des "Résolutions", avec des interventions de Charlotte Cohen, Pierre Saal, Julie Prieur, Ludovic Carli, Baptiste Brousse et moi-même.
Sane Lebrun de la newsletter Upmynt partage les actualités IA, tandis que Gen IArt guide les utilisateurs de Midjourney dans l'art des permutations. Aurore Sauviat aborde les droits d'auteur dans l'IA, notamment comment revendiquer des droits sur les créations générées par IA.
Dans la section LHC - Les Heures Claires, Rafaël Messiez propose une rencontre avec le clone virtuel de Charles Bukowski, Buko, et Léo Renusson, chef de Top Chef Saison 14, participe à une Battle du Chef autour de la Galette des Rois.
La section LHS - Les Heures Sombres offre un contenu plus critique et satirique. Elle inclut des réflexions sur les vœux du Nouvel An, une analyse comportementale humaine, une chronique par Dynamo Dragan défiant les résolutions du Nouvel An, et un contre-horoscope déconstruisant les espoirs annuels avec humour noir.
Le magazine est gratuitement accessible ICI.
Et toi, tu fais quoi avec l’IA ?
Cette semaine j’ai le grand plaisir d’interviewer Valentin Schmitte dont je suis et admire le travail de puis quelques temps déjà. Je lui laisse la parole :
Bonjour Valentin, peux-tu te présenter brièvement ?
Bonjour, je suis Valentin Schmitte, directeur général et co-fondateur de la start-up Ask Mona. À côté de ça, j'enseigne l'IA à Sciences Po, aux Arts et Métiers et au CELSA. Je suis également l'auteur de plusieurs livres, le dernier en date étant “Propos sur ce robot qui parle - Entretien avec ChatGPT”, sorti en juin 2023.
Peux-tu nous parler d'Ask Mona ?
Ask Mona est une société spécialisée dans la création de solutions d'intelligence artificielle à destination des institutions culturelles. Créée en 2017, cette société est composée d'une vingtaine de talents spécialisés dans l'art et l'IA. On travaille aujourd'hui avec près de 200 institutions culturelles dans le monde, dont le Colisée à Rome, la Fondation Louis Vuitton et le Louvre. Nos solutions s'intègrent dans le parcours du visiteur. Avant la visite, nous permettons aux publics de poser toutes leurs questions à un chatbot pour préparer leur visite. Pendant leur venue, nous avons développé un audioguide avec lequel discuter. Et après la visite, nous proposons un petit objet, un magnet intelligent. Côté pile : l'image d'un personnage historique comme Van Gogh, Napoléon ou Louis XIV ; et côté face, un QR code. En le scannant, vous pouvez entrer en conversation avec l'IA du personnage.
Peux-tu nous présenter ton projet d'audioguide IA ?
Nous avons développé un outil de "médiation" pour renseigner les visiteurs du musée autour des œuvres présentées. Du côté utilisateur, le dispositif est très simple. Il s'agit d'une solution web ne nécessitant aucun téléchargement. Lorsque l'utilisateur est devant une œuvre, il la prend en photo. L'IA reconnaît l'œuvre et s'ouvre alors une fenêtre de conversation. L'utilisateur peut ensuite poser toutes ses questions, à l'écrit comme à l'oral, et reçoit des réponses à l'écrit et à l'oral. Le dispositif fonctionne aujourd'hui dans 15 langues.
De manière simple et didactique, pourrais-tu nous expliquer comment l'IA d'Ask Mona interagit avec les bases de données des musées pour générer des réponses personnalisées aux visiteurs ?
La fiabilité de la donnée est un prérequis nécessaire lorsque l'on travaille avec des institutions culturelles qui veillent à la rigueur scientifique des informations transmises. C'est pour cette raison que nous avons développé en interne notre propre technologie qui permet de restreindre les réponses fournies par un LLM à une base de données spécifique. Dans notre cas, si vous posez une question à la Joconde, toutes les réponses se baseront sur les informations sélectionnées par le musée autour de cette œuvre précise. Dans le jargon, on appelle ça un RAG ou génération augmentée de récupération.
Quels retours as-tu reçu des premiers utilisateurs de ton audioguide IA, et y a-t-il des anecdotes qui illustrent comment il a amélioré leur expérience de visite ?
Le dispositif d'audioguide IA est déjà live dans plusieurs institutions et les premiers retours sont très enthousiasmants. J'aimerais te partager une anecdote d'utilisation. Un jeune enfant de 11 ans a testé dans un musée notre dispositif avec le téléphone de ses parents. Il a discuté avec l'audioguide autour d'une seule œuvre pendant 30 minutes. Il lui a posé 20 questions. Et à chaque fois, l'IA répondait correctement. Ce sont des histoires comme celle-ci qui nous encouragent à continuer.
Quels ont été les plus grands défis rencontrés lors du développement de cette technologie et comment ton équipe les a-t-elle adressés ?
Les technologies de RAG sont encore assez nouvelles et délicates à maîtriser. L'équipe de développeurs a travaillé longtemps pour obtenir un résultat qui soit à la fois juste scientifiquement, mais aussi attractif pour l'utilisateur. Car le risque avec ces RAG, c'est de transformer l'IA en un moteur de recherche, diffusant simplement une information, sans l'enrober d'un discours ad hoc.
Quels sont vos plans pour l'expansion future de cette technologie ? Y a-t-il des améliorations ou de nouvelles fonctionnalités que tu prévois d'intégrer ?
On a intégré le vocal le mois dernier, et aujourd'hui on prévoit de nombreuses autres fonctionnalités. On travaille notamment sur l'optimisation des parcours de visite en fonction des profils des visiteurs.
Est-ce qu'il est possible de dire que cet outil contribue à rendre l'art plus accessible, en particulier pour les visiteurs avec des besoins spécifiques tels que les malvoyants ?
La question de l'accessibilité nous anime chez Ask Mona à plusieurs titres. L'accessibilité commence d'abord par le développement de produits respectant les normes RGAA. C'est le cas pour tous nos produits dans une certaine mesure. Mais nous voulons aller plus loin. Travailler sur de l'audio nous permet d'aller dans ce sens. Les technologies de text-to-speech et de speech-to-text sont une vraie chance pour ces publics. Toutefois, la question de l'accessibilité concerne aussi d'autres types de public. Aujourd'hui, grâce à l'IA, il est beaucoup plus facile par exemple de traduire en direct nos contenus en FALC (Français Facile à Lire et à Comprendre). Ces questions sont cruciales à prendre en compte pour développer des produits pleinement accessibles.
Comment se déroule la collaboration avec les musées partenaires comme la Fondation Louis Vuitton et le MNBAQ ?
Chez Ask Mona, on vit toutes nos collaborations comme des partenariats, plus que comme des échanges transactionnels. Cela fait plus de 6 ans que l'on travaille avec la Fondation Louis Vuitton. C'est leur exigence et leur vision qui ont déterminé de nombreuses évolutions dans nos produits. Alors quand on leur a présenté notre dernière nouveauté, on a été enthousiastes à l'idée qu'ils nous suivent sur le coup. Le MNBAQ quant à lui est notre tout premier client canadien. Travailler avec ce musée emblématique du Québec est une vraie chance pour adapter notre produit à un contexte culturel différent.
D'une manière générale, quel est ton rapport personnel aux outils d'IA générative et comment les utilises-tu dans ton quotidien ?
L'IA générative est entrée dans ma vie assez progressivement. En 2020, on bidouillait des GAN chez Ask Mona, puis on a regardé avec beaucoup de curiosité les premiers modèles de texte de Google, et dès 2021, on s'est mis à tester des premiers GPT. Mais l'arrivée en grande pompe de ChatGPT a simplifié énormément mon usage de ces technologies. La première chose que je lui ai demandé, c'était de savoir s'il voulait écrire un livre avec moi. Je me suis dit que c'était une bonne façon d'apprivoiser la machine tout en permettant au plus grand nombre de comprendre son fonctionnement. Et depuis, ChatGPT ne m'a pas quitté. Toutes mes productions textuelles passent par sa moulinette, y compris cet entretien .
En regardant vers l'année 2024, quels développements majeurs anticipes-tu dans l'utilisation de l'IA générative ? Y a-t-il des avancées technologiques spécifiques que tu attends avec impatience ?
Cela fait longtemps que l'on parle de la synthèse vocale. Et je sais qu'il y a de belles solutions sur le marché comme Eleven Labs. Cependant, je trouve que la génération de voix reste assez chère et qu'elle ne permet pas encore d'usage massif. Ça ne saurait tarder selon moi. De nouveaux acteurs sont en train d'arriver avec des modèles plus frugaux et moins onéreux.
Merci Valentin !
Merci à toi, c'était un vrai plaisir de te répondre. Je lis avec attention ta newsletter chaque semaine :)
Cette édition est terminée, merci de l’avoir lue jusqu’ici ! Si elle vous a plu, vous pouvez la partager en cliquant juste ici :
Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.
Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇