Lost in code interpretation
Salut les êtres humains ! Bienvenue dans cette nouvelle édition de GENERATIVE, la newsletter hebdomadaire qui parle d’intelligence artificielle générative, de news et d’outils.
Au sommaire cette semaine :
les news du front de l’IA generative
Mes vidéos IA récréatives
Un nouvel épisode de IATUS est en ligne !
et un test de la nouvelle fonctionnalité “code interpreter” de chatGPT.
C’est parti !
En préambule, je souhaite adresser un message aux builders, celles et ceux qui créent des applications basées sur l’intelligence artificielle générative.
Entre Twitter, Reddit et AI Valley, je vois passer plusieurs dizaines de nouvelles applications IA chaque semaine. Et lorsque je dégage 5 minutes pour découvrir l’une d’entre elles, j’arrive généralement sur une page avec un peu trop de texte à lire, un usage de l’outil pas toujours très explicite. Conséquence : je zappe !
Soyez concis et catchy ! L’usage doit être exprimé en une ou deux phrases.
Un court tuto video ou mieux, un essai guidé de l’app doit être à portée de clic.
N’hésitez pas à me contacter si vous avez besoin d’aide / de conseils pour optimiser l’efficacité de votre landing page, je serais ravi de vous aider.
Wix se met à l’IA
Wix, un acteur majeur de la création de sites web, lance un nouvel outil basé sur l'IA capable de générer des sites web complets à partir de simples prompts.
L'outil, nommé AI Site Generator, permet aux utilisateurs de décrire leur intention et de générer un site web avec une page d'accueil, des pages internes, du texte et des images, ainsi que des sections spécifiques à certaines activités comme les événements ou les réservations. L'outil utilise une combinaison de systèmes IA internes et tiers pour créer le site envisagé. Les utilisateurs ne sont pas limités aux designs de l'AI Site Generator et peuvent apporter des modifications à leur guise.
Llama pour tous
Meta bouleverse le marché de l'intelligence artificielle générative en donnant accès gratuitement à son modèle Llama 2 à toutes les entreprises.
Alors que OpenAI et Google dominent actuellement le marché avec leurs modèles payants, Meta propose une alternative open source et gratuite, mettant ainsi la pression sur ses concurrents. Llama 2, qui peut être intégré à des logiciels par pratiquement n'importe quelle entreprise sans frais, pourrait devenir le modèle par défaut des entreprises si OpenAI et Google ne parviennent pas à justifier le coût de leurs services par des performances supérieures.
Llama 2 est disponible via Amazon Web Services (AWS), Hugging Face et d'autres fournisseurs.
ChatGPT en berne ?
Sur Twitter et dans les communautés Discord d’IA générative (poke Ai Journey), plusieurs personnes ont remarqué une dégradation significative des performances de chatGPT-4.
Selon une étude menée par des chercheurs de Stanford et Berkeley, le taux de réussite sur un ensemble de 500 problèmes nécessitant de déterminer si un entier donné est premier, est passé de 97,6% à 2,4%(!) entre mars et juin. De plus, la génération de code s'est dégradée, avec une chute de succès de 52% à 10% sur des problèmes simples de LeetCode.
Des rumeurs suggèrent qu’Open AI a recourt à l’utilisation de multiples modèles GPT-4 spécialisés et moins coûteux;, ce qui pourrait expliquer cette baisse de qualité.
De votre côté, avez vous remarqué quelque chose ?
J’avoue ne pas avoir remarqué de changement significatif dans l’exercice de résumés de textes et de génération d’idées créatives.
Apple GPT
Selon un article de Bloomberg, Apple développe des outils d'intelligence artificielle similaires à ChatGPT d'OpenAI et à Bard de Google.
Apple a créé son propre cadre, appelé "Ajax", pour créer de grands modèles de langage (LLM) et teste également un chatbot que certains ingénieurs appellent "Apple GPT". Il serait actuellement utilisé en interne pour le prototypage de produits.
Une annonce majeure concernant l'IA est prévue par Apple pour l'année prochaine.
Champollion GPT
Une équipe multidisciplinaire d'archéologues et d'informaticiens a développé une intelligence artificielle capable de traduire presque instantanément l'akkadien, une langue sémitique primitive qui recèle de secrets pour appréhender la vie, la politique et les croyances de la Mésopotamie et ses empires de Sumer, d’Akkad, de Babylone et assyrien.
L'IA, basée sur le même principe que Google Traduction, a été formée sur un corpus de textes cunéiformes déjà bien étudiés et richement annotés. Elle a appris à traduire l'akkadien à partir des translittérations des textes originaux et à traduire directement les symboles cunéiformes. Les tests ont montré que l'IA était capable de produire des traductions de haute qualité et de reproduire les nuances de différents genres de textes. Cette avancée pourrait ouvrir des possibilités d'utilisation au-delà de la simple traduction.
Her is coming
La news “Black Mirror” de la semaine, c’est Baidu, le géant chinois de la recherche en ligne, qui introduit en Asie SynClub, un nouveau “produit social basé sur l'IA”.
SynClub offre aux utilisateurs la possibilité d'établir des connexions et d'interagir avec des avatars IA. Les utilisateurs peuvent avoir des conversations avec leurs "amis IA" sur des aspects de leur vie personnelle et de leurs émotions intimes, y compris des sujets qu'ils n'ont peut-être jamais partagés auparavant. Au fil du temps, les avatars d'IA de SynClub, qui sont disponibles 24/7, apprennent et s'adaptent aux habitudes, préférences et caractéristiques personnelles (et uniques) des utilisateurs.
Mieux vaut avoir des amis virtuels que pas d’amis du tout ? Vous avez deux heures…
Let’s talk about sex baby
La deuxième news “Black Mirror” de la semaine nous vient de Mo Gawdat, ancien Chief Business Officer de Google X et auteur du livre “la Formule du Bonheur”.
Il prédit que les robots IA vont bientôt remplacer les relations sexuelles entre humains. Selon lui, les avancées en réalité virtuelle et augmentée permettront d'avoir des expériences sexuelles indiscernables de la réalité. Gawdat affirme également que les aspects émotionnels d'une relation peuvent être recréés artificiellement par des signaux dans le cerveau, et avec des technologies comme l'implant cérébral Neuralink d'Elon Musk, il est convaincu que le besoin de partenaires humains sera éliminé. Il estime que si les gens croient que les illusions sont réelles, la question de savoir si les robots IA sont véritablement conscients est sans importance.
Le rythme accéléré du développement de l'IA garantit des collisions de plus en plus fréquentes avec des questions sociétales épineuses. Sommes-nous prêts à passer du "coup de foudre" à l'amour au 1er prompt" ?
Qu’en pensez-vous ?
Midjourney 3D
InstaVerse est un outil de création de monde 3D qui utilise l'IA pour convertir n'importe quelle image 2D en 3D, créer des environnement 3D avec un terrain réaliste, des textures de terrain, des arbres, des bâtiments et d'autres objets qui peuvent être utilisés pour créer un monde virtuel attrayant. L'outil permet également aux utilisateurs de personnaliser l'aspect de l'environnement avec différents éclairages et textures.
Vous pouvez le tester ici :
https://ilumine.ai/instaverse
AI showrunner
Fable Studio, une startup basée à San Francisco, a développé une technologie IA innovante appelée SHOW-1. Cette technologie, capable de générer des épisodes cohérents d'une série, a démontré ses capacités en créant un épisode de 22 minutes de "South Park".
Le processus de création d'un épisode complet est complexe et implique l'écriture, la production, la réalisation, la distribution, le montage, le doublage et l'animation d'épisodes de télévision. L'IA peut générer des épisodes complets de South Park, y compris l'animation, les voix et le montage, à partir d'un simple prompt de deux phrases. Edward Saatchi, PDG de Fable, a déclaré : "Les gens ont dit que l'IA ne pouvait pas raconter une histoire. Eh bien, elle le peut". Il a également affirmé que l'outil n'a pas été conçu pour éclipser les acteurs, mais plutôt pour donner un second souffle à des séries. "Après trois saisons, on connaît la formule. L’IA peut alors prendre le relais et le spectacle continuer indéfiniment", a-t-il déclaré.
Voilà qui devrait probablement alimenter la poursuite de la grève des scénaristes et des acteurs à Hollywood…
Stranger in the night
Une “reprise” de Gangsta Paradise “chantée” par Frank Sinatra est apparue récemment sur les internets. Le résultat est impressionnant à la première écoute, mais tous les fans du célèbre crooner vous le diront : c'est la voix de Sinatra, mais “ça” ne chante pas comme Sinatra.
Qu'en pensez-vous ?
Qu'on valide ou pas le projet, la question est posée : Quel impact sur l’industrie musicale ? N’importe qui peut-il faire reprendre n'importe quel titre à n'importe quel chanteur, vivant ou pas ? Dois-je destiner mes enfants à devenir Avocats dans l’industrie musicale ?
“Lace Editing”, l’auteur de ce projet a partagé un tutoriel sur sa façon de créer des covers avec l’IA, si jamais ça vous intéresse :
Le nouveau MIDJOURN3Y ?
Meta a dévoilé CM3leon, un modèle d'IA générative text-to-image qui produit des images cohérentes à partir de prompts textuels.
CM3leon utilise un mécanisme appelé "attention" pour évaluer la pertinence des données d'entrée, ce qui permet d'économiser des ressources de calcul et de rendre les modèles plus facilement parallélisables. Par rapport aux modèles concurrents, CM3leon nécessite cinq fois moins de puissance de calcul pour un résultat équivalent. Il dispose également de fonctions inédites, comme le "supervised fine-tuning" (SFT), qui vérifie la cohérence globale d'une image et permet de modifier une image générée à la volée. CM3leon peut également générer des légendes courtes ou longues et répondre aux questions sur une image particulière. Meta n'a pas encore annoncé quand CM3leon sera disponible.
AI customer service is coming
La vidéo IA virale de la semaine est très probablement cette conversation entre un potentiel client Tesla et une IA qui se fait passer pour un représentant du service clientèle.
A l’origine de cette vidéo, la société Air AI qui ambitionne de révolutionner les services clients grâce à sa solution d'IA conversationnelle. Associant une voix très réaliste à un délai de réponse minimal, Air AI veut devenir le meilleur outil de service client automatisé que nous ayons jamais vu.
Dans la réalité, c’est effectivement impressionnant même si je trouve les délais de réponse encore trop longs. Mais une fois ce problème réglé, l’illusion promet d’être parfaite, tout en proposant un paquet d’avantages pour les entreprises : Imaginez un service client disponible 24 heures sur 24, 7 jours sur 7, capable de gérer plusieurs appels simultanément et qui ne se fatigue ni ne s’agace jamais.
L'entreprise affirme pouvoir gérer des appels d'une durée de 5 à 40 minutes à l'aide de 5 000 applications uniques, ce qui permettrait aux entreprises d'employer facilement une main-d'œuvre virtuelle de 100 000 représentants. Des chiffres qui donnent déjà le tournis.
No Face GPT
OpenAI a pris des mesures pour empêcher l'utilisation généralisée de GPT-4 pour la reconnaissance faciale.
En plus des interactions basées sur le texte, GPT-4 est capable de décrire des images. Toutefois, OpenAI a modifié ses capacités de reconnaissance faciale pour n'identifier que les personnalités publiques, en réponse aux préoccupations en matière de confidentialité. La décision d'OpenAI de limiter la reconnaissance faciale a déçu certains utilisateurs, comme Jonathan Mosen, un participant aveugle à l'essai de cette fonctionnalité, qui la trouvait "extraordinaire" pour l'aider à comprendre et à interpréter le monde visuel. OpenAI communique régulièrement sur son travail actif pour répondre à ces préoccupations de sécurité et sollicite l'avis du public pour un déploiement responsable.
De l’image à la video : les tests videos IA de la semaine
Le succès de PikaLabs, un outil IA de génération de vidéo, titille les autres acteurs du marché. Ainsi, Runway Research, éditeur de l’excellent Gen-2, propose une nouvelle fonctionnalité similaire à l’une de celles proposée par PikaLabs.
Il est désormais possible de générer une vidéo à partir de n’importe quelle image. Et la bonne nouvelle; c’est que le niveau de qualité est très impressionnant !
Pour nous en rendre compte, j’ai utilisée une image que j’ai créée avec Midjourney et publiée un peu plus haut dans cette édition. La qualité de l’animation vidéo est bluffante, regardez :
Sur ce deuxième test, on remarque que Gen-2 s’adapte à tous les formats. YouTube génère un fichier 16/9, l’output de Gen-2 est en vertical :
(Cliquez sur l’image)
Au delà de l’ajout de cette nouvelle fonctionnalité réjouissante, c’est la vitesse à laquelle ces outils génératifs progressent qui me fascine. A ce rythme là, que peut on imaginer pour l’été 2024 ?
IA et Education dans IAtus
Avec mon acolyte Laura Ghazal, nous avons sorti cette semaine le “dernier épisode avant l’été” de notre podcast IAtus.
Il est disponible sur vos plateformes préférées.
Code Interpreter pour chatGPT : un outil pour quoi et pour qui ?
Vous avez probablement du en entendre parler si vous suivez de près ou de loin l’actualité de l’IA générative. ChatGPT a bénéficié récemment d’une mise à jour majeure avec l’arrivée de “Code Intepreter”, dans la version payante du chatbot.
Ce plugin ouvre de nouvelles possibilités pour chatGPT qui est maintenant capable de :
exécuter du code
analyser des données complexes
créer des graphiques
modifier des fichiers
effectuer des calculs
Code interpreter peut écrire du code en Python et manipuler des fichiers jusqu’à 100Mo (et donc des fichiers vidéo).
Sa capacité à générer du python est un upgrade significatif : lorsque l'IA travaille directement avec du code Python, le code l'aide à rester "honnête" car Python génère des erreurs si le code n'est pas correct. Et comme le code manipule les données, plutôt que le LLM lui-même, il n'y a pas d'erreurs insérées dans les données par l'IA. Ce n'est pas parfait, l'IA hallucine toujours ponctuellement, mais ces erreurs sont moins courantes et moins susceptibles d'affecter le code ou les données elles-mêmes.
En dotant ChatGPT de la capacité d'interpréter du code de sorte à devenir multimodal (c’est à dire pouvoir traiter des fichiers de différents types, et plus uniquement du texte) OpenAI franchit une étape importante dans la création d'une IA plus polyvalente et utile… sur le papier.
Comme toujours dans GENERATIVE, on aime bien tester par nous même et, le cas échéant, “débunker la hype”, si vous m’autorisez l’expression.
Etudions plusieurs cas d’utilisation de Code Interpreter :
1. Transformer une image en vidéo
C’est la fonctionnalité que le réalisateur en moi a essayé en premier. J’ai sélectionné une image que j’ai créée récemment avec Midjourney pour Adidas Combat, et plus précisément “la boutique du combat”, importateur et distributeur officielle en France de tous les produits de la gamme Adidas Combat (Judo, Karaté, Boxe, Ju Jitsu brésilien, MMA…).
En trainant sur Twitter, je suis tombé sur un prompt adapté à la création de vidéo à partir d’une image, en utilisant Code Interpreter.
Le résultat est un panoramique digital (un mouvement latéral de caméra simulé par ordinateur) sur un visuel de junk food.
Moi j’avais plutôt envie d’un zoom. J’ai commencé par un prompt un peu nonchalant, pour voir :
Pas assez d’engineering dans ce prompt, Code Interpreter a buggé
J’ai donc adapté le prompt en conséquence. De la précision que diable !
(Imageio est une bibliothèque Python pour lire et écrire des images et des vidéos)
Code Interpeter s’est tout de suite mis au boulot
Les lignes de code s’écrivaient automatiquement sous mes yeux, me rappelant avec émoi les heures passées à essayer de débugger des scripts en PL/SQL lorsque j’étais informaticien, dans une vie antérieure.
ChatGPT m’a ensuite donné un lien de téléchargement vers la vidéo. So far so good.
J’ai insta-cliqué-downloadé et ouvert le fichier avec impatience.
Mais… mais… mais… quel est ce stretch disgracieux ?
Toujours sur Twitter, je suis tombé sur un prompt beaucoup plus efficace, que j’ai testé.
Et là, bim ! Même résultat disgracieux. Je ne pouvais pas laisser passer ça. Il nous fallait avoir une petite explication tous les deux.
J’aime bien lorsque chatGPT pose des questions et y répond de lui même au fil de la conversation. Ça me donne l’impression de bien savoir lui murmurer dans le creux de l’oreille, c’est gratifiant.
”L’homme qui murmurait à l’oreille des chatbots” est un bon titre pour un prochain court-métrage assisté par l’IA, je me le note.
Au final, le résultat n’est toujours pas le bon. J’ai mis mes investigations en pause pour essayer de…
2. Transformer une image en texte
La capacité d'extraire ou de copier du texte à partir d'images est un outil puissant. Cette capacité est rendue possible grâce à la reconnaissance optique de caractères, a.k.a. OCR.
Le principe est simple : on uploade un fichier image, chatGPT nous sort un texte. Essayons avec ce modèle de devis fictif au format PNG.
On peut se montrer désinvolte ici et demander à chatGPT de nous le faire en quelques mots :
Ça a fonctionné, nous retrouvons toutes les informations du fichier PNG au format texte.
2e essai pour bien comprendre le potentiel avec cette photo :
Et le résultat
On remarque que Code Interpreter s’est concentré sur le titre en gras et a zappé les autres caractères.
Alors qu’à partir de cette photo
Il a généré la quasi-totalité du texte
Impressionnant mais encore un peu aléatoire.
3. Analyser et expliquer des données
On visualise très bien les uses cases de cette fonctionnalité :
Marketing : analyser les données clients, segmenter leur audience et créer des campagnes marketing ciblées.
Les banques pourront utiliser Code Interpreter pour faire de la modélisation financière, des prévisions et de l'analyse de risques.
Les RH y trouveront un outil pour analyser les données des employés, leurs performances et potentiellement prendre des décisions d'embauche basées sur des données.
Les organismes de santé pourront Code Interpreter pour analyser les données, identifier les tendances dans les résultats de santé et améliorer les soins aux patients.
Et bien évidemment, ils pourront faire tout ça sans taper la moindre ligne de code SQL ou Python, c’est la promesse de Code Interpreter.
Un exemple avec ce tweet de John Backus, fondateur de Cognito, une plateforme de vérification d’identité en ligne. Il raconte avoir commencé par chercher un fichier contenant des données sur la criminalité à San Francisco. Il a trouvé un fichier qu’il a transformé en .csv, compressé afin qu’il reste sous la limite des 100Mo, puis uploadé dans Code Intepreter et voici ce qu’il a obtenu :
Des visualisations des données du csv, classées par indicateur.
Un peu comme en informatique décisionnelle lorsque vous faites du reporting de bases de données avec un outil de Business Intelligence… mais en beaucoup plus agile.
Les possibilités offertes par Code Interpreter sont si vastes qu’elles pourraient faire l’objet de plusieurs articles poussés. Citons pêle mêle l'analyse de données sur une playlist Spotify, la conversion de données en site web, l'alimentation d'une fiction avec des données physiques réalistes, l'extraction de la palette de couleurs d'une image, la génération de QR Codes, la création d'une carte animée à partir d'une base de données, et la création de la pluie numérique de Matrix…. De quoi occuper vos longues soirées jusqu’à l’hiver prochain.
Si je n’ai eu qu’un aperçu de ses possibilités, j’ai bien aimé le fait que Code Interpreter soit beaucoup moins axé sur la rédaction de prompts que sur le fait d'avoir une conversation avec l'IA. En revanche, on ne va pas se mentir : c’est un outil destiné à des besoins spécifiques, et à priori à des profils techniques qui aiment bien soulever le capot et mettre les mains dans le cambouis, et qui n’ont pas forcément le temps ni l’envie d’apprendre à coder.
De toutes façons, vous le savez maintenant, coder va bientôt devenir un vestige du passé. C’est chatGPT qui me l’a dit entre les lignes.
Cette édition est maintenant terminée. Merci de l’avoir lue jusqu’au bout.
Si la lecture vous a plu, un super moyen de m’en remercier est de partager GENERATIVE en cliquant ici 👇
Je vous souhaite une excellente fin de semaine.
N’hésitez pas à me suivre sur LinkedIn et activer la cloche 🔔 pour être tenu informé des prochains posts, à consulter mon compte instagram dédié à la création assistée par l’IA, ni à me contacter pour toute proposition d’intervention, conférence, projet, formation liée à l’intelligence artificielle générative. Et bien sûr, à vous abonner à la Newsletter 👇