Salut les lecteurs en voie de transhumanisation, bienvenu dans cette nouvelle édition de GENERATIVE, la newsletter épaisse qui résume l’actu bouillonnante de l’intelligence artificielle générative et vous présente des projets avec de l’IA dedans.
Au sommaire cette semaine :
Les (très grosses) news de la semaine
Podcast Comptoir IA en impro
Une keynote IA à Station F
Mon dernier projet vidéo-vocal IA pour Campari
OpenAi Strikes hard
La très grosse news de la semaine, c’est OpenAI qui dévoile GPT-4o, un nouveau modèle multimodal avancé qui intègre le traitement du texte, de la vision et de l'audio, et établit de nouvelles références en matière de performance.
Le modèle offre des améliorations significatives par rapport à GPT-4 Turbo dans les domaines du texte, de la vision, de l'audio, du codage et des générations non anglophones, tout en étant 50% moins cher, avec des limites de taux 5 fois supérieures et une vitesse de génération 2 fois plus rapide que les modèles précédents.
De nouvelles capacités vocales ont été introduites, notamment des réponses en temps réel (on parle de 300 millisecondes vs 5 secondes avec chatGPT 4), la détection et la réponse aux émotions, ainsi que la combinaison de la voix avec le texte et la vision. Une démonstration a mis en avant des prouesses telles que la traduction en direct, l'analyse vidéo en direct par deux modèles d'IA, et l'utilisation de la voix et de la vision pour le tutorat et l'assistance au codage.
Le blog d'OpenAI a également détaillé des avancées telles que la génération 3D, la création de polices, d'énormes améliorations de la génération de texte dans les images, la synthèse d'effets sonores, et plus encore. OpenAI a également annoncé une nouvelle application de bureau ChatGPT pour macOS avec une interface utilisateur remaniée, s'intégrant directement dans les flux de travail informatiques.
GPT-4o, les GPTs et des fonctionnalités telles que la mémoire et l'analyse de données sont désormais disponibles gratuitement pour tous les utilisateurs, apportant pour la première fois des capacités avancées au niveau gratuit.
Sur les internets, le débat fait rage entre ceux qui parlent d’”avancée révolutionnaire” et ceux qui mentionnent une “évolution mineure”. On verra à l’usage mais la vérité doit probablement se situer quelque part entre les deux.
Her
Synthesia, plateforme de génération d’avatars concurrente de Heygen, en a profité pour récupérer la vidéo d’OpenAI pour une démo qui nous rapproche définitivement du film “Her” (Spike Jonze, 2014). Voilà ce qui s’appelle surfer la vague de la hype.
MultiTasking augmenté
D’ailleurs, Sam Altman dit qu’il utilise le nouveau GPT-4o comme assistant vocal à temps plein pendant qu’il travaille. Moi qui ai toujours 75 onglets ouvert dans mon navigateur, je suis curieux d’essayer sa technique.
Google strikes back
Du coup, Google avait la très grosse pression pour ses annonces lors de sa conférence annuelle I/O. Les voici :
→ Un moteur de recherche dopé à l'IA générative. Au lieu d'une liste de liens, l'utilisateur obtient une réponse de Gemini et peut cliquer sur des suggestions pour approfondir sa requête.
.→ Le projet Astra, un assistant intelligent similaire à GPT-4o, capable d’interagir de manière très naturelle avec un humain.
→ Gemini 1.5 : La version Pro Gemini 1.5 Pro, double la fenêtre de contexte de traitement des données pour atteindre les 2 millions de tokens de mémoire.
Pour vous faire un idée, chatGPT 3.5 (la version gratuite), c‘est 8000 token.
→ Gemini va être intégré à Android 15 et remplace Google Assistant. Miam Miam.
→ Avec les Gems, Google veut ses propres GPTs. La compétition avec le GPT Store d'OpenAI est lancée.
Que pensez-vous de ces nouveautés ? Révolution en cours ou effets d’annonces pour entretenir la hype et l’intérêt du public ? (Et celui des financeurs)
Qui VEOra Sora
J’en ai parlé cette semaine sur Linkedin, Google a également annoncé VEO, un générateur de vidéo qui se pose d’ores et déjà comme un concurrent potentiellement sérieux pour SORA d’OpenAI.
Voir passer toutes ces démos sans pouvoir tester aucun outil est pour moi une torture que je ne souhaiterais pas à mon pire ennemi. Hashtag impatience.
Fausse bonne idée ?
Puisqu’on parle d’OpenAI, son PDG Sam Altman a proposé un nouveau concept appelé "universal basic compute". Cette idée suggère que chaque individu devrait posséder une part d'un grand modèle de langage comme GPT-7, qu'il pourrait utiliser, revendre ou donner pour la recherche. Altman, qui soutient depuis longtemps le revenu de base universel, voit cette approche comme un filet de sécurité face à la menace de l'IA sur l'emploi. Bien que les détails restent flous, cette proposition risque de susciter des réactions mitigées. Une idée qui pourra sembler pertinente aux geeks de la silicon valley, mais probablement absconse pour la majorité de la population.
On en pense quoi ?
IA et recherche médicale
Une analyse des essais cliniques de molécules découvertes par l'IA dans les entreprises de biotechnologie spécialisées a montré un taux de réussite de 80 à 90% en Phase I, bien supérieur à la moyenne historique de l'industrie, suggérant la capacité de l'IA à identifier des molécules aux propriétés médicamenteuses. En Phase II, le taux de réussite de 40% est comparable à la moyenne de l'industrie. Malgré un échantillon restreint, ces résultats sont encourageants quant au potentiel clinique de l'IA.
Claude a enfin son passeport !
Un de mes LLM préférés, Claude, de la société Anthropic, débarque enfin en Europe ! Jusqu’ici, il fallait recourir à un VPN pour pouvoir l’utiliser. Rival de ChatGPT, Claude peut générer du texte, résumer des documents, produire du code et traduire du contenu. Il est accessible gratuitement avec certaines restrictions, mais aussi via deux formules payantes pour les particuliers et les professionnels. La version gratuite est alimentée par le modèle Sonnet, tandis que la formule Pro (18€HT/mois) débloque tous les modèles, dont Claude 3 Opus. Une formule Team (28€HT/mois) est destinée aux entreprises pour traiter des sujets complexes et gérer plusieurs utilisateurs.
Pour l’essayer, c’est par ici.
Imagen 3
Google Deepmind lance Imagen 3, un nouveau générateur d’images. Imagen 3 serait capable de rendre avec précision les petits détails et les textures complexes. Il comprend mieux les instructions écrites par les utilisateurs et intègre les détails des textes plus longs. Des filtres de données et des technologies de sécurité ont été mis en place pour minimiser les contenus préjudiciables. Vivement que ça sorte qu’on puisse mettre les mains dans le cambouis.
Prompt-to-3D
Un nouveau document sur l'intelligence artificielle, CAT3D, révolutionne la création de modèles 3D à partir d'images 2D. Cette technologie permet de transformer rapidement une simple image ou un petit ensemble d'images en modèles 3D complexes, utilisant une architecture inspirée des modèles de diffusion vidéo et intégrant des positions de caméra pour chaque image. Les vues générées alimentent ensuite un robuste processus de reconstruction 3D, simplifiant ainsi la modélisation de la réalité ou des créations artistiques en trois dimensions.
IALS revient
J’ai eu le plaisir d’être interviewé par Nathalie Dupuy, la talentueuse auteure du web magazine IALS, aux côtés de camarades comme Rémi Rostan, Emmanuel Vivier, Stéphane Galienni, mais aussi le groupe FFF et le musicien Sinclair dont j’ignorais qu’il était hyper pointu sur Stable Diffusion.
La mise en page est super professionnelle et les contenus passionnants.
A découvrir ICI
La Rumeur
Bien que non officiellement confirmé, Bloomberg rapporte qu'Apple serait sur le point de conclure un accord avec OpenAI pour intégrer ChatGPT dans les iPhones. Cet accord offrirait au monde un assistant virtuel digne de ce nom, celui que tout le monde attend depuis la sortie de Siri en 2011.
Pourra t-on bientôt dire “Dis Siri, réponds à mes emails, identifie et démarche 3 prospects sur Linkedin, rédige ma newsletter et compose moi une playlist un peu énervée pour ma séance de sport” ?
Le futur que nous réserve t-il ?
Selon une enquête de Deloitte auprès de 23 000 travailleurs de 44 pays, les générations Z et millennials sont “prudemment optimistes” quant à l'impact de l'IA, mais préoccupées par la sécurité de l'emploi. 60% des travailleurs pensent que l'automatisation supprimera des emplois, et seule une minorité estime recevoir une formation adéquate sur l'IA. Malgré cela, plus de la moitié des répondants prévoient de se reconvertir pour s'adapter aux impacts de l'IA sur leur carrière.
Deepfakes
En Inde, l'essor de l'investissement boursier est accompagné d'une prolifération d'arnaqueurs qui utilisent l'IA pour créer des deepfakes. La Bourse de Bombay a déposé plainte après la diffusion d'une vidéo falsifiée du président Sundararaman Ramamurthy. Ces vidéos exploitent la confiance des investisseurs débutants envers des influenceurs financiers. La fraude est tellement répandue que la banque centrale enregistre des centaines de milliers de cas, pour un montant total considérable, on parle d’un montant total dépassant les 300 milliards de roupies (3.3 Milliards €)
Procès, suite
Dans l'affaire opposant plusieurs artistes à Midjourney, Stable Diffusion et DeviantArt pour violation de copyright, un juge californien a autorisé la poursuite de la procédure. Les faits concernant le fonctionnement et l'utilisation des modèles de diffusion seront examinés à la lumière de la jurisprudence et de la loi sur le copyright. Cette affaire pourrait avoir un impact important sur les lois qui protègent les œuvres à l'ère de l'intelligence artificielle. A suivre de près donc.
Reebok Impact
Reebok vient de lancer une campagne qui permet de créer ses propres sneakers digitales grâce à l'IA générative. La marque invite les utilisateurs à soumettre des images via un chatbot sur Instagram. Ces images sont ensuite transformées en motifs uniques sur des modèles iconiques comme la Reebok Pump, la Classic ou la Club C.
J’ai essayé avec la photo de gauche et j’ai obtenu la sneaker de droite. Mouais. Bof.
PODCAST SURPRISE
Mardi dernier, j’étais inconfortablement assis dans un TGV OUIGO (je les évite comme la peste noire mais parfois, je n’ai pas d’autre alternative) en direction de Paris, lorsque je reçois un message Whatsapp du camarade Nicolas Guyon dans son inimitable style télégraphique de slasher overbooké :
“Episode GPT4-o à 11h30 ?! 30 min”
Sur le coup, je ne sais pas si le message m’est destiné ou si c’est un missclick. Nicolas reçoit de telles pointures dans son podcast Comptoir IA, que je doute qu’il s’adresse à à un non spécialiste absolu pour parler de GPT4-o à l’antenne, de surcroit sans préparation.
En joueur d’échecs averti, je joue un coup d’attente :
”Tu enregistres ?”
”Yes à 3, tu joins ?”
Je suis pris au dépourvu, je n’ai rien préparé, je ne sais pas ce que je vais raconter.
Inconfortable mais un challenge intéressant. Comme l’avoue Mike Tyson au sujet de son prochain combat de boxe à l’âge de 58 ans : “Quand j’ai peur, c’est le signe que je dois le faire.”
11h30, je me connecte et je découvre mes camarades de discussion :
Tariq Krim, web-entrepreneur, notamment fondateur de Netvibes et du think tank Cybernetica. Je l’ai déjà croisé au meetup Comptoir IA.
Une pointure.
Brivael Le Pogam, serial entrepreneur, petit génie de la tech et co-founder de la startup Argil.ai. Je le croise régulièrement aux events IA.
Un mec brillant.
Laurent Alexandre, haut fonctionnaire, chirurgien, entrepreneur, créateur de Doctissimo.fr, chroniqueur, écrivain (auteur de “La Guerre des Intelligences”), futurologue et tellement habitué des plateaux TV que même ta mère connait son visage et sa voix.
Une bête médiatique.
Et c’est moi qui parle en dernier. C’est un peu comme tirer un penalty après M’Bappé, Giroud et Griezmann. La pression.
Est-ce que ça se voit sur le screenshot ci-dessous que je suis en train de suer à réfléchir intensément à un truc pertinent à ajouter aux réflexions inspirées de mes brillants collègues du jour ?
Merci à Nicolas pour cette invitation impromptue. C’est pas tous les jours qu’on passe dans “Comptoir IA” !
Voici l’épisode :
KEYNOTE IA A STATION F
Jeudi, j'ai eu le plaisir de prendre la parole lors du DIMS 2024, l'événement annuel de référence de l'innovation organisé par l'IMA - Innovation Makers Alliance, principal consortium francophone de directions technologiques et Innovation, qui regroupe 130 grands groupes, ETI, et administrations françaises.
Une chouette opportunité de présenter mon travail et mes outils favoris d'IA générative (avec un comparatif Midjourney-DALL-E, Leonardo, SDXL, Musavir, Letz AI et Firefly) avant de clore sur une session d'open prompting sur Midjourney et en composant un tube avec ChatGPT4-o et Udio, en moins de 3 minutes et dans la bonne humeur.
C’était un honneur de d'intervenir lors d'un événement à STATION F, où j'avais jusqu'à présent l'habitude de m'installer parmi les auditeurs.
COCKTAIL VOCAL
Récemment, j'ai eu l'opportunité de travailler sur un projet IA amusant pour la célèbre marque italienne CAMPARI. L'objectif était de créer une vidéo interne originale en détournant des séquences de films cultes. Le concept central consistait à modifier des scènes où les personnages commandent un cocktail, en remplaçant le nom du cocktail d'origine par un cocktail Campari, grâce à l'intelligence artificielle générative.
Pour relever ce défi, j'ai eu recours à plusieurs techniques.
Tout d'abord, j'ai utilisé ElevenLabs pour trouver des voix similaires à celles des acteurs originaux, comme Jack Nicholson dans "Shining" ou John Cazale dans "Le Parrain". Cela m'a permis de faire prononcer aux personnages le nom du cocktail Campari de manière naturelle.
Comme ElevenLabs ne permet pas de cloner les voix de personnalités reconnues, j'ai exploré d'autres options. C'est ainsi que j'ai utilisé Speechify, qui m'a offert d'excellents résultats, notamment pour reproduire la voix inimitable de Matthew McConaughey ou celle de Jane Fonda.
Afin de peaufiner le rendu final, j'ai utilisé le lipsync de RunwayML sur les visages de Jack Nicholson et Taron Egerton. Bien que le résultat ne soit pas parfait à 100%, cette technique a sensiblement amélioré la synchronisation labiale par rapport à un simple remplacement audio. Malheureusement, il n'a pas été possible d'appliquer le lipsync aux visages de profil.
Enfin, pour ajouter une touche finale d’IA, j'ai créé une musique à l'aide de la plateforme Udio.
Voilà le résultat :
Cette édition est terminée, merci de l’avoir lue jusqu’ici ! Si elle vous a plu, vous pouvez la partager en cliquant juste ici :
Vous pouvez également me suivre sur LinkedIn et activer la cloche 🔔, je poste régulièrement sur l’intelligence artificielle générative. Vous pouvez également me contacter pour toute proposition de création, intervention, conférence, projet, formation liée à l’intelligence artificielle générative.
Et n’oubliez pas de vous abonner pour ne rien rater des prochaines éditions 👇
Toujours très intéressant merci
Et bravo pour le passage sur comptoir IA, un super épisode, vous n'avez pas démérité. ;)