L’IA bon marché de « scraping vidéo » peut désormais extraire des données de n’importe quel enregistrement d’écran.

L'IA bon marché de "scraping vidéo" peut désormais extraire des données de n'importe quel enregistrement d'écran.


Un chercheur introduit des enregistrements d’écran dans Gemini pour en extraire facilement des informations précises.

Récemment, Simon Willison, chercheur en IA, a voulu faire le total de ses frais d’utilisation d’un service en nuage, mais les valeurs de paiement et les dates dont il avait besoin étaient éparpillées dans une douzaine de courriels différents. Il aurait été fastidieux de les saisir manuellement. Il s’est donc tourné vers une technique qu’il appelle le « grattage vidéo », qui consiste à introduire une vidéo d’enregistrement d’écran dans un Modèle d’IA, similaire à ChatGPT, à des fins d’extraction de données.

Ce qu’il a découvert semble simple en apparence, mais la qualité du résultat a des implications plus profondes pour l’avenir des assistants d’IA, qui pourraient bientôt être en mesure de voir et d’interagir avec ce que nous faisons sur nos écrans d’ordinateur.

« L’autre jour, je me suis retrouvé à devoir additionner des valeurs numériques dispersées dans douze courriels différents », a écrit M. Willison dans un billet détaillé sur son blog. Il a enregistré une vidéo de 35 secondes en faisant défiler les courriels concernés, puis l’a introduite dans l’outil AI Studio de Google, qui permet d’expérimenter plusieurs versions des modèles d’IA Gemini 1.5 Pro et Gemini 1.5 Flash de Google.

M. Willison a ensuite demandé à Gemini d’extraire les données de prix de la vidéo et de les organiser dans un format de données spécial appelé JSON (JavaScript Object Notation), qui comprend des dates et des montants en dollars. Le modèle d’IA a réussi à extraire les données, que M. Willison a ensuite formatées sous forme de tableau CSV (valeurs séparées par des virgules) pour l’utilisation d’une feuille de calcul. Après avoir vérifié deux fois qu’il n’y avait pas d’erreurs dans le cadre de son expérience, il a été surpris par la précision des résultats et par le coût de l’analyse vidéo.

Capture d’écran de Simon Willison utilisant Google Gemini pour extraire des données d’une capture d’écran vidéo.

Capture d’écran de Simon Willison utilisant Google Gemini pour extraire des données d’une capture d’écran vidéo.


Crédit :

Simon Willison

« Le coût [of running the video model] est si faible que j’ai dû refaire mes calculs trois fois pour m’assurer que je n’avais pas fait d’erreur », a-t-il écrit. M. Willison affirme que l’ensemble du processus d’analyse vidéo a ostensiblement coûté moins d’un dixième de centime, en utilisant seulement 11 018 jetons sur le modèle Gemini 1.5 Flash 002. En fin de compte, il n’a rien payé car Google AI Studio est actuellement gratuit pour certains types d’utilisation.

Le grattage vidéo n’est qu’une des nombreuses nouvelles astuces possibles lorsque les derniers grands modèles de langage (LLM), tels que Gemini et GPT-4o de Google, sont en fait des modèles « multimodaux », permettant la saisie d’audio, de vidéo, d’images et de texte. Ces modèles traduisent toute entrée multimédia en jetons (morceaux de données), qu’ils utilisent pour prédire quels jetons doivent suivre dans une séquence.

Un terme comme « modèle de prédiction de jeton » (MPT) pourrait être plus précis que « LLM » de nos jours pour les modèles d’IA avec des entrées et des sorties multimodales, mais un terme alternatif généralisé n’a pas encore vraiment pris son envol. Mais quel que soit le nom qu’on lui donne, le fait de disposer d’un modèle d’IA capable de prendre en compte des entrées vidéo a des implications intéressantes, à la fois bonnes et potentiellement mauvaises.

Faire tomber les barrières d’entrée

Willison est loin d’être le premier à introduire des vidéos dans des modèles d’IA pour obtenir des résultats intéressants (nous y reviendrons plus loin, et voici un article de 2015 qui utilise le terme « scraping vidéo »), mais dès que Gemini a lancé sa capacité d’entrée vidéo, il a commencé à l’expérimenter sérieusement.

En février, M. Willison a présenté sur son blog une autre application précoce de l’IA par grattage vidéo : il a pris une vidéo de sept secondes des livres sur ses étagères, puis a demandé à Gemini 1.5 Pro d’extraire tous les titres de livres qu’il avait vus dans la vidéo et de les placer dans une liste structurée, ou organisée.

La conversion de données non structurées en données structurées est importante pour Willison, car il est également journaliste spécialisé dans les données. Par le passé, il a créé des outils pour les journalistes de données, tels que le projet Datasette, qui permet à quiconque de publier des données sur un site Web interactif.

À la grande frustration de tout journaliste de données, certaines sources de données s’avèrent résistantes au scraping (capture de données à des fins d’analyse) en raison de la manière dont les données sont formatées, stockées ou présentées. Dans ce cas, M. Willison se réjouit du potentiel de l’IA pour le scraping vidéo, car elle permet de contourner ces obstacles traditionnels à l’extraction de données.

« Il n’existe aucun niveau d’authentification de site web ou de Technologie anti-scraping qui puisse m’empêcher d’enregistrer une vidéo de mon écran pendant que je clique manuellement à l’intérieur d’une application web », a indiqué M. Willison sur son blog. Sa méthode fonctionne pour tout contenu visible à l’écran.

La vidéo est le nouveau texte

Illustration d'un globe oculaire cybernétique.

Illustration d’un globe oculaire cybernétique.

Illustration d’un globe oculaire cybernétique.


Crédit :

Getty Images

La facilité et l’efficacité de la technique de Willison reflètent un changement notable en cours dans la manière dont certains utilisateurs interagissent avec les modèles de prédiction de jetons. Plutôt que de demander à un utilisateur de coller ou de taper manuellement des données dans une boîte de dialogue ou de détailler chaque scénario à un chatbot sous forme de texte, certaines Applications d’IA travaillent de plus en plus avec des données visuelles capturées directement à l’écran. Par exemple, si vous avez des difficultés à naviguer dans la terrible interface d’un site de pizzas, un modèle d’IA pourrait intervenir et effectuer les clics de souris nécessaires pour commander la pizza à votre place.

En fait, le scraping vidéo est déjà dans le collimateur de tous les grands laboratoires d’IA, même s’il est peu probable qu’ils l’appellent ainsi pour l’instant. Les entreprises technologiques parlent plutôt de « compréhension vidéo » ou simplement de « vision ».

En mai, OpenAI a présenté une version prototype de son application Mac ChatGPT avec une option permettant à ChatGPT de voir et d’interagir avec ce qui se trouve sur votre écran, mais cette fonctionnalité n’a pas encore été livrée. Microsoft a présenté au début du mois un prototype similaire de « Copilot Vision » (basé sur la technologie d’OpenAI) qui sera capable de « regarder » votre écran et de vous aider à extraire des données et à interagir avec les applications que vous exécutez.

Malgré ces recherches, ChatGPT d’OpenAI et Claude d’Anthropic n’ont pas encore mis en œuvre une fonction d’entrée vidéo publique pour leurs modèles, probablement parce qu’il est relativement coûteux en termes de calcul de traiter les jetons supplémentaires d’un flux vidéo « tokenisé ».

Pour l’instant, Google subventionne largement les coûts de l’IA des utilisateurs grâce à son trésor de guerre provenant des revenus de la recherche et à une flotte massive de centres de données (pour être juste, OpenAI subventionne également, mais avec des dollars d’investisseurs et l’aide de Microsoft). Mais les coûts de calcul de l’IA en général baissent de jour en jour, ce qui permettra à une base d’utilisateurs plus large d’accéder à de nouvelles capacités de la technologie au fil du temps.

Contrer les problèmes de protection de la vie privée

Comme vous pouvez l’imaginer, le fait qu’un modèle d’IA puisse voir ce que vous faites sur votre écran d’ordinateur peut avoir des inconvénients. Pour l’instant, la récupération de vidéos est une bonne chose pour Willison, qui utilisera sans aucun doute les données capturées de manière positive et utile. Mais il s’agit également d’un aperçu d’une capacité qui pourrait être utilisée ultérieurement pour porter atteinte à la vie privée ou espionner de manière autonome les utilisateurs d’ordinateurs à une échelle qui était autrefois impossible.

Une autre forme de scraping vidéo a récemment suscité une énorme vague de controverse pour cette raison précise. Des applications telles que Rewind AI sur Mac et Recall de Microsoft, qui est en cours d’intégration dans Windows 11, fonctionnent en introduisant des vidéos à l’écran dans un modèle d’IA qui stocke les données extraites dans une base de données en vue d’un rappel ultérieur par l’IA. Malheureusement, cette approche pose également des problèmes potentiels en matière de protection de la vie privée, car elle enregistre tout ce que vous faites sur votre machine et le place dans un endroit unique qui pourrait être piraté par la suite.

Illustration d'une femme se tenant devant un gros globe oculaire.

Crédit :

Getty Images | Benj Edwards

À cet égard, bien que la technique de M. Willison consiste actuellement à télécharger une vidéo de ses données vers Google pour traitement, il se réjouit de pouvoir encore décider de ce que le modèle d’IA voit et quand il le voit.

« L’avantage de cette technique de récupération de vidéos est qu’elle fonctionne avec tout ce que vous pouvez voir sur votre écran… et qu’elle vous permet de contrôler totalement ce que vous finissez par exposer au modèle d’IA », explique M. Willison dans son billet de blog.

Il est également possible qu’à l’avenir, un modèle d’IA à poids ouvert exécuté localement puisse appliquer la même méthode d’analyse vidéo sans avoir besoin d’une connexion au nuage. Microsoft Recall fonctionne localement sur les appareils pris en charge, mais il exige toujours une grande confiance non méritée. Pour l’instant, Willison se contente d’alimenter sélectivement les modèles d’IA en données vidéo lorsque le besoin s’en fait sentir.

« Je pense que j’utiliserai cette technique beaucoup plus souvent à l’avenir », a-t-il écrit, et peut-être que beaucoup d’autres l’utiliseront aussi, sous différentes formes. Si l’on se fie au passé, M. Willison, qui a inventé le terme « injection rapide » en 2022, semble toujours avoir quelques longueurs d’avance dans l’exploration de nouvelles applications des outils d’IA. À l’heure actuelle, son attention se porte sur les nouvelles implications de l’IA et de la vidéo, et la vôtre devrait probablement en faire autant.

Jad Marchy
+ posts

Jad MARCHI est un ardent défenseur de la technologie, passionné par son potentiel de transformation. Ayant accumulé une décennie d’expérience dans le secteur technologique, Jean a travaillé sur une variété de projets innovants qui l’ont amené à comprendre le paysage changeant de ce domaine. Il est fasciné par l’évolution rapide de la technologie et son impact sur notre société. Que ce soit l’intelligence artificielle, la robotique, la blockchain ou la cybersécurité, il est toujours à la recherche des dernières tendances. Ses articles cherchent à informer, à inspirer et à provoquer des réflexions sur la façon dont la technologie façonne notre avenir.

Back to Top
close

Log In

Forgot password?

Forgot password?

Enter your account data and we will send you a link to reset your password.

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Here you'll find all collections you've created before.

Hey Friend!
Before You Go…

Get the best viral stories straight into your inbox before everyone else!

Don't worry, we don't spam

Close
Close