La Chine prend-elle de l'avance dans le domaine de la synthèse vidéo par IA ? Nous avons mis Minimax à l'épreuve.

Les générateurs de vidéos IA de la Chine poussant les mèmes vers des territoires étranges, il était temps de tester l’un d’entre eux.

Si 2022 a été l’année où les générateurs d’images d’IA se sont généralisés, 2024 a sans doute été l’année où les modèles de synthèse vidéo d’IA ont explosé en capacité. Ces modèles, bien qu’ils ne soient pas encore parfaits, peuvent générer de nouvelles vidéos à partir de descriptions textuelles appelées « prompteurs », d’images fixes ou de vidéos existantes. Après qu’OpenAI a fait parler d’elle avec Sora en février, deux grands modèles d’IA ont émergé en Chine : Kling de Kuaishou Technology et video-01 de Minimax.

Ces deux modèles chinois ont déjà alimenté de nombreux projets de vidéos virales générées par l’IA, accélérant la culture des mèmes de manière étrange, y compris une traduction récente, plan pour plan, de la chanson « Le Monde ». Princesse Mononoke qui a inspiré des menaces de mort et une série de vidéos créées avec la plate-forme de Minimax. Ces vidéos montrent une version synthétisée du chef cuisinier Gordon Ramsay en train de faire des choses ridicules.

Après 22 millions de vues et des milliers de menaces de mort, j’ai ressenti le besoin de retirer ce message pour ma propre santé mentale.
Cette bande-annonce était une EXPÉRIENCE pour montrer à mes 300 amis sur X le chemin parcouru en 16 mois.
Je la remets en ligne pour continuer la conversation. 🧵 pic.twitter.com/tFpRPm9BMv

– PJ Ace (@PJaccetturo) 8 octobre 2024

Kling est apparu pour la première fois en juin, et il peut générer deux minutes de vidéo HD 1080p à 30 images par seconde avec un niveau de détail et de cohérence qui, selon certains, surpasse Sora. Il n’est actuellement disponible que pour les personnes disposant d’un numéro de téléphone chinois, et nous ne l’avons pas encore utilisé nous-mêmes.

Vers le 1er septembre, Minimax a lancé le vidéo-01 susmentionné dans le cadre de sa Plateforme Hailuo AI. Ce site permet à quiconque de générer des vidéos à partir d’une invite, et les premiers résultats semblaient similaires à ceux de Kling. Nous avons donc décidé d’utiliser certaines de nos invites Runway Gen-3 pour voir ce qui se passait.

Mise à l’épreuve de Minimax

Nous avons généré chacune des vidéos 720p de six secondes présentées ci-dessous à l’aide de la plateforme gratuite Hailuo AI de Minimax. La génération de chaque vidéo a pris entre cinq et dix minutes, probablement en raison de la file d’attente avec d’autres utilisateurs de vidéos gratuites. (À un moment donné, le système s’est bloqué pendant quelques jours, si bien que nous n’avons pas eu l’occasion de générer un cheeseburger enflammé).

Afin de ne pas sélectionner les résultats, tout ce que vous voyez est la première génération que nous avons reçue pour l’invite indiquée au-dessus.

« Une personne très intelligente qui lit ‘Ars Technica’ sur son ordinateur lorsque l’écran explose.

« Un chat dans une voiture buvant une canette de bière, publicité pour la bière ».

« Will Smith mangeant des spaghettis

« Des animaux humanoïdes robotisés avec des costumes de vaudeville parcourent les rues pour collecter l’argent de la protection sous forme de jetons.

« Un joueur de basket-ball dans un wagon de train hanté avec un terrain de basket-ball, et il joue contre une équipe de fantômes.

« Un troupeau d’un million de chats courant sur une colline, vue aérienne.

« Séquence vidéo d’un jeu de plateforme dynamique en 3D à la troisième personne des années 1990 mettant en scène un garçon requin anthropomorphe »

« Un barbare musclé brisant un téléviseur CRT avec une arme, cinématique, 8K, éclairage de studio »

Limites des modèles de synthèse vidéo

Dans l’ensemble, les résultats de Minimax video-01 présentés ci-dessus sont assez similaires à ceux de Gen-3, avec quelques différences, comme l’absence de filtre de célébrité pour Will Smith (qui, malheureusement, n’a pas mangé les spaghettis lors de nos tests), ainsi que des mains de chat et un mouvement de léchage plus réalistes. Certains résultats étaient bien pires, comme le million de chats et le lecteur d’Ars Technica.

Comme nous l’avons expliqué dans notre Test pratique de la Gen-3 Alpha de Runway, les modèles texte-vidéo excellent généralement dans la combinaison de concepts présents dans leurs données d’apprentissage (échantillons vidéo existants utilisés pour créer le Modèle), ce qui permet de créer des mashups créatifs de thèmes et de styles existants. Cependant, ces modèles d’IA ont souvent du mal à se généraliser, ce qui signifie qu’ils ont des difficultés à appliquer les informations apprises à des scénarios entièrement nouveaux qui ne sont pas représentés dans leurs données d’apprentissage.

Cette limitation peut conduire à des résultats inattendus ou involontaires lorsque les utilisateurs demandent des scénarios qui s’écartent trop des exemples de formation du modèle. Alors que nous avons obtenu un résultat très comique pour le chat buvant de la bière dans le test Gen-3, Minimax a produit un résultat plus réaliste, ce qui pourrait s’expliquer par une meilleure analyse de l’invite, des données d’entraînement différentes, plus de calcul dans l’entraînement du modèle, ou une architecture de modèle différente. En fin de compte, il y a encore beaucoup d’essais et d’erreurs à faire pour obtenir un résultat cohérent.

Il convient de noter que si les modèles chinois semblent correspondre aux modèles de synthèse vidéo américains du début de l’année, les entreprises technologiques américaines ne restent pas inactives. Google a présenté Veo en mai avec des démonstrations très impressionnantes. La semaine dernière, nous avons présenté le modèle Movie Gen de Meta, qui semble (sans utiliser le modèle de Meta nous-mêmes) avoir une longueur d’avance sur Minimax et Kling. Mais il ne fait aucun doute que les serveurs chinois travaillent en ce moment même à l’entraînement de nouveaux modèles vidéo d’IA, de sorte que cette course à l’armement en matière de deepfake n’est probablement pas près de ralentir.

Jad Marchy

+ posts

Jad MARCHI est un ardent défenseur de la technologie, passionné par son potentiel de transformation. Ayant accumulé une décennie d’expérience dans le secteur technologique, Jean a travaillé sur une variété de projets innovants qui l’ont amené à comprendre le paysage changeant de ce domaine. Il est fasciné par l’évolution rapide de la technologie et son impact sur notre société. Que ce soit l’intelligence artificielle, la robotique, la blockchain ou la cybersécurité, il est toujours à la recherche des dernières tendances. Ses articles cherchent à informer, à inspirer et à provoquer des réflexions sur la façon dont la technologie façonne notre avenir.

Mise à l’épreuve de Minimax

Limites des modèles de synthèse vidéo

Jad Marchy

Log In

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Hey Friend!Before You Go…

Hey Friend!
Before You Go…