Le nouveau système d'IA "Movie Gen" de Meta peut falsifier une vidéo à partir d'une simple photo

Un avenir où les vidéos truquées réalistes seront faciles et nombreuses semble inévitable.

Vendredi, Meta a annoncé en avant-première Movie Gen, une nouvelle suite de modèles d’IA conçus pour créer et manipuler des vidéos, du son et des images, y compris la création d’une vidéo réaliste à partir d’une simple photo d’une personne. L’entreprise affirme que les modèles surpassent les autres modèles de synthèse vidéo lorsqu’ils sont évalués par des humains, ce qui nous rapproche d’un avenir où n’importe qui pourra synthétiser une vidéo complète de n’importe quel sujet à la demande.

L’entreprise ne sait pas encore quand ni comment elle mettra ces capacités à la disposition du public, mais Meta affirme que Movie Gen est un outil qui peut permettre aux gens d' »améliorer leur créativité inhérente » plutôt que de remplacer les artistes et les animateurs humains. L’entreprise envisage des Applications futures telles que la création et l’édition aisées de vidéos « d’une journée dans la vie » pour les plateformes de médias sociaux ou la génération de vœux d’anniversaire animés personnalisés.

Movie Gen s’appuie sur les travaux antérieurs de Meta en matière de synthèse vidéo, après le générateur vidéo Make-A-Scene de 2022 et le Modèle de synthèse d’images Emu. S’appuyant sur des guides textuels, ce dernier système peut pour la première fois générer des vidéos personnalisées avec des sons, éditer et insérer des modifications dans des vidéos existantes, et transformer des images de personnes en vidéos personnalisées réalistes.

Vidéo générée par l’IA d’un bébé hippopotame en train de nager, créée avec Meta Movie Gen.

Meta n’est pas le seul acteur en ville dans le domaine de la synthèse vidéo par l’IA. Google a présenté un nouveau modèle appelé « Veo » en mai, et Meta affirme que dans les tests de préférence humaine, ses sorties Movie Gen ont battu Sora d’OpenAI, Runway Gen-3 et le modèle vidéo chinois Kling.

Le modèle de génération vidéo de Movie Gen peut créer des vidéos haute définition 1080p d’une durée maximale de 16 secondes à 16 images par seconde à partir de descriptions textuelles ou d’une image. Meta affirme que le modèle peut gérer des concepts complexes tels que le mouvement des objets, les interactions sujet-objet et les mouvements de caméra.

Vidéo générée par l’IA de Meta Movie Gen avec l’invite : « Un fantôme vêtu d’un drap blanc fait face à un miroir. Le reflet du fantôme est visible dans le miroir. Le fantôme se trouve dans un grenier poussiéreux, rempli de vieilles poutres et de meubles recouverts de tissu. Le grenier se reflète dans le miroir. La lumière est fraîche et naturelle. Le fantôme danse devant le miroir ».

Néanmoins, comme nous l’avons vu avec les précédents générateurs de vidéos d’IA, la capacité de Movie Gen à générer des scènes cohérentes sur un sujet particulier dépend probablement des concepts trouvés dans les vidéos d’exemple que Meta a utilisées pour entraîner son modèle de synthèse vidéo. Il convient de garder à l’esprit que les résultats des générateurs de vidéos sélectionnés diffèrent souvent considérablement des résultats typiques et que l’obtention d’un résultat cohérent peut nécessiter de nombreux essais et erreurs.

En ce qui concerne les données d’entraînement, Meta affirme avoir entraîné ces modèles sur une combinaison d' »ensembles de données sous licence et accessibles au public », ce qui inclut très probablement des vidéos téléchargées par les utilisateurs de Facebook et d’Instagram au fil des ans, bien qu’il s’agisse d’une spéculation basée sur les politiques actuelles de Meta et sur son comportement antérieur.

La nouvelle avant-garde des deepfakes vidéo

Meta appelle l’une des principales caractéristiques de Movie Gen « création vidéo personnalisée », mais il existe un autre nom pour cela qui existe depuis 2017 : les deepfakes. La Technologie des deepfakes a suscité l’inquiétude de certains experts car elle pourrait être utilisée pour simuler des séquences de caméra authentiques, faisant apparaître des personnes comme ayant fait des choses qu’elles n’ont pas réellement faites.

Une vidéo deepfake de Movie Gen avec le message suivant : « Une femme est assise sur l’herbe d’un champ de citrouilles. Elle porte une écharpe et tient une tasse. L’arrière-plan est rempli de rangées de citrouilles. » La photo source se trouve dans le coin supérieur droit.

Dans ce cas, la création d’un deepfake avec Movie Gen semble aussi simple que de fournir une seule image d’entrée d’une personne, accompagnée d’un texte décrivant ce que vous voulez qu’elle fasse ou l’endroit où vous voulez qu’elle se trouve dans la vidéo résultante. Le système génère ensuite une vidéo mettant en scène cette personne, en s’efforçant de préserver son identité et ses mouvements tout en incorporant les détails de l’invite.

Une vidéo deepfake de Movie Gen avec l’invitation : « Faites une jolie vidéo selfie d’un homme et de son chien. L’homme porte une chemise noire. Le chien est un chiot beagle. L’arrière-plan est un patio, rempli d’arbres. L’homme a un grand sourire, alors qu’il essaie de prendre le selfie parfait avec son chien. L’éclairage est chaud. La photo source originale se trouve dans le coin supérieur droit.

Cette technologie pourrait être utilisée de multiples façons, notamment pour créer des vidéos humiliantes, mettre des personnes dans de fausses situations compromettantes, fabriquer un contexte historique ou générer de la pornographie vidéo truquée. Elle nous rapproche d’une singularité culturelle où la vérité et la fiction dans les médias sont impossibles à distinguer sans un contexte plus approfondi, grâce à la synthèse fluide et éventuellement en temps réel des médias par l’IA.

En avril, Microsoft a présenté un modèle appelé VASA-1 qui peut créer une vidéo photoréaliste d’une personne parlant à partir d’une seule photo et d’une seule piste audio, mais Movie Gen va plus loin en plaçant une personne simulée dans une scène vidéo, générée par l’IA ou autre. Movie Gen ne semble toutefois pas encore pouvoir générer ou synchroniser la parole.

Montage et synthèse sonore

Meta a également présenté un composant d’édition vidéo de Movie Gen, qui permet d’apporter des modifications précises à des vidéos existantes sur la base d’instructions textuelles. Il peut effectuer des modifications localisées telles que l’ajout ou la suppression d’éléments, ainsi que des changements globaux tels que la modification de l’arrière-plan ou du style général.

Un exemple des fonctions de montage vidéo de Movie Gen qui permettent d’insérer ou de supprimer des objets dans une vidéo existante.

Par ailleurs, jusqu’à présent, tous les modèles de synthèse vidéo que nous avons utilisés ont créé des vidéos silencieuses. Meta apporte la synthèse sonore à la vidéo IA grâce à un modèle de génération audio distinct capable de produire des sons ambiants, des effets sonores et une musique de fond instrumentale synchronisée avec le contenu vidéo à partir d’invites textuelles. L’entreprise affirme que ce modèle peut générer du son pour des vidéos de n’importe quelle longueur, en conservant un son cohérent tout au long de la vidéo.

Vidéo générée par l’IA avec une bande sonore générée par l’IA, créée à partir de l’invite : « Feuilles qui bruissent et brindilles qui claquent, avec une musique orchestrale ».

Malgré ces avancées, Meta reconnaît que les modèles actuels ont des limites. L’entreprise prévoit d’accélérer le temps de génération des vidéos et d’améliorer la qualité globale en augmentant encore l’échelle des modèles. Vous pouvez en savoir plus sur le fonctionnement des modèles Movie Gen dans un document de recherche que Meta a également publié aujourd’hui.

Meta prévoit également de collaborer avec les cinéastes et les créateurs afin d’intégrer leurs commentaires dans les futures versions du modèle. Cependant, après les avertissements du syndicat d’acteurs SAG-AFTRA l’année dernière et les réactions divergentes de certains professionnels de l’industrie à l’égard de la synthèse vidéo, nous pouvons imaginer que ces réactions ne seront pas toutes positives.

Jad Marchy

+ posts

Jad MARCHI est un ardent défenseur de la technologie, passionné par son potentiel de transformation. Ayant accumulé une décennie d’expérience dans le secteur technologique, Jean a travaillé sur une variété de projets innovants qui l’ont amené à comprendre le paysage changeant de ce domaine. Il est fasciné par l’évolution rapide de la technologie et son impact sur notre société. Que ce soit l’intelligence artificielle, la robotique, la blockchain ou la cybersécurité, il est toujours à la recherche des dernières tendances. Ses articles cherchent à informer, à inspirer et à provoquer des réflexions sur la façon dont la technologie façonne notre avenir.

La nouvelle avant-garde des deepfakes vidéo

Montage et synthèse sonore

Jad Marchy

Log In

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Hey Friend!Before You Go…

Hey Friend!
Before You Go…