Le nouveau mode vocal avancé (AVM) de l’assistant IA ChatGPT d’OpenAI a été mis à la disposition des abonnés mardi, et les gens trouvent déjà de nouvelles façons de l’utiliser, même à l’encontre des souhaits d’OpenAI. Jeudi, un architecte logiciel nommé AJ Smith a tweeté une vidéo de lui jouant un duo de la chanson “Eleanor Rigby” des Beatles de 1966 avec l’AVM. Dans la vidéo, M. Smith joue de la guitare et chante, la voix de l’IA s’interposant et chantant sporadiquement avec lui, le félicitant pour son interprétation.
“Honnêtement, c’était époustouflant. La première fois que je l’ai fait, je n’étais pas en train d’enregistrer et j’ai littéralement eu des frissons”, a déclaré Smith à Ars Technica par SMS. “Je ne lui demandais même pas de chanter avec moi.
Smith n’est pas étranger aux sujets liés à l’IA. Dans son travail quotidien, il est directeur associé de l’ingénierie de l’IA chez S&P Global. “J’utilise [AI] tout le temps et je dirige une équipe qui utilise l’IA au quotidien”, nous a-t-il confié.
Dans la vidéo, la voix d’AVM est un peu chevrotante et n’est pas parfaite, mais elle semble connaître la mélodie d'”Eleanor Rigby” lorsqu’elle chante pour la première fois “Ah, look at all the lonely people” (Ah, regardez toutes ces personnes seules). Ensuite, il semble deviner la mélodie et le rythme lorsqu’il récite les paroles de la chanson. Nous avons également convaincu le mode vocal avancé de chanter, et il a interprété à la perfection “Joyeux anniversaire” après avoir été un peu cajolé.
Normalement, lorsque vous demandez à AVM de chanter, il répond quelque chose comme “My guidelines won’t let me talk about that.” (Les directives d’AVM ne me permettent pas de parler de cela). En effet, dans les instructions initiales du chatbot (appelées “invite système”), OpenAI demande à l’assistant vocal de ne pas chanter et de ne pas faire d’effets sonores (“Ne pas chanter ou fredonner”, selon une fuite d’invite système).
OpenAI a peut-être ajouté cette restriction parce que l’AVM pourrait autrement reproduire des contenus protégés par le droit d’auteur, tels que des chansons trouvées dans les données d’entraînement utilisées pour créer le Modèle d’IA lui-même. C’est ce qui se passe ici dans une certaine mesure, de sorte que, dans un sens, Smith a découvert une forme de ce que les chercheurs appellent une “injection d’invite”, qui est un moyen de convaincre un modèle d’IA de produire des résultats qui vont à l’encontre des instructions de son système.
Comment Smith a-t-il procédé ? Il a imaginé un jeu qui révèle que l’AVM en sait plus sur la musique qu’elle ne le laisse entendre dans une conversation. “J’ai simplement dit que nous allions jouer à un jeu. Je jouais les quatre accords de musique pop et il me criait des chansons que je devais chanter avec ces accords”, nous a expliqué M. Smith. “Ce qui a plutôt bien fonctionné ! Mais après quelques chansons, il a commencé à chanter avec moi. C’était déjà une expérience unique, mais c’est ce qui l’a fait passer au niveau supérieur.
Ce n’est pas la première fois que des humains jouent en duo avec des ordinateurs. Ce type de recherche remonte aux années 1970, même si elle se limitait généralement à la reproduction de notes de musique ou de sons instrumentaux. Mais c’est la première fois que l’on voit quelqu’un jouer en duo avec un chatbot vocal synthétisant le son en temps réel.
Comment fonctionne la MAV et pourquoi elle peut chanter les Beatles
Tout cela soulève une question évidente : Comment la MAV sait-elle chanter “Eleanor Rigby” ? Pour comprendre, nous devons expliquer un peu comment le système fonctionne. (D’ailleurs, vous ne pouvez pas poser la question à la MAV elle-même, car elle n’en a aucune idée. Il a été formé à partir d’informations antérieures à sa création, et tout ce qu’il sait de lui-même provient des instructions textuelles qui lui sont fournies par l’OpenAI juste avant le début de la conversation).
Contrairement à ses précédents modèles d’IA qui se concentraient principalement sur le texte, OpenAI a entraîné GPT-4o, dévoilé en mai, à être “multimodal” en comprenant aussi bien l’audio que les images et le texte. Cela signifie que, quelles que soient les informations que vous pouvez convertir en morceaux de données que les chercheurs en apprentissage automatique appellent “tokens”, le modèle d’IA peut les absorber, “comprendre” comment elles sont liées conceptuellement et faire une prédiction sur les tokens qui viendront ensuite dans une séquence de données.
En réinjectant dans le modèle l’historique d’une discussion en cours (dans ce cas, sous forme de jetons audio) chaque fois qu’un humain ajoute une réponse, OpenAI peut utiliser le modèle d’IA pour simuler une conversation en va-et-vient.
Dans le cas de la MAV, le pipeline est audio à audio. Votre voix est convertie en jetons et introduite dans le modèle d’IA, qui produit des jetons également convertis en audio. Cette conception a donné lieu à d’autres découvertes intéressantes sur la MAV, comme le fait qu’elle peut produire des sons de rire et de respiration, générer des effets sonores, comprendre les émotions, critiquer les accents, parler l’ébonite, et qu’elle peut parfois cloner la voix d’un utilisateur en prédisant par erreur une réponse de ce dernier, pour les raisons que nous avons exposées dans un article précédent. (Lorsqu’il clone la voix d’un utilisateur par erreur, il perd en fait de vue le tour qu’il prend dans le processus de prédiction de la conversation et remplit ce qu’il pense que l’utilisateur dira en réponse).
En ce qui concerne “Eleanor Rigby”, lors de l’entraînement du modèle GPT-4o, OpenAI a fourni à son Réseau neuronal plusieurs milliers d’heures d’exemples audio, dont certains provenaient probablement de bibliothèques audio sous licence et d’autres d’échantillons récupérés sur des vidéos YouTube. Nous avons la preuve qu’OpenAI a fréquemment utilisé YouTube comme source de données d’entraînement pour des produits antérieurs tels que GPT-4, Whisper (voir ici) et Sora.
Les données d’entraînement pour GPT-4o, qui alimente le mode vocal avancé, comprenaient très probablement des enregistrements de personnes chantant et jouant “Eleanor Rigby” dans des versions reprises, comme les gens le font fréquemment sur le service. Les paroles de la chanson font également partie des données d’entraînement textuelles. Il est également possible que certains enregistrements musicaux commerciaux se soient retrouvés dans les données d’entraînement, même s’ils ne font partie que de l’ensemble de données de YouTube (bien qu’il soit possible que les ingénieurs d’OpenAI aient essayé de les filtrer autant que possible pour se concentrer sur les échantillons de voix).
Par conséquent, AVM peut reconnaître et même chanter “Eleanor Rigby”, et il connaît probablement des centaines de milliers d’autres chansons. Smith l’a déjà constaté lors de ses expériences et nous a dit : “Je publierai bientôt d’autres vidéos avec d’autres chansons”.
OpenAI est actuellement défenderesse dans une affaire de droits d’auteur déposée par le New York Times concernant la capacité du modèle GPT-4 d’OpenAI à reproduire des données d’entraînement protégées par des droits d’auteur. OpenAI a affirmé que cette pratique de scraping était une “utilisation équitable”, mais le NYT n’est pas d’accord, et la question n’a pas été résolue légalement aux États-Unis.
À l’heure actuelle, des utilisateurs comme M. Smith, qui aiment explorer de nouvelles utilisations de cette nouvelle Technologie, sont pris au milieu d’un débat sur la propriété intellectuelle au XXIe siècle dont les enjeux sont élevés pour toutes les parties concernées. L’OpenAI voudra probablement limiter autant que possible ce potentiel pour l’instant, et les détenteurs de droits sont probablement à l’affût.
“Je comprends tout à fait pourquoi OpenAI agit de la sorte. Il est regrettable qu’ils doivent limiter ces capacités, mais il s’agit d’une toute nouvelle technologie, et je comprends la prudence supplémentaire qu’ils utilisent ici”, a déclaré Smith. “J’espère qu’ils trouveront bientôt le moyen d’autoriser des fonctions inoffensives comme celle-ci tout en veillant à protéger les artistes qui détiennent des droits d’auteur.
<Script async src=”//www.tiktok.com/embed.js”>
Jad MARCHI est un ardent défenseur de la technologie, passionné par son potentiel de transformation. Ayant accumulé une décennie d’expérience dans le secteur technologique, Jean a travaillé sur une variété de projets innovants qui l’ont amené à comprendre le paysage changeant de ce domaine. Il est fasciné par l’évolution rapide de la technologie et son impact sur notre société. Que ce soit l’intelligence artificielle, la robotique, la blockchain ou la cybersécurité, il est toujours à la recherche des dernières tendances. Ses articles cherchent à informer, à inspirer et à provoquer des réflexions sur la façon dont la technologie façonne notre avenir.