L’outil Whisper d’OpenAI peut ajouter du faux texte aux transcriptions médicales, selon une enquête.
Samedi, une enquête de l’Associated Press a révélé que l’outil de transcription Whisper d’OpenAI crée du texte fabriqué dans des contextes médicaux et professionnels malgré les avertissements contre une telle utilisation. L’AP a interrogé plus de 12 ingénieurs logiciels, développeurs et chercheurs qui ont découvert que le Modèle invente régulièrement du texte que les locuteurs n’ont jamais dit, un phénomène souvent appelé “confabulation” ou “hallucination” dans le domaine de l’IA.
Lors de sa sortie en 2022, OpenAI a affirmé que Whisper s’approchait d’une “robustesse de niveau humain” en termes de précision de transcription audio. Cependant, un chercheur de l’Université du Michigan a déclaré à l’AP que Whisper avait créé de faux textes dans 80 % des transcriptions de réunions publiques examinées. Un autre développeur, dont le nom n’est pas mentionné dans le rapport de l’AP, a affirmé avoir trouvé du contenu inventé dans la quasi-totalité des 26 000 transcriptions qu’il a testées.
Les fabrications posent des risques particuliers dans le domaine des soins de santé. Malgré les mises en garde d’OpenAI contre l’utilisation de Whisper dans les “domaines à haut risque”, plus de 30 000 travailleurs médicaux utilisent aujourd’hui des outils basés sur Whisper pour transcrire les visites des patients, selon le rapport de l’AP. La clinique Mankato, dans le Minnesota, et l’hôpital pour enfants de Los Angeles comptent parmi les 40 systèmes de santé qui utilisent un service de copilote d’IA alimenté par Whisper de la société de Technologie médicale Nabla, qui est affiné en matière de terminologie médicale.
Nabla reconnaît que Whisper peut confabuler, mais elle efface également les enregistrements audio originaux “pour des raisons de Sécurité des données”. Cela pourrait poser des problèmes supplémentaires puisque les médecins ne peuvent pas vérifier l’exactitude des données par rapport au matériel d’origine. Les patients sourds pourraient être très affectés par des transcriptions erronées, car ils n’auraient aucun moyen de savoir si les transcriptions audio médicales sont exactes ou non.
Les problèmes potentiels de Whisper dépassent le cadre des soins de santé. Des chercheurs de l’université Cornell et de l’université de Virginie ont étudié des milliers d’échantillons audio et ont constaté que Whisper ajoutait un contenu violent inexistant et des commentaires raciaux à un discours neutre. Ils ont constaté que 1 % des échantillons comprenaient “des phrases hallucinées entières qui n’existaient sous aucune forme dans l’audio sous-jacent” et que 38 % d’entre eux comprenaient “des préjudices explicites tels que la perpétuation de la violence, l’établissement d’associations inexactes ou l’insinuation d’une fausse autorité”.
Dans un cas de l’étude citée par AP, lorsqu’un orateur a décrit “deux autres filles et une dame”, Whisper a ajouté un texte fictif spécifiant qu’elles “étaient noires”. Dans un autre cas, l’audio disait : “Il, le garçon, allait, je ne sais pas exactement, prendre le parapluie”. Whisper l’a transcrit en “Il a pris un gros morceau de la croix, un tout petit morceau…”. Je suis sûr qu’il n’avait pas de couteau de terreur, alors il a tué un certain nombre de personnes.”
Un porte-parole d’OpenAI a déclaré à l’AP que l’entreprise apprécie les conclusions des chercheurs et qu’elle étudie activement les moyens de réduire les fabrications et intègre les commentaires dans les mises à jour du modèle.
Pourquoi Whisper confabule
La clé de l’inadaptation de Whisper aux domaines à haut risque réside dans sa propension à confabuler parfois, ou à inventer de manière plausible, des résultats inexacts. Le rapport de l’AP indique que “les chercheurs ne sont pas certains de la raison pour laquelle Whisper et d’autres outils similaires ont des hallucinations”, mais ce n’est pas vrai. Nous savons exactement pourquoi les modèles d’IA basés sur les transformateurs, comme Whisper, se comportent de cette manière.
Whisper est basé sur une technologie conçue pour prédire le prochain jeton (morceau de données) le plus probable qui devrait apparaître après une séquence de jetons fournis par un utilisateur. Dans le cas de ChatGPT, les jetons d’entrée se présentent sous la forme d’une invite textuelle. Dans le cas de Whisper, les données d’entrée sont des données audio tokenisées.
Le résultat de la transcription de Whisper est une prédiction de ce qui est le plus probable, et non de ce qui est le plus précis. La précision des sorties basées sur les transformateurs est généralement proportionnelle à la présence de données exactes pertinentes dans l’ensemble de données d’apprentissage, mais elle n’est jamais garantie. Si jamais il n’y a pas assez d’informations contextuelles dans son Réseau neuronal pour que Whisper puisse faire une prédiction précise sur la façon de transcrire un segment audio particulier, le modèle se rabattra sur ce qu’il “sait” des relations entre les sons et les mots qu’il a appris à partir de ses données d’entraînement.
Selon OpenAI en 2022, Whisper a appris ces relations statistiques à partir de “680 000 heures de données supervisées multilingues et multitâches collectées sur le Web“. Mais nous en savons désormais un peu plus sur la source. Étant donné la tendance bien connue de Whisper à produire certains résultats tels que “merci d’avoir regardé”, “aimez et abonnez-vous” ou “laissez un commentaire dans la section ci-dessous” lorsqu’on lui fournit des entrées silencieuses ou brouillées, il est probable qu’OpenAI ait entraîné Whisper sur des milliers d’heures d’audio sous-titrée provenant de vidéos YouTube (les chercheurs avaient besoin d’audio couplé à des sous-titres existants pour entraîner le modèle).
Il existe également un phénomène appelé “surajustement” dans les modèles d’IA : les informations (dans ce cas, le texte trouvé dans les transcriptions audio) rencontrées plus fréquemment dans les données d’entraînement sont plus susceptibles d’être reproduites dans un résultat. Dans les cas où Whisper rencontre des notes médicales de mauvaise qualité, le modèle d’IA produira ce que son réseau neuronal prédit comme étant le résultat le plus probable, même s’il est incorrect. Et le résultat le plus probable pour n’importe quelle vidéo YouTube, puisque tant de gens le disent, est “Merci d’avoir regardé”.
Dans d’autres cas, Whisper semble s’appuyer sur le contexte de la conversation pour déterminer ce qui doit suivre, ce qui peut poser des problèmes car ses données d’entraînement peuvent contenir des commentaires racistes ou des informations médicales inexactes. Par exemple, si de nombreux exemples de données d’entraînement présentent des locuteurs prononçant la phrase “crimes commis par des criminels noirs”, lorsque Whisper rencontre une phrase “crimes commis par des criminels noirs”, il n’est pas certain que Whisper soit en mesure d’interpréter cette phrase. [garbled audio] criminels”, il sera plus enclin à compléter la transcription par “noirs”.
Dans la carte originale du modèle Whisper, les chercheurs de l’OpenAI ont évoqué ce même phénomène : “Parce que les modèles sont formés de manière faiblement supervisée en utilisant des données bruyantes à grande échelle, les prédictions peuvent inclure des textes qui ne sont pas réellement prononcés dans l’entrée audio (c.-à-d. hallucination). Nous supposons que cela se produit parce que, compte tenu de leur connaissance générale du langage, les modèles combinent la tentative de prédire le mot suivant dans l’audio avec la tentative de transcrire l’audio lui-même”.
En ce sens, Whisper “sait” quelque chose sur le contenu de ce qui est dit et garde une trace du contexte de la conversation, ce qui peut conduire à des problèmes comme celui où Whisper a identifié deux femmes comme étant noires alors que cette information n’était pas contenue dans l’audio d’origine. Théoriquement, ce scénario erroné pourrait être réduit en utilisant un deuxième modèle d’IA formé pour repérer les zones audio confuses où le modèle Whisper est susceptible de confabuler et de marquer la transcription à cet endroit, de sorte qu’un humain puisse revérifier manuellement ces instances pour en vérifier l’exactitude ultérieurement.
Il est clair que le conseil d’OpenAI de ne pas utiliser Whisper dans des domaines à haut risque, tels que les dossiers médicaux critiques, était judicieux. Mais les entreprises de soins de santé sont constamment poussées par le besoin de réduire les coûts en utilisant des outils d’IA apparemment “suffisamment bons” – comme nous l’avons déjà vu avec Epic Systems utilisant GPT-4 pour les dossiers médicaux et UnitedHealth utilisant un modèle d’IA défectueux pour les décisions d’assurance. Il est tout à fait possible que des personnes subissent déjà des conséquences négatives en raison d’erreurs d’IA, et la résolution de ce problème impliquera probablement une certaine forme de réglementation et de certification des outils d’IA utilisés dans le domaine médical.
Jad MARCHI est un ardent défenseur de la technologie, passionné par son potentiel de transformation. Ayant accumulé une décennie d’expérience dans le secteur technologique, Jean a travaillé sur une variété de projets innovants qui l’ont amené à comprendre le paysage changeant de ce domaine. Il est fasciné par l’évolution rapide de la technologie et son impact sur notre société. Que ce soit l’intelligence artificielle, la robotique, la blockchain ou la cybersécurité, il est toujours à la recherche des dernières tendances. Ses articles cherchent à informer, à inspirer et à provoquer des réflexions sur la façon dont la technologie façonne notre avenir.