OpenAI dévoile un assistant vocal facile à créer lors de l'événement 2024 pour les développeurs

M. Altman s’est éloigné des projecteurs de la conférence et a laissé quatre ajouts majeurs à l’API parler d’eux-mêmes.

Lundi, OpenAI a donné le coup d’envoi de son événement annuel DevDay à San Francisco, en dévoilant quatre mises à jour majeures de l’API pour les développeurs qui intègrent les modèles d’IA de l’entreprise dans leurs produits. Contrairement à l’événement de l’année dernière, qui s’est déroulé en un seul lieu et a été marqué par la présentation du PDG Sam Altman, DevDay 2024 ne se limitera pas à une seule journée, mais adoptera une approche globale avec des événements supplémentaires prévus à Londres, le 30 octobre, et à Singapour, le 21 novembre.

L’événement de San Francisco, qui n’était accessible que sur invitation et fermé à la presse, a donné lieu à des présentations techniques par des orateurs sur scène. La nouvelle fonctionnalité la plus remarquable de l’API est sans doute l’API Realtime, désormais en version bêta publique, qui prend en charge les conversations vocales à l’aide de six voix prédéfinies et permet aux développeurs d’intégrer dans leurs Applications des fonctions très similaires au mode vocal avancé (AVM) de ChatGPT.

OpenAI affirme que l’API Realtime rationalise le processus de création d’assistants vocaux. Auparavant, les développeurs devaient utiliser plusieurs modèles pour la reconnaissance vocale, le traitement du texte et la conversion texte-parole. Désormais, ils peuvent gérer l’ensemble du processus à l’aide d’un seul appel à l’API.

La société prévoit d’ajouter des capacités d’entrée et de sortie audio à son API Chat Completions dans les prochaines semaines, ce qui permettra aux développeurs de saisir du texte ou de l’audio et de recevoir des réponses dans l’un ou l’autre format.

Deux nouvelles options pour une inférence moins coûteuse

OpenAI a également annoncé deux fonctionnalités qui pourraient aider les développeurs à équilibrer les performances et les coûts lors de la création d’applications d’IA. La « distillation de Modèle » permet aux développeurs d’affiner (personnaliser) des modèles plus petits et moins chers comme GPT-4o mini en utilisant les résultats de modèles plus avancés comme GPT-4o et o1-preview. Cela permet aux développeurs d’obtenir des résultats plus pertinents et plus précis tout en utilisant le modèle le moins cher.

OpenAI a également annoncé le « prompt caching », une fonctionnalité similaire à celle introduite par Anthropic pour son API Claude en août. Elle accélère l’inférence (le modèle d’IA générant des résultats) en se souvenant des invites (jetons d’entrée) fréquemment utilisées. Cette fonction offre une réduction de 50 % sur les jetons d’entrée et des temps de traitement plus rapides en réutilisant les jetons d’entrée récemment vus.

Enfin, la société a étendu ses capacités de réglage fin aux images (ce qu’elle appelle le « réglage fin de la vision »), ce qui permet aux développeurs de personnaliser GPT-4o en lui fournissant des images et du texte personnalisés. En fait, les développeurs peuvent apprendre à la version multimodale de GPT-4o à reconnaître visuellement certaines choses. Selon l’OpenAI, cette nouvelle fonctionnalité ouvre la voie à l’amélioration des fonctions de recherche visuelle, à une détection plus précise des objets pour les véhicules autonomes et, éventuellement, à l’amélioration de l’analyse des images médicales.

Où est la présentation de Sam Altman ?

Sam Altman, PDG d’OpenAI, s’exprime lors de l’événement OpenAI DevDay, le 6 novembre 2023, à San Francisco.

Crédit :

Getty Images

Contrairement à l’année dernière, le DevDay n’est pas retransmis en direct, mais OpenAI prévoit de publier du contenu plus tard sur sa chaîne YouTube. Le programme de l’événement comprend des sessions en petits groupes, des présentations de la communauté et des démonstrations. Mais le plus grand changement par rapport à l’année dernière est l’absence d’une présentation du PDG de l’entreprise. Cette année, c’est l’équipe produit d’OpenAI qui s’est chargée du discours d’ouverture.

Lors du DevDay inaugural de l’année dernière, le 6 novembre 2023, le PDG d’OpenAI, Sam Altman, a donné une conférence en direct à la Steve Jobs devant une assemblée de développeurs, d’employés d’OpenAI et de représentants de la presse. Au cours de sa présentation, le PDG de Microsoft, Satya Nadella, a fait une apparition surprise et a parlé du partenariat entre les deux entreprises.

Onze jours plus tard, le conseil d’administration d’OpenAI a licencié M. Altman, déclenchant une semaine d’agitation qui s’est soldée par le retour de M. Altman au poste de PDG et par la constitution d’un nouveau conseil d’administration. Juste après le licenciement, Kara Swisher a relayé des sources internes selon lesquelles la keynote DevDay d’Altman et l’introduction de la boutique GPT avaient été un facteur précipitant le licenciement (mais pas le facteur clé) en raison de certains désaccords internes sur l’orientation plus consumériste de l’entreprise depuis le lancement de ChatGPT.

En gardant cet historique à l’esprit et en mettant l’accent sur les développeurs avant tout pour cet événement, la société a peut-être décidé qu’il était préférable de laisser Altman s’éloigner de la keynote et de laisser la Technologie d’OpenAI devenir le principal centre d’intérêt de l’événement à sa place. Nous ne faisons que spéculer sur ce point, mais OpenAI a certainement connu sa part de drame au cours du mois dernier, et il s’agissait donc peut-être d’une décision prudente.

Malgré l’absence de keynote, Altman est présent au Dev Day San Francisco aujourd’hui et il est prévu qu’il fasse un « fireside chat » à la fin (ce qui n’a pas encore eu lieu à l’heure où nous écrivons ces lignes). Par ailleurs, Altman a fait une déclaration sur le DevDay sur X, notant que depuis le DevDay de l’année dernière, OpenAI avait connu des changements spectaculaires (littéralement) :

Du dernier DevDay à celui-ci :

*Diminution de 98% du coût par jeton de GPT-4 à 4o mini
*Augmentation de 50 % du volume de jetons sur l’ensemble de nos systèmes
*excellents progrès en matière d’intelligence artificielle
*(et un peu de drame en cours de route)

Dans un tweet de suivi, rédigé dans son style minuscule caractéristique, Altman a partagé un message tourné vers l’avenir qui faisait référence à la quête de l’entreprise pour une IA de niveau humain, souvent appelée AGI : « Nous sommes impatients de faire encore plus de progrès entre ce jour de développement et le prochain », a-t-il écrit. « Le chemin vers l’AGI n’a jamais été aussi clair.

Jad Marchy

+ posts

Jad MARCHI est un ardent défenseur de la technologie, passionné par son potentiel de transformation. Ayant accumulé une décennie d’expérience dans le secteur technologique, Jean a travaillé sur une variété de projets innovants qui l’ont amené à comprendre le paysage changeant de ce domaine. Il est fasciné par l’évolution rapide de la technologie et son impact sur notre société. Que ce soit l’intelligence artificielle, la robotique, la blockchain ou la cybersécurité, il est toujours à la recherche des dernières tendances. Ses articles cherchent à informer, à inspirer et à provoquer des réflexions sur la façon dont la technologie façonne notre avenir.

Deux nouvelles options pour une inférence moins coûteuse

Où est la présentation de Sam Altman ?

Jad Marchy

Log In

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Hey Friend!Before You Go…

Hey Friend!
Before You Go…