OpenAI lance GPT-4O-Audio-Preview : la voix peut désormais "comprendre" les émotions !

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Oct 18, 2024

758

OpenAI révolutionne une fois de plus le secteur de l'intelligence artificielle avec son nouveau modèle : gpt-4o-audio-preview. Ce modèle affiche des capacités exceptionnelles en génération et analyse vocale, ouvrant de nouvelles perspectives pour l'interaction homme-machine. Découvrons ensemble les caractéristiques et les applications potentielles de ce modèle innovant.

Le gpt-4o-audio-preview repose sur trois fonctions principales : premièrement, il génère des réponses vocales naturelles et fluides à partir de texte, offrant un support puissant aux assistants vocaux et services clients virtuels. Deuxièmement, il analyse les émotions, l'intonation et le ton des entrées audio, une fonctionnalité prometteuse pour le calcul émotionnel et l'analyse de l'expérience utilisateur. Enfin, il prend en charge l'interaction vocale à vocale, l'audio pouvant servir d'entrée comme de sortie, jetant les bases d'un système d'interaction vocale complet.

Comparé à l'API Realtime existante d'OpenAI, gpt-4o-audio-preview se concentre davantage sur les détails du traitement vocal. Il excelle dans la génération vocale, l'analyse des émotions et l'interaction vocale, accordant une attention particulière aux nuances d'intonation et d'émotion. En revanche, l'API Realtime privilégie le traitement des données en temps réel, idéal pour les applications nécessitant une réponse immédiate, comme la transcription vocale en temps réel ou la traduction simultanée.

La flexibilité de gpt-4o-audio-preview réside dans sa prise en charge de multiples combinaisons de modes. Les utilisateurs peuvent choisir une entrée textuelle pour obtenir une sortie textuelle et audio, ou une entrée audio pour obtenir une sortie textuelle et vocale. De plus, il prend en charge la conversion audio-texte et les modes d'entrée mixtes, offrant ainsi aux développeurs un large éventail de possibilités.

Concernant la tarification, OpenAI utilise un système basé sur les jetons. Le coût d'entrée textuelle est relativement faible, environ 5 $ par million de jetons. La sortie textuelle est légèrement plus chère, à environ 15 $ par million de jetons. Le traitement audio est plus coûteux : 100 $ par million de jetons en entrée (environ 0,06 $ par minute) et 200 $ par million de jetons en sortie (environ 0,24 $ par minute). Cette tarification reflète la complexité du traitement audio et les besoins en ressources informatiques.

Le lancement de gpt-4o-audio-preview ne manquera pas de révolutionner plusieurs secteurs. Dans le service client, il permettra des interactions vocales plus naturelles et expressives. Dans l'éducation, cette technologie pourra servir à développer des assistants d'apprentissage linguistique intelligents, aidant les élèves à améliorer leur prononciation et leur intonation. Dans le secteur du divertissement, elle promet une synthèse vocale plus réaliste et des interactions plus immersives avec les personnages virtuels. Enfin, en matière de technologies d'assistance, gpt-4o-audio-preview pourrait offrir des services de transcription vocale plus précis aux malentendants, ou des descriptions vocales plus riches aux malvoyants.

Plus d'informations : https://platform.openai.com/docs/guides/audio/quickstart

OpenAI gpt-4o-audio-preview assistant vocal service client virtuel

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Perplexity lance un nouvel assistant vocal IA pour iOS

Apr 24, 2025

Perplexity : Lancement d'un assistant vocal amélioré, une interaction intelligente révolutionnaire

Perplexity AI a lancé une nouvelle fonctionnalité d'assistant vocal dans son application iOS, améliorant encore l'utilité et l'expérience interactive de son assistant IA. Selon AIbase, la nouvelle fonctionnalité prend en charge plusieurs tâches telles que la configuration de réveils, la recherche d'itinéraires, l'envoi de messages et la réservation de restaurants. Combinée à une puissante recherche en temps réel et à une intégration multi-applications, elle offre aux utilisateurs une expérience de vie intelligente transparente. La mise à jour est disponible sur l'App Store et a été très bien accueillie par la communauté, marquant une avancée significative de Perplexity dans le domaine des assistants IA complets. Fonctionnalités principales

Apr 24, 2025

Anthropic lance Claude, un assistant vocal IA pour rivaliser avec ChatGPT

Selon Bloomberg, la société d'intelligence artificielle Anthropic développe activement une nouvelle fonctionnalité pour son chatbot Claude : un assistant vocal, dont le lancement officiel est prévu ce mois-ci. Cette nouvelle fonctionnalité permettra à Claude IA de concurrencer ChatGPT d'OpenAI en termes d'expérience interactive, enrichissant ainsi les modes d'interaction des utilisateurs avec l'IA. Près d'un an après le lancement d'une fonctionnalité similaire par OpenAI, le mode vocal de Claude répond clairement à une demande du marché.

Apr 17, 2025

Anthropic s'apprête à lancer Claude, un assistant vocal IA avec trois modes vocaux

Selon Bloomberg, la société d'intelligence artificielle Anthropic prépare activement le lancement de son nouvel assistant vocal IA, intégré à son chatbot IA Claude, prévu pour ce mois-ci. Cette nouvelle fonctionnalité permettra aux utilisateurs d'interagir avec Claude par la voix, améliorant ainsi la simplicité et le naturel de l'interaction homme-machine. Anthropic prévoit de lancer trois modes vocaux anglais différents, nommés Airy, Mellow et Butt.

Apr 16, 2025

OpenAI améliore son assistant vocal pour des conversations plus naturelles et fluides

OpenAI a publié lundi une mise à jour de son mode vocal avancé, permettant aux utilisateurs de dialoguer en temps réel avec ChatGPT. L'assistant vocal amélioré offre une interaction plus humaine et réduit les interruptions. Manuka Stratta, chercheur en formation post-lancement chez OpenAI, a annoncé la nouvelle via une vidéo sur les réseaux sociaux de l'entreprise. Cette mise à jour vise à résoudre un problème courant des assistants vocaux IA : les interruptions fréquentes lorsque l'utilisateur réfléchit ou respire profondément.

Mar 25, 2025

Mercedes-Benz et Google lancent l'assistant vocal intelligent MBUX pour les voitures

Lors du CES 2024, Mercedes-Benz a annoncé un nouvel assistant virtuel automobile développé en partenariat avec Google. Basé sur la nouvelle plateforme d'intelligence artificielle automobile de Google Cloud, cet assistant est capable de « poursuivre la conversation et de se référer aux informations » pendant que l'utilisateur conduit. Le premier véhicule à en être équipé est la nouvelle Mercedes CLA, qui intègre le système d'exploitation MB.OS de nouvelle génération et une version améliorée de l'assistant virtuel MBUX. Actuellement, l'assistant vocal MBUX de Mercedes peut être activé par la commande vocale « Hey, »

Jan 14, 2025

1.6k

Rivian annonce un assistant vocal IA pour 2025, améliorant l'expérience intelligente des conducteurs

Récemment, Wassym Bensaid, responsable logiciel chez Rivian, a confirmé dans un showroom de Venise, en Californie, que les modèles Rivian R1T et R1S seront équipés d'un nouvel assistant vocal IA en 2025. Cet assistant prendra en charge les fonctionnalités de texte à la parole pour les messages, visant à améliorer l'expérience intelligente des utilisateurs à bord. Bensaid a déclaré que l'équipe avait commencé à développer la fonctionnalité d'intégration vocale pour les messages texte il y a deux ans, mais que les solutions existantes n'étaient pas à la hauteur des normes de l'entreprise. Il a indiqué que, bien que...

Nov 26, 2024

1.3k

Apple développe un assistant vocal Siri plus conversationnel, prévu pour 2026

Selon Bloomberg, Apple développe un nouvel assistant vocal Siri basé sur des grands modèles linguistiques (LLM) pour une expérience de conversation plus naturelle. Cette initiative vise à combler l'écart avec des concurrents comme Gemini Live de Google, qui offre déjà une interaction plus naturelle. Selon les sources, la nouvelle Siri remplacera complètement l'interface actuelle et devrait être lancée en 2026.

Nov 22, 2024

1.6k

Lancement de TianGong 4.0 par Kunlun Wanwei : l'assistant vocal Skyo arrive bientôt

Kunlun Wanwei Technologies Co., Ltd. a récemment annoncé le lancement de son dernier produit, le modèle TianGong 4.0 (Skywork4o) et son assistant vocal en temps réel Skyo. Cette avancée marque le développement approfondi de la société dans le domaine de l'intelligence artificielle, visant à offrir une meilleure expérience utilisateur. Skyo est un produit d'interaction vocale intelligente, doté d'une capacité de réponse rapide et de conversations multilingues, capable d'initier des conversations et d'interrompre en temps réel. Ce produit possède également des fonctionnalités de réaction émotionnelle et de personnalisation de la voix, visant à fournir aux utilisateurs une expérience chaleureuse et attentionnée.

Nov 20, 2024

3.1k

Cerence et Kawasaki s'associent pour lancer un système d'assistance à la conduite IA et un assistant vocal IA

Cerence Inc. et Kawasaki Motors ont récemment annoncé un nouveau partenariat visant à transformer l'expérience utilisateur de leur gamme de deux-roues. Grâce à l'intégration de Cerence Ride, la plateforme de Cerence conçue spécifiquement pour les deux-roues, Kawasaki offrira aux conducteurs l'accès aux informations dont ils ont besoin, via un assistant vocal IA intuitif permettant d'accéder à la navigation, au contrôle du véhicule et aux applications cloud. Avec la hausse des prix du carburant et la congestion dans les villes densément peuplées, les deux-roues gagnent en popularité, ce qui accroît le besoin pour les conducteurs d'accéder facilement aux informations en déplacement. Cerence...

Nov 8, 2024

1.1k

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu