Le scénario du film de science-fiction « Her » semble devenir réalité. La fonction vocale de GPT-4o a enfin lancé son test bêta, et certains utilisateurs de ChatGPT Plus ont déjà pu expérimenter cette nouvelle fonctionnalité passionnante. Cette innovation d'OpenAI permet à l'IA non seulement de raconter des blagues, d'imiter le miaulement d'un chat, mais aussi de servir de « coach de langue étrangère » pour pratiquer l'expression orale.

Le mode vocal de GPT-4o offre une expérience de conversation plus naturelle et en temps réel. Les utilisateurs peuvent interrompre l'IA à tout moment, et celle-ci est même capable de percevoir et de répondre aux émotions de l'utilisateur. Tous les utilisateurs de ChatGPT Plus devraient pouvoir utiliser cette fonctionnalité d'ici l'automne prochain. Plus excitant encore, les fonctions vidéo et de partage d'écran seront bientôt disponibles, permettant aux utilisateurs d'interagir avec ChatGPT « face à face ».

image.png

Les capacités de sortie de GPT-4o ont également été considérablement améliorées. Le nombre de jetons de sortie du nouveau modèle est passé de 4000 à 64000, ce qui signifie qu'il est possible d'obtenir l'équivalent de quatre longs métrages complets en un seul appel. OpenAI a discrètement lancé ce nouveau modèle bêta, gpt-4o-64k-output-alpha, sur son site web.

Pour garantir la sécurité et la qualité, OpenAI a mené des tests rigoureux de la fonction vocale de GPT-4o au cours des derniers mois. Ils ont travaillé avec plus de 100 testeurs (red team) sur 45 langues et ont entraîné le modèle à utiliser seulement 4 voix prédéfinies pour protéger la vie privée des utilisateurs. De plus, le filtrage du contenu est essentiel, et l'équipe a mis en place des mesures pour empêcher la génération de contenu violent ou portant atteinte aux droits d'auteur.

Les résultats des tests effectués par les internautes sur le mode vocal de GPT-4o sont impressionnants. Certains ont constaté qu'il pouvait répondre rapidement aux questions, avec un minimum de latence ; d'autres l'ont utilisé pour imiter différentes voix et accents ; d'autres encore l'ont utilisé comme commentateur de matchs de football, ou même pour raconter des histoires en chinois avec vivacité. Ces exemples illustrent la puissance de GPT-4o en matière de reconnaissance et de génération vocale.

Il est intéressant de noter qu'OpenAI affirme que les fonctions vidéo et de partage d'écran seront disponibles ultérieurement, mais certains internautes ont déjà pu les tester. Par exemple, un internaute a montré à ChatGPT le petit nid qu'il avait préparé pour son nouveau chaton, et ChatGPT, après l'avoir vu, a commenté qu'il était « certainement très confortable » et a demandé avec inquiétude des nouvelles du chat.

De plus, la fonction de sortie longue de GPT-4o a été discrètement mise en ligne. OpenAI a officiellement annoncé la mise à disposition de la version alpha de GPT-4o pour les testeurs, permettant une sortie maximale de 64 000 jetons par requête, soit l'équivalent de 200 pages de roman. Le lancement de cette fonctionnalité répond à la demande des utilisateurs pour des contenus plus longs.

Cependant, une sortie plus longue signifie également une puissance de calcul et un coût plus élevés. Le prix de GPT-4o Long Output est de 6 $ par million de jetons d'entrée et de 18 $ par million de jetons de sortie, soit une augmentation par rapport aux modèles précédents. Néanmoins, certains chercheurs estiment que la sortie longue est principalement utilisée pour des cas d'utilisation tels que la conversion de données, et qu'elle est très utile pour la rédaction de code ou l'amélioration de l'écriture.

En résumé, les fonctions vocales et de sortie longue de GPT-4o offriront aux utilisateurs une expérience d'interaction plus riche et plus pratique. Nous avons toutes les raisons de croire qu'avec les progrès technologiques, l'IA démontrera sa valeur unique dans de nombreux domaines.