Groq vient de lancer son nouveau modèle Whisper Large-V3. Les utilisateurs peuvent accéder à ses fonctionnalités de transcription et de traduction vocale via l'API, sur le Playground ou dans leurs propres projets. Ce modèle prend en charge la transcription de plusieurs langues et offre une vitesse de transcription extrêmement rapide, avec la possibilité de traduire d'autres langues vers l'anglais.
Lien Playground :https://console.groq.com/playground
Actuellement, les utilisateurs peuvent tester gratuitement cette fonctionnalité sur le Playground. La transcription d'une vidéo de 4 minutes 30 secondes ne prend que 3 secondes environ. Groq fournit également une interface API pour une intégration dans des projets locaux.
L'API Whisper est conçue pour être compatible avec les standards OpenAI, offrant deux fonctionnalités principales : la transcription vocale en texte et la traduction vocale. Les utilisateurs peuvent facilement intégrer ces fonctionnalités à leurs applications, que ce soit pour développer un assistant intelligent ou un système de traduction automatisé, bénéficiant ainsi d'une expérience de développement simplifiée.
En termes de performance, l'API Whisper utilise le modèle avancé "whisper-large-v3", garantissant des performances optimales pour les tâches de transcription et de traduction vocale.
De plus, l'API supporte plusieurs formats et tailles de fichiers audio, notamment les formats courants comme mp3, mp4 et wav, mais la taille des fichiers est limitée à 25 Mo. Il est important de noter que pour les fichiers contenant plusieurs pistes audio, l'API Whisper ne traitera que la première piste. Un prétraitement audio est donc nécessaire avant le téléchargement.
Pour améliorer la qualité et l'efficacité de la transcription, l'API Whisper effectue un sous-échantillonnage de l'audio côté serveur à 16 000 Hz en mono. Groq recommande aux utilisateurs de réaliser ce prétraitement côté client. Cela permet de réduire la taille du fichier et de permettre le traitement de fichiers audio plus longs.
Interfaces API :
Transcription vocale : https://api.groq.com/openai/v1/audio/transcriptions
Traduction vocale : https://api.groq.com/openai/v1/audio/translations