Groq acaba de lanzar el modelo Whisper Large-V3, que permite a los usuarios realizar transcripción y traducción de voz a través de su API, tanto en Playground como en proyectos locales. Este modelo admite la transcripción de varios idiomas y ofrece una velocidad de transcripción excepcional, con capacidad de traducción a inglés desde otros idiomas.

image.png

Enlace a Playground:https://console.groq.com/playground

Actualmente, los usuarios pueden probar esta funcionalidad de forma gratuita en Playground. La transcripción de un vídeo de 4 minutos y 30 segundos tarda aproximadamente 3 segundos. Groq también proporciona una interfaz API para la integración en proyectos locales.

El diseño de la API de Whisper sigue los estándares de compatibilidad con OpenAI, ofreciendo dos funciones principales: transcripción de voz a texto y traducción de voz. Los usuarios pueden integrar fácilmente estas funciones en sus aplicaciones, ya sea para desarrollar asistentes inteligentes o sistemas de traducción automática, disfrutando de una experiencia de desarrollo sencilla.

En cuanto al rendimiento, la API de Whisper utiliza el avanzado modelo "whisper-large-v3", garantizando un rendimiento óptimo en las tareas de transcripción y traducción de voz.

Además, la API admite formatos y tamaños de archivos de audio comunes, incluyendo mp3, mp4 y wav, con un límite de tamaño de archivo de 25 MB. Es importante destacar que para archivos con varias pistas de audio, la API de Whisper solo procesará la primera pista, requiriendo un preprocesamiento de audio por parte del usuario antes de la carga.

Para mejorar la calidad y eficiencia de la transcripción, la API de Whisper realiza un submuestreo del audio en el servidor a 16,000 Hz de mono. Groq recomienda realizar este preprocesamiento en el cliente, lo que reduce el tamaño del archivo y permite la carga y procesamiento de archivos de audio más largos.

Interfaz API:

Transcripción de voz a texto:https://api.groq.com/openai/v1/audio/transcriptions

Traducción de voz:https://api.groq.com/openai/v1/audio/translations