A Groq lançou recentemente o modelo Whisper Large-V3, permitindo que os usuários acessem recursos de transcrição e tradução de voz por meio da API, tanto no Playground quanto em projetos locais. Este modelo suporta a transcrição de diversas línguas, oferecendo alta velocidade de processamento e a capacidade de traduzir outras línguas para o inglês.

image.png

Link do Playground:https://console.groq.com/playground

Atualmente, os usuários podem experimentar e utilizar gratuitamente essa funcionalidade no Playground. A transcrição de um vídeo de 4 minutos e 30 segundos leva apenas cerca de 3 segundos. A Groq também oferece uma interface de API para integração em projetos locais.

O design da API do Whisper segue os padrões de compatibilidade com a OpenAI, fornecendo acesso a duas funções principais: conversão de voz para texto e tradução de voz. Os usuários podem integrar facilmente essas funções em seus aplicativos, seja para desenvolver assistentes inteligentes ou sistemas de tradução automatizados, desfrutando de uma experiência de desenvolvimento simplificada.

Em termos de desempenho, a API do Whisper utiliza o modelo avançado "whisper-large-v3", garantindo desempenho de ponta em tarefas de conversão de voz para texto e tradução.

Além disso, a API suporta formatos e tamanhos específicos de arquivos de áudio, incluindo os formatos comuns mp3, mp4 e wav, mas com um limite de tamanho de arquivo de 25 MB. É importante destacar que, para arquivos com várias faixas de áudio, a API do Whisper processará apenas a primeira faixa, exigindo que os usuários façam o pré-processamento de áudio apropriado antes do upload.

Para melhorar a qualidade e a eficiência da transcrição, a API do Whisper realiza um processo de downsampling do áudio no servidor, reduzindo-o para 16.000 Hz em mono. A Groq recomenda que os usuários realizem essa etapa de pré-processamento no cliente, o que ajuda a reduzir o tamanho do arquivo e permite o upload e processamento de arquivos de áudio mais longos.

Interface da API:

Conversão de voz para texto: https://api.groq.com/openai/v1/audio/transcriptions

Tradução de voz: https://api.groq.com/openai/v1/audio/translations