Groq hat kürzlich das Whisper Large-V3-Modell veröffentlicht. Benutzer können die API über das Playground oder in lokalen Projekten nutzen, um Sprachtranskription und -übersetzung durchzuführen. Das Modell unterstützt die Transkription mehrerer Sprachen, ist extrem schnell und kann andere Sprachen ins Englische übersetzen.

image.png

Playground-Link:https://console.groq.com/playground

Derzeit können Benutzer die Funktion im Playground kostenlos testen. Die Transkription eines 4 Minuten und 30 Sekunden langen Videos dauert nur etwa 3 Sekunden. Groq bietet außerdem eine API-Schnittstelle an, die Benutzer in ihren lokalen Projekten integrieren können.

Das Design der Whisper API folgt den Kompatibilitätsstandards von OpenAI und bietet Zugriff auf zwei Kernfunktionen: Sprach-zu-Text und Sprachübersetzung. Benutzer können diese Funktionen einfach in ihre eigenen Anwendungen integrieren, egal ob sie intelligente Assistenten oder automatisierte Übersetzungssysteme entwickeln – sie profitieren von einer benutzerfreundlichen Entwicklungsumgebung.

In Bezug auf die Leistung verwendet die Whisper API das fortschrittliche „whisper-large-v3“-Modell, um höchste Leistung bei Sprach-zu-Text- und Übersetzungsaufgaben zu gewährleisten.

Darüber hinaus unterstützt die API gängige Formate und Größen von Audiodateien, darunter mp3, mp4 und wav, wobei die Dateigröße jedoch auf maximal 25 MB begrenzt ist. Besonders wichtig ist, dass die Whisper API bei Dateien mit mehreren Audiospuren nur die erste Spur verarbeitet. Daher sollten Benutzer vor dem Hochladen eine entsprechende Audiovorverarbeitung durchführen.

Um die Qualität und Effizienz der Transkription zu verbessern, führt die Whisper API serverseitig eine Downsampling-Verarbeitung des Audios auf 16.000 Hz Mono durch. Groq empfiehlt Benutzern, diesen Vorverarbeitungsschritt auf Client-Seite durchzuführen. Dies hilft nicht nur, die Dateigröße zu reduzieren, sondern ermöglicht auch das Hochladen und Verarbeiten längerer Audiodateien.

API-Schnittstellen:

Sprach-zu-Text: https://api.groq.com/openai/v1/audio/transcriptions

Sprachübersetzung: https://api.groq.com/openai/v1/audio/translations