Groqは、最新のWhisper Large-V3モデルをリリースしました。ユーザーはPlaygroundまたはローカルプロジェクトでAPIを使用し、音声の書き起こしや翻訳機能を利用できます。このモデルは、複数の言語の書き起こしに対応しており、非常に高速な書き起こし速度を実現し、他の言語を英語に翻訳することもできます。
Playgroundリンク:https://console.groq.com/playground
現在、ユーザーはPlaygroundでこの機能を無料で体験できます。4分30秒のビデオの書き起こしは、わずか約3秒で完了します。GroqはAPIインターフェースも提供しており、ユーザーはローカルプロジェクトに統合して使用できます。
Whisper APIのインターフェース設計はOpenAIとの互換性基準に準拠しており、音声テキスト変換と音声翻訳という2つの主要機能へのアクセスを提供します。ユーザーはこれらの機能を自分のアプリケーションに簡単に統合でき、スマートアシスタントの開発から自動翻訳システムまで、便利な開発体験を得ることができます。
パフォーマンスに関して、Whisper APIは高度な「whisper-large-v3」モデルを採用しており、音声テキスト変換と翻訳タスクにおいて最高のパフォーマンスを実現しています。
さらに、APIはmp3、mp4、wavなど一般的なフォーマットを含むオーディオファイルのフォーマットとサイズを明確にサポートしていますが、ファイルサイズは25MB以下である必要があります。特に、複数の音声が含まれるファイルの場合、Whisper APIは最初の音声トラックのみを処理するため、アップロード前に適切なオーディオ前処理を行う必要があります。
書き起こしの品質と効率を向上させるため、Whisper APIはサーバー側でオーディオをダウンサンプリング処理し、16,000Hzのモノラルに減らします。Groqは、クライアント側でこの前処理ステップを完了することを推奨しています。これにより、ファイルサイズを削減できるだけでなく、より長いオーディオファイルのアップロードと処理が可能になります。
APIインターフェース:
音声テキスト変換:https://api.groq.com/openai/v1/audio/transcriptions
音声翻訳:https://api.groq.com/openai/v1/audio/translations