イスラエルの人工知能スタートアップ企業aiOlaは最近、大きな動きを見せており、新しいオープンソースの音声認識モデル「Whisper-Medusa」を発表しました。

image.png

このモデルは非常に優れており、OpenAIの有名なWhisperよりもなんと50%も高速です!Whisperをベースに構築されていますが、斬新な「マルチヘッドアテンション」アーキテクチャを採用しており、OpenAIの製品よりもはるかに多くのトークンを一度に予測できます。さらに、コードと重みはHugging FaceでMITライセンスの下で公開されており、研究と商業利用が許可されています。

aiOlaの研究担当副社長であるGill Hetz氏は、オープンソース化することでコミュニティのイノベーションと協力を促進し、より高速で洗練されたモデルの開発を促せると述べています。この技術は複合型AIシステムへの道を切り開き、システムがユーザーの質問をほぼリアルタイムで理解し、回答することを可能にします。

様々なコンテンツを生成できる基盤モデルが普及する現代において、高度な音声認識は依然として非常に重要です。Whisperは様々な言語やアクセントに対応できる複雑な音声処理能力を持ち、毎月500万回以上ダウンロードされ、多くのアプリケーションを支える音声認識のゴールドスタンダードとなっています。

では、aiOlaのWhisper-Medusaの特別な点は何か?

同社はWhisperのアーキテクチャを変更し、マルチヘッドアテンションメカニズムを追加することで、一度に10個のトークンを予測し、速度を50%向上させながら、精度を維持することに成功しました。このモデルのトレーニングには弱教師あり機械学習手法が用いられ、今後さらに高度なバージョンが開発される予定です。重要なのは、Whisper-MedusaのバックボーンがWhisperに基づいているため、速度の向上は性能の犠牲を伴わない点です。

image.png

Whisper-Medusaを事前に入手した企業があるかどうか尋ねられたHetz氏は、実際の企業データのユースケースでテストを行い、実環境で正確に動作することを確認しており、今後音声アプリケーションの応答速度を向上させると述べています。最終的には、認識と転写速度の向上により、音声アプリケーションのターンアラウンドタイムが短縮され、リアルタイム応答の実現に向けた道が開かれると確信しています。

重要なポイント:

💥速度が50%向上:aiOlaのWhisper-Medusaは、OpenAIのWhisper音声認識よりも大幅に高速です。

🎯精度は損なわれない:速度が向上しても、元のモデルと同様の精度を維持しています。

📈幅広い応用分野:音声アプリケーションにおける応答速度の向上、効率の改善、コスト削減に期待できます。