最近、カリフォルニア州サンフランシスコに拠点を置くAIスタートアップ企業smallest.aiが、100ミリ秒で最長10秒の音声を生成できる新しいテキスト読み上げ(TTS)モデル「Lightning」を発表しました。この技術の進歩により、世界中の開発者は、高忠実度の音声ロボットアプリケーションを構築できるようになり、遅延時間が大幅に短縮され、実装コストの削減とアプリケーションのアクセシビリティの向上が実現します。

image.png

Lightningは現在、英語とヒンディー語の複数のアクセントをサポートしており、チームは市場のニーズに応えるため、さらに多くの言語を迅速に追加する予定です。このモデルの価格は、1分あたりわずか0.02ドル(約1.6インドルピー)で、音声ロボット開発者にとって非常に費用対効果の高いソリューションを提供します。アプリケーションの運用コストは1分あたり1ルピー未満に抑えられ、音声ロボット構築のコストが大幅に削減され、市場へのアクセスも拡大します。

従来のTTSモデルはストリーミングとネットワークソケットに依存しており、サーバーの負荷と拡張性の複雑さを増していましたが、LightningはシンプルなREST API設計を採用することで、約100ミリ秒でオーディオを配信し、継続的なストリーミングによるサーバーへの負担を回避します。この高速な処理能力とコスト効率により、音声ロボット業界における優れた代替手段となっています。

Lightningの製品機能の特徴を以下にまとめます。

1. 速度と効率性。世界最速のテキスト読み上げを謳い、Lightningモデルは100ミリ秒で10秒の超リアルな音声を生成し、リアルタイムの音声合成を実現し、迅速な応答ニーズを満たします。

2. コンパクトさと互換性。1GB未満のVRAMが必要で、モデルのサイズが小さく、ほとんどの消費者向けデバイスやエッジデバイスで簡単に動作し、ハードウェア要件を低減します。

3. 多言語サポート。複数の言語とアクセントをサポートしており、現在英語とヒンディー語の複数のアクセントをサポートしており、グローバルユーザーのニーズを満たすために、さらに多くの言語を迅速に追加する予定です。

4. 高度なカスタマイズ性。スタイル拡散器を使用し、ユーザーのニーズに合わせてオーディオスタイルを調整し、生成される音声をより自然で感情豊かにします。

5. 簡単な統合。REST API統合により、シンプルなREST APIインターフェースを提供し、開発者はLightningモデルを既存のシステムに迅速に統合でき、複雑なWebSocket接続が不要になります。

6. 手頃な価格。1分あたり0.04ドルからという価格設定で、あらゆる規模の企業が利用でき、大量に使用する場合にはカスタマイズされた価格設定を提供します。

smallest.aiは、インド工科大学グワハティ校の卒業生であるSudarshan Kamath氏とAkshat Mandloi氏によって設立されました。Kamath氏は、smallest.aiの低価格戦略は、データ品質とモデル効率への注力によるものだと述べています。「当社のモデルは、ElevenLabsなどの競合他社よりもはるかに小さく、高度に洗練されたデータによって高品質の音声出力を実現しています。」と説明しています。

Lightningを早期に利用した音声ロボット開発者は、運用コストが8分の1に削減され、同時にオーディオ品質が向上したと報告しています。リアルタイムの音声ロボットアプリケーションに加えて、LightningはオーディオブックやInstagramやYouTubeなどのソーシャルメディアコンテンツのナレーションにも使用できます。開発者以外もWaves Speechプラットフォームを通じてLightningにアクセスし、音声クローンやアクセント変換などの機能(現在テスト段階)を利用できます。

Kamath氏は「分析インド誌」との独占インタビューで、「開発を始めた当初、既存の音声ロボットに必要なモデルはインドの言語にはまだ成熟しておらず、英語以外の言語の既存モデルは生産要件を満たすことができないことに気づきました。」と述べています。

今年6月、smallest.aiは、短い音声クリップによる音声クローン作成をサポートし、競争力のある価格設定のAWAAZモデルも発表しました。このモデルは、地域言語市場の拡張可能なアプリケーションに対応し、エンタープライズレベルのセキュリティとコンプライアンスを提供することを目的としています。使命について尋ねられたKamath氏は、「音声AI技術が大きく進歩しているにもかかわらず、なぜ10億人もの人が毎日AI音声とコミュニケーションを取っていないのでしょうか?これが私たちが解決しようとしている問題です。」と述べています。

プロジェクト入口:https://smallest.ai/blog/lightning-fast-text-to-speech

要点:

🌟 Lightningテキスト読み上げモデルは100ミリ秒で音声を生成でき、英語とヒンディー語の複数のアクセントをサポートしており、将来的にはさらに多くの言語に対応する予定です。

💰 1分あたりわずか0.02ドルという低コストで、音声ロボット開発者の運用コストを大幅に削減します。

📱 Lightningは音声ロボットだけでなく、オーディオブックやソーシャルメディアのナレーションにも使用でき、開発者と非開発者の両方が簡単に利用できます。