豆包、リアルタイム音声大規模言語モデルを発表　中国語トップクラス、高い知性と教養を備える

AIbase基地

公開日AIニュース · 1 分で読めます · Jan 20, 2025

338

この度、豆包（Doubao）社は、リアルタイム音声大規模言語モデルの最新版を発表しました。中国語での会話において「断崖式」の進歩を遂げたと謳い、AIの対話能力が大幅に向上したことを示しています。このモデルは、豆包アプリ（バージョン7.2.0 新春版）で全面的に公開され、より豊かでリアルな音声交流体験を提供します。

発表によると、豆包のリアルタイム音声大規模言語モデルは、音声理解と生成を深く融合させたエンドツーエンドの音声対話システムを実現しています。この技術的ブレークスルーにより、音声表現力、制御力、感情の受け継ぎにおいて優れた性能を発揮し、低遅延と会話の随時中断機能を備え、ユーザーのインタラクション体験を大幅に向上させています。「知性」だけでなく「情動」も向上し、感情をより適切に理解し表現できるとしています。

今回のアップデートには、リアルタイム音声通話機能も含まれています。この機能は豆包社の最新の大規模言語モデルに基づいており、様々な状況下で会話のリズム、赤ちゃん言葉、音量、息遣いなどの細部を柔軟に調整できます。さらに、様々な声質の模倣、複数の方言や英語での会話、さらには一部楽曲の歌唱も可能です。これらにより、人間と機械の会話のリアルさが新たなレベルに引き上げられ、「人間と機械の区別がつかない」レベルに達しています。

豆包社の開発チームによると、この新しい技術はエンドツーエンドのフレームワークに基づいており、音声とテキストをネイティブの方法で深く融合させた統一的なモデル化を行っています。この設計により、音声認識と生成のプロセスが最適化されるだけでなく、AIにさらに豊かな「魂」が与えられ、人間とのコミュニケーション能力が向上しています。

豆包社のリアルタイム音声大規模言語モデルは、中国語音声対話分野において、ユーザーに前例のないインタラクション体験を提供し、スマート音声技術の発展を推進するでしょう。

嵐圖汽車、超高効率AI音声対話システムを発表、応答時間1秒未満

嵐圖汽車は、独自開発のAI音声対話システムを2025年上半期に正式発表し、発売予定の新型車に搭載すると発表しました。このシステムは応答速度が非常に速く、すべての操作の反応時間は1秒未満です。これは、音声で車両を制御する際に、よりスムーズな体験を得られることを意味します。さらに、98％を超える認識率を誇り、ユーザーの指示を正確に認識できます。技術の進歩に伴い、嵐圖汽車は2025年下半期に大規模なOTA（無線アップデート）を実施する予定です。

Mistral社、コード生成モデルCodestral25.01を更新：速度向上、業界トップレベルの性能

Mistral社は先日、人気のコード生成モデルCodestralのアップグレード版である、最新のオープンソースコード生成モデルCodestral25.01を発表しました。このバージョンではアーキテクチャが最適化され、パフォーマンスが大幅に向上し、同社の「重量級コード生成における明確なリーダー」となりました。速度は以前のバージョンと比較して2倍に向上しています。元のCodestralと同様に、Codestral25.01は低遅延と高頻度操作に重点を置き、コード修正、テスト生成、中間補完をサポートしています。

超高速テキスト音声変換モデルLightning：超低遅延、100ミリ秒で10秒の音声生成

最近、カリフォルニア州サンフランシスコに拠点を置くAIスタートアップ企業smallest.aiは、100ミリ秒で最大10秒の音声生成が可能な新しいテキスト音声変換（TTS）モデル、Lightningを発表しました。この技術の進歩により、世界中の開発者は、高忠実度の音声ボットアプリケーションを構築することができ、遅延時間が大幅に短縮され、実装コストが削減され、アプリケーションのアクセシビリティが向上します。Lightningは現在、英語とヒンディー語の複数のアクセントをサポートしており、チームはさらに迅速に言語を追加する計画です。

新世代オープンソース音声モデルHertz-Dev：超低遅延を実現するAIリアルタイム会話

現代のテクノロジーの波の中で、対話型AIは私たちの生活において重要な一部となっています。しかし、迅速で効率的、そしてリアルタイムでのインタラクションは依然として大きな課題です。特に遅延の問題、つまり入力と応答の間の時間差は、カスタマーサポートボットやバーチャルアシスタントの体験を遅くし、ユーザーエクスペリエンスに悪影響を与えることがよくあります。このギャップを埋めるため、Standard Intelligence Labは最近、8.5億パラメーターの音声モデルであるオープンソースのHertz-Devを発表しました。

AIニュース