Metaは、世界最大級の多様な形式に対応した翻訳大規模言語モデルSeamlessM4Tをオープンソースとして公開しました。100以上の言語に対応し、方言も認識可能です。
このモデルは、音声からテキスト、音声から音声、テキストから音声、テキストからテキストといった様々な形式の翻訳タスクを実行できます。SeamlessM4Tは、Metaが以前公開したNLLB、MMSといった翻訳モデルを統合し、大量の音声とテキストのペアデータを用いてトレーニングされています。
多様な翻訳タスクにおいて最先端の結果を達成し、特に背景ノイズや話者変化に対する認識において堅牢性の高い性能を示しました。さらに、中低資源言語における性能も大幅に向上しています。