Spirit LM

テキストと音声統合のマルチモーダル言語モデル

一般製品生産性マルチモーダル言語モデル

Spirit LMは、テキストと音声を自由に融合できる基礎的なマルチモーダル言語モデルです。70億パラメータの事前学習済みテキスト言語モデルをベースに、テキストと音声ユニットの継続的な学習によって音声モードに拡張されています。音声とテキストのシーケンスは単一のトークンストリームに連結され、小規模な自動キュレーションされた音声テキスト平行コーパスを用いて、単語レベルのインターリービング手法で学習が行われます。Spirit LMには、基礎版（音声音素ユニット（HuBERT）を使用）と、音素ユニットに加えてピッチとスタイルユニットを使用して表現力を模倣する表現版の2つのバージョンがあります。いずれのバージョンでも、テキストはサブワードBPEトークンでエンコードされます。このモデルは、テキストモデルのセマンティック能力と音声モデルの表現能力の両方を示しています。さらに、Spirit LMは少量のサンプルでクロスモーダルな新しいタスク（ASR、TTS、音声分類など）を学習できることを示しています。

Best AI Websites & Tools

Spirit LM

Spirit LM 最新のトラフィック状況

Spirit LM 訪問数の傾向

Spirit LM 訪問地理的分布

Spirit LM トラフィックソース

Spirit LM 代替品

Spirit LM — テキストと音声統合のマルチモーダル言語モデル

Inception Labs — Inception Labsは、次世代の拡散型大規模言語モデルを発表し、極めて高速で効率的で高品質な言語生成能力を提供します。

GPT4o.so — 革命的なAI技術、マルチモーダルインテリジェントインタラクション

imp-v1-3b — 強力なマルチモーダル小型言語モデル

Instella — Instellaは、AMDが開発した高性能なオープンソース言語モデルであり、オープンソース言語モデルの発展を加速するために設計されています。

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

Mochii AI — Mochii AIは、最先端のモデルを基盤としたパーソナライズされたAIエコシステムであり、人間とAIの協働の未来を支援します。

TheoremExplainAgent — TheoremExplainAgentは、マルチモーダルな定理解説動画を生成するためのインテリジェントシステムです。

GPT-4.5 — OpenAIが発表した最新の言語モデルGPT-4.5は、教師なし学習能力の向上に重点を置き、より自然なインタラクション体験を提供します。

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Liteは、長文処理と多様なアプリケーションシナリオ向けに最適化された、高効率な言語モデルです。

Phi-4-multimodal-instruct — Phi-4-multimodal-instructは、Microsoftが開発した軽量のマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートします。

DeepSeek 日本語版 — DeepSeekは、論理推論、数学、プログラミングタスクに秀でた高度なAI言語モデルです。無料で利用できます。

AlphaMaze-v0.2-1.5B — 大規模言語モデルの視覚推論能力を向上させるための、テキスト迷路解決タスクを用いた革新的な手法

ZeroBench — ZeroBenchは、現代の大規模マルチモーダルモデルを対象とした、高難易度のビジュアルベンチマークです。

OLMoEアプリ — Ai2 OLMoEは、iOSデバイスで動作するオープンソースの言語モデルアプリです。

FireRedASR — オープンソースの工業レベル標準中国語自動音声認識モデルで、様々なアプリケーションシナリオに対応しています。

VideoRAG — VideoRAGは、極めて長いコンテキストを持つビデオを処理するための、検索拡張型生成フレームワークです。

Xwen-Chat — Xwen-Chatは、日本語対話に特化した大規模言語モデルの集合体であり、複数バージョンのモデルと自然言語生成サービスを提供します。

OmniHuman-1 — OmniHuman-1は、一枚の人物画像とモーション信号から人間の動画を生成するマルチモーダルフレームワークです。

MILS — LLMは、いかなる訓練もなしに視覚情報と聴覚情報を認識できます。

Janus-Pro-7B — Janus-Pro-7Bは、マルチモーダルな理解と生成を統合した、新しい自己回帰フレームワークです。

UI-TARS — UI-TARSは、次世代のネイティブGUIエージェントモデルであり、グラフィカルユーザーインターフェースの相互作用を自動化するために使用されます。

ReaderLM v2 — ReaderLM v2は、HTMLをMarkdownとJSONに変換するための、最先端の小型言語モデルです。

MiniMax-01 — 4,560億パラメーターを持つ強力な言語モデルで、最大400万トークンのコンテキストを処理可能です。

MinMo — MinMoは、シームレスな音声インタラクションを可能にするマルチモーダル大規模言語モデルです。

MiniCPM-o-2_6 — MiniCPM-o 2.6は、視覚、音声、マルチモーダルライブストリーミングに適した強力なマルチモーダル大規模言語モデルです。

MiniCPM-o — MiniCPM-o 2.6：GPT-4oレベルの性能を備え、スマートフォン上でビジュアル、音声、マルチモーダルライブストリーミングを実現するMLLMです。

Albus AI — 全能AIワークスペース。リアルタイム音声アシスタントとマルチモーダルキャンバスで、効率的な創作と思考を支援します。

rStar-Math — 小型言語モデルが自己進化と深層思考を通じて数学的推論能力を習得する研究成果を示します。

Moondream AI — 様々なデバイスで動作するオープンソースのビジョン言語モデルです。