VSP-LLM
視覚音声処理と大規模言語モデルを組み合わせたフレームワーク
一般製品プログラミング視覚音声処理大規模言語モデル
VSP-LLMは、視覚音声処理(Visual Speech Processing)と大規模言語モデル(LLMs)を組み合わせたフレームワークです。LLMの強力な能力を活用することで、コンテキストモデリング能力を最大化することを目指しています。VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するために設計されており、自己教師あり視覚音声モデルを通じて入力ビデオをLLMの入力潜在空間にマッピングします。このフレームワークは、新規な重複除去手法と低ランクアダプター(LoRA)を提案することで、効率的なトレーニングを実現します。
VSP-LLM 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34