VSP-LLM

視覚音声処理と大規模言語モデルを組み合わせたフレームワーク

一般製品プログラミング視覚音声処理大規模言語モデル
VSP-LLMは、視覚音声処理(Visual Speech Processing)と大規模言語モデル(LLMs)を組み合わせたフレームワークです。LLMの強力な能力を活用することで、コンテキストモデリング能力を最大化することを目指しています。VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するために設計されており、自己教師あり視覚音声モデルを通じて入力ビデオをLLMの入力潜在空間にマッピングします。このフレームワークは、新規な重複除去手法と低ランクアダプター(LoRA)を提案することで、効率的なトレーニングを実現します。
ウェブサイトを開く

VSP-LLM 最新のトラフィック状況

月間総訪問数

474564576

直帰率

36.20%

平均ページ/訪問

6.1

平均訪問時間

00:06:34

VSP-LLM 訪問数の傾向

VSP-LLM 訪問地理的分布

VSP-LLM トラフィックソース

VSP-LLM 代替品