SALMONNフレームワーク:大規模言語モデルの汎用聴覚能力拡張

站长之家
108
SALMONNは、オーディオテキスト多様な大規模言語モデルフレームワークであり、大規模言語モデルの汎用聴覚領域における理解と処理能力の拡張を目指しています。非音声BEATsオーディオエンコーダ、OpenAI Whisperフレームワークの音声エンコーダ、ウィンドウレベルQ-Formerなどのコンポーネントを統合し、高い時間分解能を実現することで、オーディオテキストのアライメントを可能にします。活性化調整段階を経て、SALMONNはオーディオ字幕、音声翻訳などのタスクで競争力のある性能を示し、汎用聴覚能力を実証しています。
© 著作権 AIbase基地 2024, 出典元はこちら - https://www.aibase.com/ja/news/3667