SALMONNは、オーディオテキスト多様な大規模言語モデルフレームワークであり、大規模言語モデルの汎用聴覚領域における理解と処理能力の拡張を目指しています。非音声BEATsオーディオエンコーダ、OpenAI Whisperフレームワークの音声エンコーダ、ウィンドウレベルQ-Formerなどのコンポーネントを統合し、高い時間分解能を実現することで、オーディオテキストのアライメントを可能にします。活性化調整段階を経て、SALMONNはオーディオ字幕、音声翻訳などのタスクで競争力のある性能を示し、汎用聴覚能力を実証しています。