A estrutura SALMONN, integrando diferentes codificadores auditivos e uma etapa de ajuste de ativação, alcançou um desempenho auditivo universal competitivo. Sua arquitetura multimodal permite que modelos de linguagem grandes compreendam e processem diretamente entradas de áudio genéricas, demonstrando desempenho competitivo em várias tarefas.