OmniAudio-2.6B es un modelo multimodal de 2.6B parámetros capaz de procesar sin problemas entradas de texto y audio. A diferencia de los métodos tradicionales que encadenan modelos ASR y LLM, este modelo combina Gemma-2B, Whisper turbo y un módulo de proyección personalizado, unificando ambas capacidades en una arquitectura eficiente para lograr una mínima latencia y consumo de recursos. Esto le permite procesar texto de audio de forma segura y rápida directamente en dispositivos perimetrales como smartphones, portátiles y robots.