SoundStorm es una tecnología de generación de audio desarrollada por Google Research que reduce drásticamente el tiempo de síntesis de audio mediante la generación paralela de tokens de audio. Esta tecnología genera audio de alta calidad con una alta consistencia en la voz y las condiciones acústicas, y se puede combinar con modelos de texto a significado para controlar el contenido del habla, la voz del hablante y los turnos de habla, permitiendo la síntesis de voz de texto largo y la generación de diálogos naturales. La importancia de SoundStorm radica en que soluciona el problema de la lentitud en la inferencia de los modelos de generación de audio autorregresivo tradicionales al procesar secuencias largas, mejorando así la eficiencia y la calidad de la generación de audio.