AudioLM est un cadre développé par Google Research pour la génération audio haute fidélité, assurant une cohérence à long terme. Il mappe l'audio d'entrée à une séquence de jetons discrets et traite la génération audio comme une tâche de modélisation linguistique dans cet espace de représentation. Entraîné sur un vaste corpus de formes d'onde audio brutes, AudioLM apprend à générer des continuations audio naturelles et cohérentes. Il peut même générer des continuations de parole grammaticalement et sémantiquement cohérentes sans texte ni annotation, tout en préservant l'identité et le rythme du locuteur. De plus, AudioLM peut générer des continuations cohérentes de musique pour piano, même sans représentation symbolique musicale lors de son entraînement.