Emilia ist ein quelloffener, mehrsprachiger Sprachdatensatz aus realen Aufnahmen, der speziell für die Forschung im Bereich der großskaligen Sprachgenerierung entwickelt wurde. Er enthält über 101.000 Stunden hochwertiger Sprachdaten in sechs Sprachen mit entsprechenden Texttranskriptionen. Die Daten umfassen diverse Sprechstile und Inhaltstypen wie Talkshows, Interviews, Debatten, Sportkommentare und Hörbücher.