एमिलिया एक ओपन-सोर्स बहुभाषी फील्ड रिकॉर्डिंग वाक् डेटासेट है, जो बड़े पैमाने पर वाक् उत्पादन अनुसंधान के लिए बनाया गया है। इसमें छह भाषाओं के 101,000 घंटे से ज़्यादा उच्च-गुणवत्ता वाले वाक् डेटा और संबंधित पाठ ट्रांसक्रिप्शन शामिल हैं, जो विभिन्न प्रकार की वाक् शैलियों और सामग्री प्रकारों जैसे टॉक शो, साक्षात्कार, बहस, खेल कमेंट्री और ऑडियोबुक को कवर करते हैं।