FunAudioLLM एक ऐसा ढाँचा है जिसका उद्देश्य बड़े भाषा मॉडल (Large Language Models, LLMs) के साथ मानवों के बीच प्राकृतिक ध्वनि अंतःक्रिया को बढ़ाना है। इसमें दो नवीन मॉडल शामिल हैं: SenseVoice उच्च परिशुद्धता बहुभाषी ध्वनि पहचान, भावना पहचान और ऑडियो घटनाओं के पता लगाने के लिए जिम्मेदार है; CosyVoice प्राकृतिक ध्वनि निर्माण के लिए जिम्मेदार है, जो बहुभाषी, स्वर और भावना नियंत्रण का समर्थन करता है। SenseVoice 50 से अधिक भाषाओं का समर्थन करता है, जिसमें बहुत कम विलंबता है; CosyVoice बहुभाषी ध्वनि निर्माण, शून्य-नमूना संदर्भ निर्माण, क्रॉस-भाषा ध्वनि क्लोनिंग और निर्देश अनुसरण क्षमता में कुशल है। संबंधित मॉडल Modelscope और Huggingface पर खुले स्रोत हैं, और GitHub पर संबंधित प्रशिक्षण, अनुमान और माइक्रो-ट्यूनिंग कोड जारी किया गया है।