Llasa-1B हांगकांग विज्ञान और प्रौद्योगिकी विश्वविद्यालय की ऑडियो प्रयोगशाला द्वारा विकसित एक टेक्स्ट-टू-स्पीच मॉडल है। यह LLaMA आर्किटेक्चर पर आधारित है और XCodec2 कोडबुक में वॉयस मार्किंग को जोड़कर, टेक्स्ट को प्राकृतिक और सुचारू वॉयस में बदल सकता है। यह मॉडल 250,000 घंटे के चीनी और अंग्रेजी भाषा के वॉयस डेटा पर प्रशिक्षित किया गया है, और यह सादे टेक्स्ट से वॉयस जेनरेट कर सकता है, साथ ही दिए गए वॉयस प्रॉम्प्ट का उपयोग करके भी संश्लेषण कर सकता है। इसका मुख्य लाभ उच्च-गुणवत्ता वाली बहुभाषी वॉयस जेनरेट करना है, जो ऑडियोबुक, वॉयस असिस्टेंट आदि जैसे कई भाषण संश्लेषण परिदृश्यों के लिए उपयुक्त है। यह मॉडल CC BY-NC-ND 4.0 लाइसेंस के अंतर्गत है, और वाणिज्यिक उपयोग के लिए निषिद्ध है।