फ्रांस की स्टार्टअप कंपनी Gladia ने एक वॉयस रिकग्निशन एप्लिकेशन प्रोग्रामिंग इंटरफेस (API) पेश किया है, जिसने सीरीज ए फंडिंग में 16 मिलियन डॉलर जुटाए हैं। मूल रूप से, Gladia का API किसी भी ऑडियो फ़ाइल को उच्च सटीकता और कम विलंबता के साथ पाठ में परिवर्तित करने में सक्षम है।
हालांकि अमेज़न, माइक्रोसॉफ्ट और गूगल अपने क्लाउड होस्टेड उत्पाद सूट के हिस्से के रूप में वॉयस-टू-टेक्स्ट API प्रदान करते हैं, लेकिन उनका प्रदर्शन कुछ पेशेवर स्टार्टअप कंपनियों द्वारा पेश किए गए नए मॉडल के मुकाबले उतना अच्छा नहीं है। खासकर OpenAI द्वारा Whisper मॉडल जारी किए जाने के बाद, इस क्षेत्र में पिछले कुछ वर्षों में भारी प्रगति हुई है। Gladia AssemblyAI, Deepgram और Speechmatics जैसी धन समृद्ध कंपनियों के साथ प्रतिस्पर्धा कर रही है।
छवि स्रोत टिप्पणी: छवि AI द्वारा उत्पन्न, छवि लाइसेंस सेवा प्रदाता Midjourney
Gladia ने मूल रूप से Whisper वॉयस-टू-टेक्स्ट मॉडल का एक फाइन-ट्यून संस्करण प्रदान किया और कुछ आवश्यक सुधार किए। उदाहरण के लिए, यह स्टार्टअप बॉक्स से बाहर उपयोग करने योग्य वक्ता पृथक्करण का समर्थन करता है - यह पता लगाने में सक्षम है कि कब बातचीत में कई वक्ता हैं और किसके बोलने के आधार पर रिकॉर्डिंग और ट्रांसक्रिप्टेड टेक्स्ट को अलग करता है।
Gladia 100 भाषाओं और कई लहजों का समर्थन करता है। रिपोर्ट्स के अनुसार, यह उपकरण वास्तव में प्रभावी है, क्योंकि हम कुछ साक्षात्कारों को ट्रांसक्रिप्ट करने के लिए Gladia का उपयोग कर रहे हैं, और लहजे कोई समस्या नहीं हैं।
यह स्टार्टअप अपने वॉयस-टू-टेक्स्ट मॉडल को होस्टेड API के रूप में प्रदान करता है, जिसे उपयोगकर्ता अपने एप्लिकेशन और सेवाओं में लागू कर सकते हैं। 600 से अधिक कंपनियां Gladia का उपयोग कर रही हैं, जिसमें कुछ मीटिंग रिकॉर्डर्स और नोट्स असिस्टेंट जैसे Attention, Circleback, Method Financial, Recall, Sana और Veed.io शामिल हैं।
यह विशेष उपयोग मामला दिलचस्प है क्योंकि कई कंपनियों को API को चेन कॉल करना पड़ता है। वे पहले आवाज़ को टेक्स्ट में परिवर्तित करते हैं, फिर टेक्स्ट को बड़े भाषा मॉडल (LLM) जैसे GPT-4o या Claude3.5Sonnet में इनपुट करते हैं, ताकि बड़ी मात्रा में टेक्स्ट से ज्ञान निकाला जा सके।
नई फंडिंग के साथ, Gladia ऑडियो इंटेलिजेंस और LLM-आधारित कार्यों को एक API कॉल में एकीकृत करने की योजना बना रहा है ताकि इस प्रक्रिया को सरल बनाया जा सके। उदाहरण के लिए, ग्राहक कुछ बुलेट पॉइंट्स से संवाद सारांश उत्पन्न कर सकते हैं, बिना किसी तीसरे पक्ष के LLM API पर निर्भर हुए।
Gladia का एक और समस्या जिसे हल करने की उम्मीद है वह है विलंबता। आपने शायद कुछ वास्तविक समय की ऑडियो बातचीत के डेमो देखे होंगे, जो AI-आधारित कॉल एजेंट का उपयोग करते हैं (11x की वेबसाइट पर एक अच्छा डेमो है), इन सिस्टमों को वास्तविक समय में ट्रांसक्रिप्ट करने में सक्षम होना चाहिए ताकि बातचीत यथासंभव मानव जैसी लगे।
Gladia ने इस समस्या को हल करने का चयन किया है, और वर्तमान में यह वास्तविक समय की बातचीत को 300 मिलीसेकंड से कम विलंबता में ट्रांसक्रिप्ट करने में सक्षम है। कंपनी का दावा है कि वास्तविक समय की प्रोसेसिंग अब डिफ़ॉल्ट असिंक्रोनस बैच ट्रांसक्रिप्ट API के रूप में अच्छी है, लेकिन बिना उचित परीक्षण के यह判断 करना कठिन है। जैसा कि सह-संस्थापक और CEO Jean-Louis Quéguiner (ऊपर चित्र में दाईं ओर) ने TechCrunch को बताया, इस स्टार्टअप का लक्ष्य "वास्तविक समय की क्षमताओं के साथ बैच गुणवत्ता" है।
AI कॉल एजेंट के अलावा, कॉल सेंटर इन वास्तविक समय की सुविधाओं का उपयोग करके कॉल एजेंटों को बातचीत के बीच में प्रासंगिक जानकारी खोजने में मदद कर सकते हैं। "हमारा एकल API सभी मौजूदा तकनीकी स्टैक और प्रोटोकॉल के साथ संगत है, जिसमें SIP, VoIP, FreeSwitch और Asterisk शामिल हैं," सह-संस्थापक और CTO Jonathan Soto (ऊपर चित्र में बाईं ओर) ने एक बयान में कहा।
XAnge ने सीरीज ए फंडिंग में नेतृत्व किया। Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures और Soma Capital ने भी फंडिंग में भाग लिया।
Gladia का मानना है कि हम ऑडियो एप्लिकेशनों के "ChatGPT पल" के किनारे पर हैं। GPT तकनीक कई वर्षों से मौजूद है, लेकिन ChatGPT ने उपभोक्ता-चैट जैसी इंटरफेस के माध्यम से LLM को वास्तव में लोकप्रिय बनाया।
जैसे ही Apple या Google iOS या Android में ट्रांसक्रिप्ट मॉडल शामिल करना शुरू करते हैं, उपभोक्ता उन एप्लिकेशनों में स्वचालित ट्रांसक्रिप्शन के मूल्य को समझना शुरू कर देंगे जिनका वे उपयोग कर रहे हैं। फिर डेवलपर्स अपनी उत्पादों में ऑडियो सुविधाओं को एकीकृत कर सकते हैं, यही वह जगह है जहां Gladia जैसे API प्रदाताओं का उपयोग होता है।