YOLO-विश्व एक उन्नत वास्तविक समय खुले शब्दकोष वाली वस्तु पहचानकर्ता है, जो You Only Look Once (YOLO) श्रृंखला के डिटेक्टर पर आधारित है, और दृश्य-भाषा मॉडलिंग और बड़े पैमाने पर डेटासेट के पूर्व प्रशिक्षण के माध्यम से, खुले शब्दकोष पहचान क्षमता को बढ़ाता है। इसमें एक नया पुन: पैरामीटरीज़ेबल दृश्य-भाषा पथ एकत्रीकरण नेटवर्क (RepVL-PAN) और क्षेत्र-पाठ तुलनात्मक हानि का उपयोग किया गया है, जो दृश्य और भाषा की जानकारी के बीच बातचीत को बढ़ावा देता है। YOLO-विश्व शून्य-शॉट विधि में कुशलतापूर्वक विभिन्न प्रकार की वस्तुओं का पता लगाता है, जिसमें उच्च दक्षता है। चुनौतीपूर्ण LVIS डेटासेट पर, YOLO-विश्व ने V100 पर 35.4 AP और 52.0 FPS प्राप्त किया, जो सटीकता और गति दोनों के मामले में कई नवीनतम विधियों से बेहतर है। इसके अलावा, माइक्रोट्यून किया गया YOLO-विश्व कई डाउनस्ट्रीम कार्यों में उत्कृष्ट प्रदर्शन करता है, जिसमें वस्तु पहचान और खुले शब्दकोष उदाहरण विभाजन शामिल हैं।