YOLO-World es un detector de objetos en tiempo real con vocabulario abierto de última generación, basado en la serie de detectores You Only Look Once (YOLO). Su capacidad de detección de vocabulario abierto se ha mejorado mediante el modelado visión-lenguaje y el preentrenamiento con conjuntos de datos a gran escala. Emplea una nueva red de agregación de rutas visión-lenguaje reparametrizable (RepVL-PAN) y una pérdida de contraste región-texto, lo que fomenta la interacción entre la información visual y lingüística. YOLO-World detecta eficientemente diversos objetos de forma de cero-disparo (zero-shot) con alta eficiencia. En el desafiante conjunto de datos LVIS, YOLO-World alcanzó un AP de 35.4 y 52.0 FPS en una V100, superando en precisión y velocidad a muchos métodos de vanguardia. Además, YOLO-World, una vez ajustado finamente, presenta un rendimiento excepcional en múltiples tareas secundarias, incluyendo la detección de objetos y la segmentación de instancias con vocabulario abierto.