UI-TARS es un modelo de agente GUI nativo de próxima generación desarrollado por el equipo de investigación de ByteDance, diseñado para interactuar sin problemas con interfaces gráficas de usuario mediante capacidades de percepción, razonamiento y acción similares a las humanas. El modelo integra todos los componentes clave, como percepción, razonamiento, localización y memoria, lo que permite la automatización de tareas de extremo a extremo sin necesidad de flujos de trabajo predefinidos o reglas manuales. Sus principales ventajas incluyen una potente capacidad de interacción multimodal, una percepción visual y una comprensión semántica de alta precisión, y un excelente rendimiento en una variedad de escenarios de tareas complejas. Este modelo es adecuado para escenarios que requieren la automatización de la interacción GUI, como pruebas automatizadas y trabajo inteligente, lo que permite mejorar significativamente la eficiencia del trabajo.