UI-TARS es un nuevo modelo de agente GUI desarrollado por ByteDance, que se centra en la interacción fluida con interfaces gráficas de usuario mediante capacidades de percepción, razonamiento y acción similares a las humanas. Este modelo integra componentes clave como la percepción, el razonamiento, la localización y la memoria en un único modelo de lenguaje visual, lo que permite la automatización de tareas de extremo a extremo sin necesidad de flujos de trabajo predefinidos ni reglas manuales. Sus principales ventajas incluyen una potente capacidad de interacción multiplataforma, la capacidad de ejecutar tareas de varios pasos y la capacidad de aprendizaje a partir de datos sintéticos y reales, siendo adecuado para diversas situaciones de automatización, como entornos de escritorio, móviles y web.