UI-TARS é um novo modelo de agente GUI desenvolvido pela ByteDance, focado em interação perfeita com interfaces gráficas do usuário por meio de capacidades de percepção, raciocínio e ação semelhantes às humanas. O modelo integra componentes-chave como percepção, raciocínio, localização e memória em um único modelo de linguagem visual, permitindo a automação de tarefas ponta a ponta sem a necessidade de fluxos de trabalho predefinidos ou regras manuais. Suas principais vantagens incluem a capacidade de interação multiplataforma robusta, a capacidade de executar tarefas de várias etapas e a capacidade de aprendizagem a partir de dados sintéticos e reais, sendo adequado para diversos cenários de automação, como ambientes de desktop, mobile e web.