UI-TARS est un modèle d'agent GUI natif de nouvelle génération développé par l'équipe de recherche de ByteDance, conçu pour interagir de manière transparente avec les interfaces utilisateur graphiques grâce à des capacités de perception, de raisonnement et d'action semblables à celles des humains. Ce modèle intègre tous les composants clés, notamment la perception, le raisonnement, la localisation et la mémoire, permettant ainsi l'automatisation de tâches de bout en bout sans avoir besoin de flux de travail prédéfinis ou de règles manuelles. Ses principaux avantages incluent de puissantes capacités d'interaction multimodale, une perception visuelle et une compréhension sémantique de haute précision, ainsi que d'excellentes performances dans divers scénarios de tâches complexes. Ce modèle convient aux scénarios nécessitant une interaction GUI automatisée, tels que les tests automatisés et les bureaux intelligents, et permet d'améliorer considérablement l'efficacité du travail.