TAG-Bench es un benchmark para evaluar e investigar el rendimiento de los modelos de procesamiento de lenguaje natural (PLN) en la respuesta a consultas de bases de datos. Se basa en el benchmark BIRD Text2SQL, pero aumenta la complejidad de las consultas al requerir conocimiento del mundo o razonamiento semántico que va más allá de la información explícita en la base de datos. TAG-Bench busca impulsar la fusión de la IA y la tecnología de bases de datos, ofreciendo a los investigadores una plataforma para desafiar los modelos existentes mediante la simulación de escenarios reales de consultas de bases de datos.