text-to-pose es un proyecto de investigación que busca generar poses de figuras humanas a partir de descripciones textuales, y utilizar estas poses para generar imágenes. Esta tecnología combina el procesamiento del lenguaje natural y la visión por computadora, logrando la generación de imágenes a partir de texto mediante la mejora del control y la calidad de los modelos de difusión. El proyecto se basa en un artículo presentado en el NeurIPS 2024 Workshop, mostrando innovación y vanguardia. Sus principales ventajas incluyen una mayor precisión y controlabilidad en la generación de imágenes, además de su potencial aplicación en campos como la creación artística y la realidad virtual.