NExT-GPT: Un Modelo de Lenguaje Multimodal

La Universidad Nacional de Singapur ha lanzado NExT-GPT, un modelo de lenguaje multimodal que admite el procesamiento de texto, imágenes, videos y audio, impulsando el desarrollo de aplicaciones de inteligencia artificial multimedia. El modelo emplea una arquitectura de tres capas, utilizando la tecnología MosIT para el entrenamiento de la capa intermedia. Su contribución de código abierto ofrece a investigadores y desarrolladores la oportunidad de integrar múltiples entradas modales.

La singularidad de NExT-GPT radica en su capacidad para generar etiquetas de señalización modal, lo que abre perspectivas de aplicación en áreas como la generación de contenido y el análisis multimedia.