Investigadores de Meta AI, en colaboración con socios académicos, han desarrollado un sistema innovador llamado MILS (Multimodal Iterative LLM Solver), capaz de enseñar a los grandes modelos de lenguaje (LLM) a procesar imágenes, videos y audio sin necesidad de entrenamiento específico. MILS aprovecha la capacidad natural de resolución de problemas de los modelos de lenguaje, en lugar de depender de un entrenamiento masivo de datos, lo que representa una ventaja única.
MILS funciona emparejando dos modelos de IA para resolver tareas: un "generador" que propone soluciones y un "evaluador" que evalúa su eficacia. La retroalimentación del evaluador ayuda al generador a refinar continuamente las respuestas hasta lograr un resultado satisfactorio. Por ejemplo, en la descripción de imágenes, MILS puede perfeccionar gradualmente la descripción, capturando detalles a diferentes niveles.
MILS destaca especialmente en la descripción de imágenes. Utilizando Llama-3.1-8B como generador y CLIP como evaluador, MILS crea descripciones tan detalladas como, o incluso más que, los métodos líderes actuales, a pesar de que CLIP no fue entrenado específicamente para esta tarea. Además, MILS mejora la generación de imagen a partir de texto mediante el ajuste fino de las indicaciones de texto, y puede combinar indicaciones generadas por IA con herramientas de procesamiento de imágenes para tareas de edición como la conversión de estilo.
La precisión de la descripción de la imagen aumenta con el número de pasos entre el generador y el evaluador. | Imagen: Ashutosh et al.
La funcionalidad de MILS no se limita a las imágenes; se extiende a videos y audio. En pruebas con el conjunto de datos de video MSR-VTT, MILS superó a los modelos existentes en la descripción del contenido de video. Como MILS no modifica los parámetros del modelo durante su ejecución, puede convertir diferentes tipos de datos en texto legible, permitiendo la integración de información de múltiples fuentes (imágenes, audio, etc.) y su transformación al formato deseado, abriendo nuevas posibilidades para la fusión de información multimodal.
Las pruebas demostraron que el uso de modelos generadores y evaluadores más grandes produce resultados más precisos, y aumentar el número de soluciones potenciales mejora significativamente el rendimiento. Los investigadores también descubrieron que el escalamiento a modelos de lenguaje más grandes no solo mejora la calidad de los resultados, sino que también mejora notablemente el rendimiento.
La descripción de un paisaje evoluciona desde una simple descripción básica hasta una representación compleja con detalles más precisos y elementos naturales. | Imagen: Ashutosh et al.
La estrategia innovadora de MILS se alinea con la tendencia actual en IA hacia capacidades de razonamiento más inteligentes. El equipo de Meta también indica que MILS podría tener un gran potencial en áreas como el procesamiento de datos 3D, impulsando aún más el desarrollo de la IA multimodal.
Con el rápido desarrollo de GPT-4 de OpenAI y otras alternativas de código abierto como Llama 3.2 de Meta, Pixtral de Mistral y Janus Pro de DeepSeek, estos nuevos sistemas de IA multimodal están acelerando su aplicación en la vida diaria y sentando las bases para el futuro de la inteligencia artificial.