Midjourney, conocida por su tecnología de generación de imágenes con IA, está mostrando silenciosamente una ambición aún mayor en el campo de la inteligencia artificial. Esta empresa tecnológica, con una gran base de usuarios, tras anunciar su desarrollo de computación e hardware de IA, ha publicado recientemente, junto con expertos en aprendizaje automático de la Universidad de Nueva York (NYU), los resultados de una nueva investigación sobre el entrenamiento de grandes modelos de lenguaje (LLM) para la generación de texto.
La investigación se centra en mejorar la capacidad de los LLM para la escritura creativa, con el objetivo de que los modelos de IA puedan generar textos más creativos, al igual que los modelos de código abierto como Llama de Meta y Mistral.
Más allá de las imágenes: Midjourney se lanza a la generación creativa de texto
Para una empresa conocida por su tecnología de generación de imágenes con IA basada en modelos de difusión, el intento innovador de Midjourney en el campo de la generación de texto envía una señal clara: sus objetivos van mucho más allá del contenido visual. Como dicen los investigadores, el concepto tradicional de "una imagen vale más que mil palabras" podría reescribirse, ya que el potencial creativo del texto también merece una exploración profunda. Midjourney está demostrando con hechos que su exploración en el campo de la IA es multifacética.
Adiós a las fórmulas: nuevas técnicas para mejorar la diversidad de la escritura con IA
El artículo de investigación, publicado en la comunidad de código de IA Hugging Face, presenta de forma innovadora dos nuevas técnicas denominadas "Optimización de Preferencia Directa Diversificada" (Diversified Direct Preference Optimization, DDPO) y "Optimización de Preferencia de Razón de Probabilidades Diversificada" (Diversified Odds Ratio Preference Optimization, DORPO). El objetivo principal de estas dos técnicas es ampliar el rango de textos generados por los modelos de IA, permitiendo que presenten un contenido más rico y diverso, manteniendo la coherencia y la legibilidad.
Los investigadores señalan que, aunque los LLM actuales destacan en áreas como las preguntas y respuestas basadas en hechos o la asistencia de código, capaces de generar la "solución óptima", en el campo de la escritura creativa, debido a su naturaleza abierta, debería haber múltiples respuestas válidas para un mismo aviso. Por ejemplo, para el aviso "escribe una historia sobre un perro en la luna", un humano podría imaginar un perro mascota dejado atrás por un astronauta, perros en una futura colonia espacial canina, o un perro callejero que se hace amigo de una criatura extraterrestre, entre otras tramas radicalmente diferentes.
Sin embargo, los LLM ajustados por instrucciones tienden a converger en líneas argumentales y temas similares. Esto se debe principalmente a que las técnicas de entrenamiento posteriores se centran más en las preferencias del usuario que en la originalidad, reforzando respuestas populares pero repetitivas; además, el ajuste por instrucciones también puede suavizar la variabilidad, haciendo que el modelo tienda a generar respuestas "seguras" pero poco originales. Además, las técnicas existentes para promover la diversidad (como el ajuste de temperatura) suelen funcionar solo en la fase de inferencia del modelo, sin integrarse en el proceso de aprendizaje del modelo. Esto lleva a que la escritura creativa generada por la IA sea homogénea, carente de sorpresa y profundidad.
Permitir que los modelos de IA "abran nuevos caminos"
Para superar estas limitaciones, el equipo de investigación de Midjourney ha mejorado los métodos existentes de optimización de preferencias, introduciendo DDPO y DORPO. El núcleo de estas innovaciones radica en el uso de la "desviación" (deviation), es decir, el grado de diferencia de una respuesta con respecto a otras respuestas, para guiar el entrenamiento del modelo.
Concretamente, durante el entrenamiento, el modelo recibe un aviso de escritura y varias respuestas posibles. A continuación, cada respuesta se compara con otras respuestas al mismo aviso, y se calcula una puntuación de desviación. Las respuestas poco frecuentes pero de alta calidad reciben un peso mayor en el entrenamiento, animando al modelo a aprender de ejemplos más diversos. Al integrar la desviación en la optimización de preferencia directa (DPO) y la optimización de preferencia de razón de probabilidades (ORPO), el modelo puede aprender a generar respuestas de mayor calidad y más diferenciadas. Este método garantiza que las historias generadas por la IA no se limiten a una única estructura predecible, sino que puedan explorar una gama más amplia de personajes, escenarios y temas, al igual que los escritores humanos.
Para verificar la eficacia de estos nuevos métodos, los investigadores utilizaron un conjunto de datos de la comunidad de Reddit r/writingPrompts para entrenar el LLM. Seleccionaron Llama-3.1-8B de Meta (un modelo de 8.000 millones de parámetros) y Mistral-7B-v0.3 de Mistral AI (un modelo de 7.000 millones de parámetros) como modelos base.
El proceso de entrenamiento incluyó dos fases: ajuste fino supervisado (SFT) y optimización de preferencias. En la fase de optimización de preferencias, primero utilizaron DPO y ORPO estándar como línea de base, y luego aplicaron DDPO y DORPO para introducir pesos basados en la desviación. Finalmente, evaluaron el rendimiento del modelo mediante evaluación automática (midiendo la diversidad semántica y estilística) y evaluación humana (juzgando la diversidad y el atractivo de los resultados, y comparándolos con GPT-4 y Claude 3.5).
Los resultados experimentales muestran que DDPO, manteniendo la calidad de la salida, supera significativamente al DPO estándar. Llama-3.1-8B con DDPO logró el mejor equilibrio entre calidad y diversidad, generando respuestas más diversas que GPT-4, manteniendo al mismo tiempo una buena coherencia. Incluso con una reducción del tamaño del conjunto de datos, el modelo DDPO mantuvo cierta diversidad.
Empoderando a diversos sectores: el potencial ilimitado del contenido creativo con IA
Esta investigación tiene una importancia práctica significativa para las empresas que necesitan utilizar la IA para generar textos creativos. Por ejemplo, en áreas como la redacción de textos de marketing, la narración de historias corporativas y la creación de guiones para cine y videojuegos, mejorar la diversidad y la calidad del contenido generado por IA es fundamental. Para los equipos de IA responsables de la implementación de LLM, un desafío clave es cómo mejorar la diversidad de la salida sin sacrificar la calidad. La investigación de Midjourney ofrece una nueva perspectiva para abordar este problema.
El estudio propone un nuevo método de post-entrenamiento para LLM que puede mejorar la creatividad sin sacrificar la calidad. También proporciona una alternativa práctica que puede reemplazar los ajustes de diversidad en el momento de la inferencia (como el ajuste de la temperatura), integrando la diversidad directamente en el proceso de aprendizaje del modelo. Esto podría conducir al desarrollo de aplicaciones de IA más atractivas, como herramientas de escritura asistida por IA y asistentes virtuales capaces de ajustar dinámicamente las respuestas.
Para los profesionales responsables de la orquestación y automatización de modelos de IA, esta investigación destaca la importancia de ajustar el modelo en la fase de entrenamiento, reduciendo así la necesidad de ajustes posteriores al despliegue. También proporciona un método para introducir la narración adaptativa en las aplicaciones impulsadas por IA, garantizando la variabilidad del contenido mientras se mantiene una alta calidad. Además, este método ayuda a que la salida del LLM se parezca más a la humana, lo cual es crucial para aplicaciones que requieren narración interactiva, interacción con el cliente o creación de contenido dinámico.
Conclusión
El éxito de DDPO y DORPO demuestra que entrenar LLM con el objetivo de la diversidad puede lograr avances significativos en la escritura creativa. En el futuro, integrar métodos de aprendizaje basados en la desviación en los modelos de IA empresariales para mejorar la diversidad de las respuestas en las aplicaciones orientadas al cliente, explorar estas técnicas en otras tareas de generación, como la poesía, la escritura de guiones o las historias de juegos, y desarrollar métodos de entrenamiento mixtos que equilibren la diversidad y la capacidad de seguir instrucciones, serán líneas de investigación prometedoras.
El equipo de investigación de Midjourney planea publicar su código, lo que sin duda proporcionará un valioso recurso a los desarrolladores que deseen aplicar estas tecnologías. Al adoptar estas técnicas innovadoras, los equipos de IA podrán superar los patrones rígidos y formulaicos de salida, construyendo sistemas de IA no solo inteligentes, sino también realmente imaginativos.
Artículo:https://huggingface.co/papers/2503.17126