El equipo de Implementación y Conceptos Avanzados (IMPACT) de la NASA, a través de acuerdos de la Ley Espacial con socios privados y no federales, ha desarrollado conjuntamente INDUS, un gran modelo de lenguaje (LLM) para las ciencias de la Tierra, las ciencias biológicas y físicas, la heliofísica, la ciencia planetaria y la astrofísica, entrenado con literatura científica seleccionada de diversas fuentes de datos.
INDUS incluye dos tipos de modelos: codificador y traductor de oraciones. El codificador convierte texto en lenguaje natural en una codificación numérica que puede ser procesada por el LLM. El codificador INDUS se entrenó en un corpus de 6 mil millones de tokens que incluye datos de astrofísica, ciencia planetaria, ciencias de la Tierra, heliofísica, ciencias biológicas y ciencias físicas. Un tokenizador personalizado desarrollado por el equipo de colaboración IMPACT-IBM mejoró el tokenizador genérico al identificar términos científicos como biomarcadores y fosforilación. Más de la mitad de las 50.000 palabras de INDUS son exclusivas de los campos científicos específicos utilizados en su entrenamiento. El modelo codificador INDUS se ajustó finamente en aproximadamente 268 millones de pares de texto, incluyendo título/resumen y pregunta/respuesta.
Al proporcionar a INDUS un vocabulario específico del dominio, el equipo IMPACT-IBM logró un rendimiento superior al de los LLM abiertos y no específicos del dominio en pruebas de referencia de tareas biomédicas, pruebas de referencia de preguntas y respuestas científicas y pruebas de reconocimiento de entidades de ciencias de la Tierra. A través del diseño de diversas tareas lingüísticas y la generación mejorada por recuperación, INDUS puede procesar las preguntas de los investigadores, recuperar documentos relevantes y generar respuestas. Para aplicaciones sensibles al retraso, el equipo desarrolló versiones más pequeñas y rápidas de los modelos codificador y traductor de oraciones.
Las pruebas de validación demostraron que INDUS pudo recuperar párrafos relevantes de la literatura científica al responder un conjunto de pruebas de aproximadamente 400 preguntas de la NASA. El investigador de IBM, Bishwaranjan Bhattacharjee, comentó sobre el método general: "Hemos logrado un rendimiento excepcional al tener no solo un vocabulario personalizado, sino también un gran modelo codificador entrenado específicamente y una buena estrategia de entrenamiento. Para las versiones más pequeñas y rápidas, utilizamos la búsqueda de arquitectura neuronal para obtener la arquitectura del modelo y el entrenamiento mediante destilación del conocimiento supervisado por un modelo más grande."
Puntos clave:
- 🚀La NASA e IBM colaboran para desarrollar el gran modelo de lenguaje INDUS, aplicable a las ciencias de la Tierra, las ciencias biológicas y físicas, la heliofísica, la ciencia planetaria y la astrofísica.
- 🎓INDUS incluye dos tipos de modelos: codificador y traductor de oraciones, entrenado con un tokenizador personalizado y un corpus de 6 mil millones de tokens, y ajustado finamente en aproximadamente 268 millones de pares de texto.
- 💡INDUS, gracias a su vocabulario específico del dominio y al diseño de diversas tareas lingüísticas y generación mejorada por recuperación, supera el rendimiento de los LLM abiertos y no específicos del dominio, pudiendo procesar preguntas de investigadores, recuperar documentos relevantes y generar respuestas.