Recientemente, el equipo de inteligencia artificial de Apple, en colaboración con la Universidad de Washington y otras instituciones, ha lanzado un modelo de lenguaje de código abierto llamado DCLM. Este modelo cuenta con 700 millones de parámetros y se entrenó utilizando hasta 2,5 billones de tokens de datos, lo que ayuda a comprender y generar mejor el lenguaje.
Entonces, ¿qué es un modelo de lenguaje? En pocas palabras, es un programa que puede analizar y generar lenguaje, ayudándonos a realizar diversas tareas como traducción, generación de texto y análisis de sentimiento. Para que estos modelos funcionen mejor, necesitamos conjuntos de datos de alta calidad. Sin embargo, obtener y organizar estos datos no es tarea fácil, ya que debemos filtrar el contenido irrelevante o dañino y eliminar la información duplicada.
Para abordar este desafío, el equipo de investigación de Apple presentó "DataComp" (DataComp for Language Models, o DCLM), una herramienta para optimizar conjuntos de datos para modelos de lenguaje. Recientemente, lanzaron el modelo y el conjunto de datos DCIM de código abierto en la plataforma Hugging Face. La versión de código abierto incluye DCLM-7B, DCLM-1B, dclm-7b-it, DCLM-7B-8k, dclm-baseline-1.0 y dclm-baseline-1.0-parquet, permitiendo a los investigadores realizar una gran cantidad de experimentos para encontrar las estrategias de organización de datos más efectivas.
https://huggingface.co/collections/mlfoundations/dclm-669938432ef5162d0d0bc14b
La principal ventaja de DCLM radica en su flujo de trabajo estructurado. Los investigadores pueden seleccionar modelos de diferentes tamaños, desde 412 millones hasta 700 millones de parámetros, y experimentar con diferentes métodos de organización de datos, como la eliminación de duplicados y el filtrado. Estos experimentos sistemáticos permiten evaluar claramente la calidad de diferentes conjuntos de datos. Esto no solo sienta las bases para futuras investigaciones, sino que también ayuda a comprender cómo mejorar los conjuntos de datos para optimizar el rendimiento de los modelos.
Por ejemplo, utilizando el conjunto de datos de referencia creado con DCLM, el equipo de investigación entrenó un modelo de lenguaje de 700 millones de parámetros que logró una precisión del 64% en la prueba MMLU con 5 ejemplos! Esto representa una mejora del 6,6% con respecto al nivel más alto anterior, y se logró con un 40% menos de recursos computacionales. El rendimiento del modelo base DCLM también es comparable al de Mistral-7B-v0.3 y Llama-38B, los cuales requieren muchos más recursos computacionales.
El lanzamiento de DCLM establece un nuevo estándar para la investigación de modelos de lenguaje, ayudando a los científicos a mejorar sistemáticamente el rendimiento de los modelos y a reducir los recursos computacionales necesarios.
Puntos clave:
1️⃣ Apple AI, en colaboración con varias instituciones, lanza DCLM, un potente modelo de lenguaje de código abierto.
2️⃣ DCLM proporciona herramientas estandarizadas para la optimización de conjuntos de datos, ayudando a los investigadores a realizar experimentos eficientes.
3️⃣ El nuevo modelo ha logrado avances significativos en pruebas importantes, al tiempo que reduce la necesidad de recursos computacionales.