La empresa francesa de IA Les Ministraux ha lanzado dos nuevos modelos ligeros, Ministral3B y Ministral8B, diseñados específicamente para dispositivos periféricos. Estos modelos cuentan con 3 mil millones y 8 mil millones de parámetros, respectivamente. Ambos modelos han demostrado un rendimiento excepcional en pruebas de seguimiento de instrucciones: Ministral3B supera a Llama38B y Mistral7B, mientras que Ministral8B es superior a estos dos modelos en todos los aspectos excepto en la capacidad de codificación.
Los resultados de las pruebas muestran que el rendimiento de Ministral3B y Ministral8B es comparable al de modelos de código abierto como Gemma2 y Llama3.1. Ambos modelos admiten un contexto de hasta 128k y establecen un nuevo estándar para modelos con menos de 10 mil millones de parámetros en cuanto a conocimiento, sentido común, razonamiento, llamadas a funciones y eficiencia. Ministral8B también incorpora un mecanismo de atención de ventana deslizante para una inferencia en memoria más rápida y eficiente. Se pueden ajustar finamente para diversos casos de uso, como la gestión de flujos de trabajo complejos de agentes de IA o la creación de asistentes de tareas especializados.
Los investigadores realizaron varias pruebas de referencia en los modelos Les Ministraux, que abarcan conocimiento y sentido común, código, matemáticas y varios idiomas. En la fase de preentrenamiento del modelo, Ministral3B obtuvo los mejores resultados en comparación con Gema22B y Llama3.23B. Ministral8B obtuvo los mejores resultados en comparación con Llama3.18B y Mistral7B en todos los aspectos excepto en la capacidad de codificación. En la fase de modelos de instrucciones ajustados, Ministral3B obtuvo los mejores resultados en diferentes pruebas de referencia, mientras que Ministral8B solo fue ligeramente inferior a Gema29B en Wild bench.
El lanzamiento de los modelos Les Ministraux ofrece a los usuarios una solución de alta eficiencia computacional y baja latencia, satisfaciendo la creciente demanda de inferencia prioritaria local para aplicaciones críticas. Los usuarios pueden aplicar estos modelos a escenarios como la traducción en dispositivos, asistentes inteligentes sin conexión a internet y robots autónomos. El precio de entrada y salida de Ministral8B es de 0,1 dólares por millón de tokens, mientras que Ministral3B cuesta 0,04 dólares por millón de tokens.
Cabe destacar que Mistral anteriormente había publicado varios modelos de código abierto mediante enlaces magnéticos, obteniendo el reconocimiento de la comunidad de IA. Sin embargo, la empresa se vio envuelta en controversia este año al dejar de ser tan abierta como antes. Se rumorea que Microsoft adquirirá una parte de Mistral e invertirá en ella, lo que significa que los modelos de Mistral se alojarán en Azure AI. Los usuarios de Reddit descubrieron que Mistral eliminó de su sitio web el compromiso con el código abierto. Algunos modelos de la empresa también comenzaron a cobrar, incluidos Ministral3B y Ministral8B.
Más información: https://mistral.ai/news/ministraux/