IBM ha lanzado recientemente su último modelo de lenguaje grande, Granite3.2, diseñado para ofrecer a las empresas y a la comunidad de código abierto una solución de IA empresarial "pequeña, eficiente y práctica". Este modelo no solo cuenta con capacidades multimodales y de razonamiento, sino que también mejora la flexibilidad y la rentabilidad, facilitando su adopción por parte de los usuarios.

QQ_1741229530181.png

Granite3.2 incorpora un modelo de lenguaje visual (VLM) para procesar documentos, clasificar y extraer datos. IBM afirma que este nuevo modelo alcanza o supera el rendimiento de modelos más grandes, como Llama3.2 11B y Pixtral 12B, en algunas pruebas de referencia clave. Además, el modelo de 8B de Granite3.2 muestra una capacidad para igualar o superar a modelos más grandes en pruebas de referencia estándar de razonamiento matemático.

Para mejorar la capacidad de razonamiento, algunos modelos de Granite3.2 incluyen la función de "cadena de pensamiento", que permite aclarar los pasos intermedios del razonamiento. Si bien esta función requiere una mayor capacidad de cálculo, los usuarios pueden activarla o desactivarla según sea necesario para optimizar la eficiencia y reducir los costos generales. Sriram Raghavan, vicepresidente de investigación de IA de IBM, declaró en la presentación que la eficiencia, la integración y el impacto real son los puntos clave de la próxima generación de IA, permitiendo a las empresas lograr resultados poderosos sin excederse en el presupuesto.

Además de la mejora de la capacidad de razonamiento, Granite3.2 presenta una versión miniaturizada del modelo de seguridad "Granite Guardian", que, a pesar de reducir su tamaño en un 30%, mantiene el rendimiento del modelo de la generación anterior. Además, IBM ha introducido una capacidad denominada "confianza verbalizable", que permite una evaluación más detallada del riesgo y considera la incertidumbre en la supervisión de seguridad.

Granite3.2 se entrenó con el kit de herramientas de código abierto Docling de IBM, que permite a los desarrolladores convertir documentos en datos específicos necesarios para modelos de IA empresarial personalizados. Durante el entrenamiento del modelo, se procesaron 85 millones de archivos PDF y 26 millones de pares de preguntas y respuestas sintéticas para mejorar la capacidad del VLM para manejar flujos de trabajo complejos de procesamiento de documentos.

IBM también anunció el lanzamiento de la próxima generación de modelos TinyTimeMixers (TTM), un modelo de preentrenamiento compacto centrado en la predicción de series temporales multivariadas, con capacidad de predicción a largo plazo de hasta dos años.

Blog oficial: https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision

Puntos clave:

📊 Granite3.2 incorpora un modelo de lenguaje visual, mejorando el procesamiento de documentos y la extracción de datos.

💡 El nuevo modelo cuenta con la función de cadena de pensamiento, que aclara el proceso de razonamiento y mejora la capacidad de razonamiento.

🔍 El modelo de seguridad Granite Guardian se ha miniaturizado en un 30%, pero su rendimiento no se ha visto afectado, y se ha introducido una función de evaluación de riesgos con confianza verbalizable.