En el ámbito del entrenamiento de inteligencia artificial, las tarjetas gráficas de Nvidia son prácticamente imbatibles, pero en el campo de la inferencia de IA, los competidores parecen estar alcanzando rápidamente, especialmente en términos de eficiencia energética. Aunque el nuevo chip Blackwell de Nvidia ofrece un rendimiento potente, aún no está claro si podrá mantener su liderazgo.
Hoy, ML Commons ha publicado los resultados de la última competición de inferencia de IA: MLPerf Inference v4.1. En esta ronda, participaron por primera vez los aceleradores Instinct de AMD, los aceleradores Trillium de Google, los chips de la startup canadiense UntetherAI y los chips Blackwell de Nvidia. Otras dos empresas, Cerebras y FuriosaAI, lanzaron nuevos chips de inferencia, pero no presentaron resultados en MLPerf.
MLPerf se estructura como una competición olímpica, con múltiples pruebas y subpruebas. La categoría "Data Center Closed" tuvo la mayor cantidad de participantes. A diferencia de la categoría abierta, la categoría cerrada exige que los participantes realicen inferencias en modelos dados sin modificar significativamente el software. La categoría de centros de datos prueba principalmente la capacidad de procesamiento por lotes, mientras que la categoría de borde se centra en reducir la latencia.
Cada categoría incluye 9 pruebas de referencia diferentes, que abarcan diversas tareas de IA, incluyendo la popular generación de imágenes (como Midjourney) y las preguntas y respuestas de los grandes modelos de lenguaje (como ChatGPT), además de otras tareas importantes pero menos conocidas, como la clasificación de imágenes, la detección de objetos y los motores de recomendación.
Esta ronda añadió una nueva prueba de referencia: "Modelo mixto de expertos". Este es un método cada vez más popular para la implementación de modelos de lenguaje, que consiste en dividir un modelo de lenguaje en varios modelos pequeños e independientes, cada uno de los cuales está ajustado para una tarea específica, como conversaciones cotidianas, resolución de problemas matemáticos o asistencia en programación. Al asignar cada consulta al modelo pequeño correspondiente, se reduce el uso de recursos, lo que disminuye los costes y aumenta el rendimiento, según Miroslav Hodak, técnico superior de AMD.
En la popular prueba de referencia "Data Center Closed", las presentaciones basadas en las GPU H200 y el súper chip GH200 de Nvidia, que combinan GPU y CPU en un solo paquete, volvieron a ganar. Sin embargo, un análisis más detallado de los resultados revela algunos aspectos interesantes. Algunos participantes utilizaron múltiples aceleradores, mientras que otros solo utilizaron uno. Si normalizamos las consultas por segundo según el número de aceleradores y conservamos la mejor presentación de cada tipo de acelerador, el panorama se vuelve más incierto. Cabe destacar que este método ignora el papel de la CPU y la interconexión.
En términos de rendimiento individual de cada acelerador, el Blackwell de Nvidia destacó en la tarea de preguntas y respuestas de grandes modelos de lenguaje, con una velocidad 2,5 veces superior a la de las iteraciones anteriores del chip, siendo esta la única prueba de referencia que presentó. El chip de preproducción speedAI240 de Untether AI obtuvo un rendimiento casi idéntico al del H200 en su única tarea de reconocimiento de imágenes presentada. El Trillium de Google obtuvo un rendimiento ligeramente inferior al H100 y H200 en la tarea de generación de imágenes, mientras que el Instinct de AMD obtuvo un rendimiento equivalente al H100 en la tarea de preguntas y respuestas de grandes modelos de lenguaje.
El éxito del Blackwell se debe en parte a su capacidad para ejecutar grandes modelos de lenguaje con precisión de punto flotante de 4 bits. Nvidia y sus competidores han estado trabajando para reducir el número de bits en la representación de datos en los modelos transformadores (como ChatGPT) para acelerar el cálculo. Nvidia introdujo las matemáticas de 8 bits en el H100, y esta presentación marca la primera aparición de las matemáticas de 4 bits en las pruebas de referencia de MLPerf.
El mayor desafío al utilizar números de tan baja precisión es mantener la exactitud, según Dave Salvator, director de marketing de productos de Nvidia. Para mantener una alta precisión en la presentación de MLPerf, el equipo de Nvidia realizó numerosas innovaciones en el software.
Además, el ancho de banda de memoria del Blackwell casi se duplicó, alcanzando los 8 terabytes por segundo, mientras que el H200 tiene 4,8 terabytes por segundo.
La presentación de Blackwell de Nvidia utilizó un solo chip, pero Salvator afirma que está diseñado para redes y escalabilidad, y que funcionará mejor cuando se utilice con la interconexión NVLink de Nvidia. La GPU Blackwell admite hasta 18 conexiones NVLink de 100 GB por segundo, con un ancho de banda total de 1,8 terabytes por segundo, casi el doble del ancho de banda de interconexión del H100.
Salvator opina que, a medida que los grandes modelos de lenguaje sigan creciendo, incluso la inferencia requerirá plataformas de múltiples GPU para satisfacer las demandas, y el Blackwell está diseñado para este escenario. "Blackwell es una plataforma", afirma Salvator.
Nvidia presentó su sistema de chips Blackwell en la subcategoría de preproducción, lo que significa que aún no está en el mercado, pero se espera que esté disponible antes de la próxima publicación de MLPerf, aproximadamente dentro de seis meses.
En cada prueba de referencia, MLPerf también incluye una parte de medición de energía, que prueba sistemáticamente el consumo de energía real de cada sistema al realizar las tareas. En la principal competición de esta ronda (categoría de energía de centro de datos cerrado), solo participaron Nvidia y Untether AI. Mientras que Nvidia participó en todas las pruebas de referencia, Untether solo presentó resultados en la tarea de reconocimiento de imágenes.
Untether AI destacó en este aspecto, logrando una eficiencia energética excepcional. Sus chips utilizan un método llamado "computación en memoria". Los chips de Untether AI están compuestos por un conjunto de unidades de memoria con pequeños procesadores adyacentes. Cada procesador trabaja en paralelo, procesando simultáneamente datos en las unidades de memoria cercanas, lo que reduce significativamente el tiempo y la energía necesarios para transferir datos del modelo entre la memoria y los núcleos de cálculo.
"Hemos descubierto que, al realizar cargas de trabajo de IA, el 90% del consumo de energía se debe a mover datos de la DRAM a las unidades de procesamiento de caché", afirma Robert Beachler, vicepresidente de productos de Untether AI. "Por lo tanto, el enfoque de Untether es mover el cálculo cerca de los datos, en lugar de mover los datos a las unidades de cálculo".
Este método destaca en otra subcategoría de MLPerf: Edge Closed. Esta categoría se centra en casos de uso más prácticos, como la detección de máquinas en fábricas, la guía de robots de visión y los vehículos autónomos, aplicaciones que requieren una eficiencia energética y un procesamiento rápido estrictos, explica Beachler.
En la tarea de reconocimiento de imágenes, el chip de preproducción speedAI240 de Untether AI fue 2,8 veces más rápido que el L40S de Nvidia en términos de latencia, y también mejoró el rendimiento (muestras por segundo) en un 1,6 veces. La startup también presentó resultados de consumo de energía en esta categoría, pero los competidores de Nvidia no lo hicieron, por lo que es difícil una comparación directa. Sin embargo, el consumo de energía nominal del chip de preproducción speedAI240 de Untether AI es de 150 vatios, mientras que el del L40S de Nvidia es de 350 vatios, lo que muestra una ventaja de 2,3 veces en el consumo de energía, además de un mejor rendimiento de latencia.
Aunque Cerebras y Furiosa no participaron en MLPerf, ambas lanzaron nuevos chips. Cerebras presentó su servicio de inferencia en la conferencia IEEE Hot Chips de la Universidad de Stanford. Cerebras, con sede en Sunnyvale, California, fabrica chips gigantes, del tamaño máximo permitido por las obleas de silicio, lo que evita la interconexión entre chips y aumenta enormemente el ancho de banda de memoria del dispositivo, principalmente para entrenar redes neuronales gigantes. Ahora han actualizado su última computadora CS3 para admitir la inferencia.
A pesar de no participar en MLPerf, Cerebras afirma que su plataforma supera en 7 veces al H100 y en 2 veces al chip Groq de la competencia en cuanto al número de tokens LLM generados por segundo. "Hoy en día, nos encontramos en la era del marcado de la IA generativa", afirma Andrew Feldman, director ejecutivo y cofundador de Cerebras. "Esto se debe a la existencia de un cuello de botella en el ancho de banda de memoria. Tanto el H100 de Nvidia como el MI300 de AMD o el TPU utilizan la misma memoria externa, lo que provoca las mismas limitaciones. Hemos superado este obstáculo gracias a nuestro diseño a nivel de oblea".
En la conferencia Hot Chips, Furiosa, con sede en Seúl, también presentó su chip de segunda generación RNGD (pronunciado "rebelde"). El nuevo chip de Furiosa se caracteriza por su arquitectura de procesador de contracción de tensores (TCP). En las cargas de trabajo de IA, la función matemática básica es la multiplicación de matrices, que suele implementarse como una primitiva en el hardware. Sin embargo, el tamaño y la forma de las matrices, es decir, los tensores en general, pueden variar mucho. El RNGD implementa esta multiplicación de tensores más general como primitiva. "Durante la inferencia, el tamaño de lote varía mucho, por lo que es fundamental aprovechar al máximo el paralelismo inherente y la reutilización de datos de una forma de tensor dada", afirmó June Paik, fundador y director ejecutivo de Furiosa, en Hot Chips.
Aunque Furiosa no participó en MLPerf, en sus pruebas internas compararon el chip RNGD con el punto de referencia de resumen de LLM de MLPerf, obteniendo un rendimiento comparable al del chip L40S de Nvidia, pero con un consumo de energía de solo 185 vatios, frente a los 320 vatios del L40S. Paik afirma que el rendimiento mejorará con futuras optimizaciones de software.
IBM también anunció el lanzamiento de su nuevo chip Spyre, diseñado para cargas de trabajo de IA generativa empresarial, que se espera que salga al mercado en el primer trimestre de 2025.
Evidentemente, el mercado de chips de inferencia de IA estará muy activo en el futuro previsible.
Referencias: https://spectrum.ieee.org/new-inference-chips