Recientemente, la plataforma de código abierto Hugging Face y NVIDIA anunciaron un nuevo y emocionante servicio: Inferencia como Servicio (Inference-as-a-Service), impulsado por la tecnología NIM de NVIDIA. Este nuevo servicio permitirá a los desarrolladores prototipar más rápidamente, utilizar los modelos de IA de código abierto disponibles en Hugging Face Hub e implementarlos de manera eficiente.

image.png

Esta noticia se dio a conocer en la conferencia SIGGRAPH 2024, que reúne a numerosos expertos en gráficos por computadora y tecnologías interactivas. La colaboración entre NVIDIA y Hugging Face, revelada en este evento, ofrece nuevas oportunidades para los desarrolladores. Este servicio permite implementar fácilmente potentes modelos de lenguaje grandes (LLM), como Llama2 y modelos Mistral AI, optimizados por los microservicios NIM de NVIDIA.

En concreto, al acceder a través de NIM, un modelo Llama3 de 7 mil millones de parámetros es cinco veces más rápido que cuando se implementa en un sistema estándar de GPU NVIDIA H100 Tensor Core, lo que supone una mejora significativa. Además, este nuevo servicio admite "Entrenar en DGX Cloud" (Train on DGX Cloud), un servicio ya disponible en Hugging Face.

NIM de NVIDIA es un conjunto de microservicios de IA optimizados para la inferencia, que abarca los modelos de IA básicos de NVIDIA y los modelos de la comunidad de código abierto. Mejora significativamente la eficiencia del procesamiento de tokens a través de una API estándar y potencia la infraestructura de NVIDIA DGX Cloud, acelerando la velocidad de respuesta y la estabilidad de las aplicaciones de IA.

La plataforma NVIDIA DGX Cloud está diseñada específicamente para la IA generativa, ofreciendo una infraestructura de computación fiable y acelerada que ayuda a los desarrolladores en todo el proceso, desde el prototipo hasta la producción, sin necesidad de compromisos a largo plazo. La colaboración entre Hugging Face y NVIDIA fortalecerá aún más la comunidad de desarrolladores. Recientemente, Hugging Face también anunció que su equipo ha alcanzado la rentabilidad, cuenta con 220 empleados y ha lanzado la serie de modelos de lenguaje pequeños SmolLM.

Puntos clave:

🌟 Hugging Face y NVIDIA lanzan Inferencia como Servicio, mejorando la eficiencia del procesamiento de tokens de los modelos de IA cinco veces.

🚀 El nuevo servicio admite la implementación rápida de potentes modelos LLM, optimizando el proceso de desarrollo.

💡 La plataforma NVIDIA DGX Cloud proporciona una infraestructura acelerada para la IA generativa, simplificando el flujo de trabajo de los desarrolladores.