NVIDIA y Hugging Face se unen para ofrecer un servicio de inferencia eficiente, mejorando cinco veces la eficiencia del procesamiento de tokens de los modelos de IA

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Jul 30, 2024

222

Recientemente, la plataforma de código abierto Hugging Face y NVIDIA anunciaron un nuevo y emocionante servicio: Inferencia como Servicio (Inference-as-a-Service), impulsado por la tecnología NIM de NVIDIA. Este nuevo servicio permitirá a los desarrolladores prototipar más rápidamente, utilizar los modelos de IA de código abierto disponibles en Hugging Face Hub e implementarlos de manera eficiente.

Esta noticia se dio a conocer en la conferencia SIGGRAPH 2024, que reúne a numerosos expertos en gráficos por computadora y tecnologías interactivas. La colaboración entre NVIDIA y Hugging Face, revelada en este evento, ofrece nuevas oportunidades para los desarrolladores. Este servicio permite implementar fácilmente potentes modelos de lenguaje grandes (LLM), como Llama2 y modelos Mistral AI, optimizados por los microservicios NIM de NVIDIA.

En concreto, al acceder a través de NIM, un modelo Llama3 de 7 mil millones de parámetros es cinco veces más rápido que cuando se implementa en un sistema estándar de GPU NVIDIA H100 Tensor Core, lo que supone una mejora significativa. Además, este nuevo servicio admite "Entrenar en DGX Cloud" (Train on DGX Cloud), un servicio ya disponible en Hugging Face.

NIM de NVIDIA es un conjunto de microservicios de IA optimizados para la inferencia, que abarca los modelos de IA básicos de NVIDIA y los modelos de la comunidad de código abierto. Mejora significativamente la eficiencia del procesamiento de tokens a través de una API estándar y potencia la infraestructura de NVIDIA DGX Cloud, acelerando la velocidad de respuesta y la estabilidad de las aplicaciones de IA.

La plataforma NVIDIA DGX Cloud está diseñada específicamente para la IA generativa, ofreciendo una infraestructura de computación fiable y acelerada que ayuda a los desarrolladores en todo el proceso, desde el prototipo hasta la producción, sin necesidad de compromisos a largo plazo. La colaboración entre Hugging Face y NVIDIA fortalecerá aún más la comunidad de desarrolladores. Recientemente, Hugging Face también anunció que su equipo ha alcanzado la rentabilidad, cuenta con 220 empleados y ha lanzado la serie de modelos de lenguaje pequeños SmolLM.

Puntos clave:
🌟 Hugging Face y NVIDIA lanzan Inferencia como Servicio, mejorando la eficiencia del procesamiento de tokens de los modelos de IA cinco veces.
🚀 El nuevo servicio admite la implementación rápida de potentes modelos LLM, optimizando el proceso de desarrollo.
💡 La plataforma NVIDIA DGX Cloud proporciona una infraestructura acelerada para la IA generativa, simplificando el flujo de trabajo de los desarrolladores.

El modelo GLM-4-9B de Zhihu logra una tasa de alucinación de solo el 1.3%, liderando la evaluación mundial de modelos de lenguaje grandes

En el campo de la inteligencia artificial, el 'problema de alucinación' de los modelos de lenguaje grandes ha sido un desafío clave para la industria. Recientemente, los resultados de una prueba basada en el sistema de evaluación HHEM-2.1-Open muestran que el modelo GLM-4-9B de Zhihu AI ha presentado resultados notables. Los datos de la prueba muestran que, de los 85 modelos de lenguaje grandes que participaron en la evaluación, GLM-4-9B obtuvo el primer lugar con una tasa de consistencia de hechos del 98.7% y una tasa de respuesta del 100%. Cabe destacar que la tasa de alucinación de este modelo es de solo el 1.3%, un logro significativo.

NVIDIA y universidades presentan "FlashInfer": una nueva biblioteca de núcleos para mejorar la eficiencia de la inferencia de modelos de lenguaje grandes

Con la proliferación de los modelos de lenguaje grandes (LLM) en las aplicaciones modernas de inteligencia artificial, herramientas como los chatbots y los generadores de código dependen de las capacidades de estos modelos. Sin embargo, los problemas de eficiencia en el proceso de inferencia se están volviendo cada vez más pronunciados. Especialmente en el manejo de mecanismos de atención, como FlashAttention y SparseAttention, a menudo se enfrentan a desafíos con cargas de trabajo diversas, patrones de entrada dinámicos y limitaciones de recursos de GPU. Estos desafíos, junto con la alta latencia y los cuellos de botella de memoria

¡Ganar 1 millón de dólares en 20 meses! ¿Cómo lo logró TypingMind, la herramienta de chat con modelos de lenguaje grandes?

TypingMind es una herramienta de terceros diseñada para ofrecer a los usuarios una experiencia mejorada con ChatGPT. Creada por el desarrollador independiente Tony Dinh, admite varios modelos de lenguaje grandes, incluyendo GPT de OpenAI y Claude de Anthropic. Ofrece funciones básicas como chats, listas de múltiples conversaciones y plantillas de indicaciones, sin necesidad de descarga ni instalación, lo que facilita su uso. Esta herramienta también admite la implementación privada, ofreciendo protección de la privacidad de los datos; su modelo de negocio...

Noticias de IA

NVIDIA y Hugging Face se unen para ofrecer un servicio de inferencia eficiente, mejorando cinco veces la eficiencia del procesamiento de tokens de los modelos de IA

AIbase基地

Noticias de IA relacionadas recomendadas

ByteDance lanza AIBrix: un nuevo sistema de inferencia de código abierto diseñado para modelos de lenguaje grandes

El modelo GLM-4-9B de Zhihu logra una tasa de alucinación de solo el 1.3%, liderando la evaluación mundial de modelos de lenguaje grandes

NVIDIA y universidades presentan "FlashInfer": una nueva biblioteca de núcleos para mejorar la eficiencia de la inferencia de modelos de lenguaje grandes

¡Ganar 1 millón de dólares en 20 meses! ¿Cómo lo logró TypingMind, la herramienta de chat con modelos de lenguaje grandes?