NVIDIA y universidades presentan "FlashInfer": una nueva biblioteca de núcleos para mejorar la eficiencia de la inferencia de modelos de lenguaje grandes

AIbase基地

Publicado elNoticias de IA · 6 minutos de lectura · Jan 6, 2025

221

Con la amplia aplicación de los modelos lingüísticos grandes (LLM) en las aplicaciones modernas de inteligencia artificial, herramientas como los chatbots y los generadores de código dependen de las capacidades de estos modelos. Sin embargo, los problemas de eficiencia en el proceso de razonamiento son cada vez más importantes.

Especialmente en el manejo de mecanismos de atención, como FlashAttention y SparseAttention, a menudo se muestran ineficaces cuando se enfrentan a cargas de trabajo diversas, patrones de entrada dinámicos y limitaciones de recursos de GPU. Estos desafíos, junto con la alta latencia y los cuellos de botella de memoria, requieren urgentemente soluciones más eficientes y flexibles para admitir la inferencia de LLM escalable y receptiva.

Para abordar este problema, investigadores de la Universidad de Washington, NVIDIA, Perplexity AI y la Universidad Carnegie Mellon desarrollaron conjuntamente FlashInfer, una biblioteca de inteligencia artificial y un generador de núcleos diseñado específicamente para la inferencia de LLM. FlashInfer proporciona implementaciones de núcleos de GPU de alto rendimiento que abarcan varios mecanismos de atención, incluyendo FlashAttention, SparseAttention, PageAttention y muestreo. Su filosofía de diseño enfatiza la flexibilidad y la eficiencia, con el objetivo de abordar los desafíos clave en los servicios de inferencia de LLM.

Las características técnicas de FlashInfer incluyen:

1. Núcleos de atención completos: Admite múltiples mecanismos de atención, incluyendo prellenado, decodificación y atención de anexión, compatible con varios formatos de caché KV, mejorando el rendimiento en escenarios de solicitudes individuales y servicios por lotes.

2. Decodificación de prefijo compartido optimizada: A través de la atención de consulta de agrupación (GQA) y la atención de incrustación de posición rotacional fusionada (RoPE), FlashInfer logra una mejora de velocidad significativa. Por ejemplo, en la decodificación de indicaciones largas, es 31 veces más rápido que la implementación de Page Attention de vLLM.

3. Planificación de equilibrio de carga dinámica: El planificador de FlashInfer se adapta dinámicamente a los cambios de entrada, reduciendo el tiempo de inactividad de la GPU y asegurando una utilización eficiente. Su compatibilidad con CUDA Graphs mejora aún más su aplicabilidad en entornos de producción.

En términos de rendimiento, FlashInfer ha demostrado un excelente desempeño en múltiples pruebas de referencia, reduciendo significativamente la latencia, especialmente en el procesamiento de inferencia de contexto largo y tareas de generación paralela. En una GPU NVIDIA H100, FlashInfer logró una mejora de velocidad del 13-17% en tareas de generación paralela. Su planificador dinámico y sus núcleos optimizados mejoran significativamente el ancho de banda y la utilización de FLOP, especialmente en casos de longitud de secuencia desigual o uniforme.

FlashInfer ofrece una solución eficiente y práctica para los desafíos de inferencia de LLM, mejorando significativamente el rendimiento y la eficiencia del uso de recursos. Su diseño flexible y capacidad de integración lo convierten en una herramienta importante para impulsar el desarrollo de los marcos de servicio de LLM. Como proyecto de código abierto, FlashInfer fomenta la colaboración e innovación en la comunidad de investigación, asegurando la mejora continua y la adaptación a los nuevos desafíos en el campo de la infraestructura de inteligencia artificial.

Enlace al proyecto: https://github.com/flashinfer-ai/flashinfer

Puntos clave:
🌟 FlashInfer es una nueva biblioteca de inteligencia artificial diseñada para la inferencia de modelos lingüísticos grandes, que mejora significativamente la eficiencia.
⚡ Esta biblioteca admite múltiples mecanismos de atención, optimiza el uso de recursos de GPU y reduce la latencia de inferencia.
🚀 FlashInfer, como proyecto de código abierto, invita a los investigadores a participar y contribuir a la innovación y el desarrollo de la infraestructura de IA.

Modelos de lenguaje grandes FlashAttention NVIDIA FlashInfer

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

TikTok responde al lanzamiento de la tarjeta de desmentido: combina capacidades de modelos de lenguaje grandes de IA y humanos

Recientemente, el boletín de TikTok publicó un anuncio importante anunciando el lanzamiento oficial de una nueva función de "tarjeta de desmentido" para combatir la información errónea. Esta medida tiene como objetivo identificar y manejar la información errónea de manera más eficiente, y revelar a los usuarios de manera integral el origen, las causas de la propagación y la verdad de la información errónea.

Apr 9, 2025

Los investigadores de IA de Nvidia presentan la tecnología de fusión FFN: aceleración de la inferencia de modelos de lenguaje grandes

Mar 31, 2025

Plataforma X5 de Tuosda: Rompiendo las barreras de datos entre robots y modelos de lenguaje grandes

En la era del rápido desarrollo de la inteligencia artificial, Tuosda reveló recientemente funciones innovadoras de su nueva generación de plataforma de control robótico, la plataforma X5, en su evento de relaciones con inversores. La plataforma X5 utiliza una arquitectura en la nube, borde y extremo, combinando cómputo de alto rendimiento con control inteligente de robots, logrando la transmisión de datos en tiempo real y la ejecución eficiente de decisiones inteligentes. El lanzamiento de esta plataforma no solo es un complemento poderoso para la tecnología robótica tradicional, sino que también construye un puente de comunicación entre la inteligencia encarnada y las aplicaciones de modelos de lenguaje grandes. En concreto, la plataforma X5...

Mar 16, 2025

Equipo de la CMU presenta Meta Reinforcement Fine-Tuning (MRT): un nuevo paradigma para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes

En el campo de la inteligencia artificial, los modelos de lenguaje grandes (LLM) están en constante evolución. Recientemente, investigadores de la Universidad Carnegie Mellon (CMU) y HuggingFace presentaron un nuevo método llamado "Meta Reinforcement Fine-Tuning" (MRT). Este método busca optimizar la eficiencia computacional de los modelos de lenguaje grandes durante las pruebas, especialmente al resolver problemas complejos de razonamiento, donde muestra un rendimiento excepcional. Los estudios demuestran que los modelos de lenguaje grandes existentes tienen dificultades en el razonamiento...

Mar 13, 2025

ByteDance lanza AIBrix: un nuevo sistema de inferencia de código abierto diseñado para modelos de lenguaje grandes

Feb 28, 2025

El modelo GLM-4-9B de Zhihu logra una tasa de alucinación de solo el 1.3%, liderando la evaluación mundial de modelos de lenguaje grandes

En el campo de la inteligencia artificial, el 'problema de alucinación' de los modelos de lenguaje grandes ha sido un desafío clave para la industria. Recientemente, los resultados de una prueba basada en el sistema de evaluación HHEM-2.1-Open muestran que el modelo GLM-4-9B de Zhihu AI ha presentado resultados notables. Los datos de la prueba muestran que, de los 85 modelos de lenguaje grandes que participaron en la evaluación, GLM-4-9B obtuvo el primer lugar con una tasa de consistencia de hechos del 98.7% y una tasa de respuesta del 100%. Cabe destacar que la tasa de alucinación de este modelo es de solo el 1.3%, un logro significativo.

Jan 10, 2025

3.2k

¡Ganar 1 millón de dólares en 20 meses! ¿Cómo lo logró TypingMind, la herramienta de chat con modelos de lenguaje grandes?

TypingMind es una herramienta de terceros diseñada para ofrecer a los usuarios una experiencia mejorada con ChatGPT. Creada por el desarrollador independiente Tony Dinh, admite varios modelos de lenguaje grandes, incluyendo GPT de OpenAI y Claude de Anthropic. Ofrece funciones básicas como chats, listas de múltiples conversaciones y plantillas de indicaciones, sin necesidad de descarga ni instalación, lo que facilita su uso. Esta herramienta también admite la implementación privada, ofreciendo protección de la privacidad de los datos; su modelo de negocio...

Jan 3, 2025

6.4k

SKT lanza servicio de IA para PC: acceso gratuito a múltiples modelos de lenguaje grandes

¡SK Telecom vuelve a dar un gran paso! El martes anunciaron el lanzamiento de la versión para PC de su servicio de Inteligencia Artificial (IA), A., que permite a los usuarios acceder gratuitamente a varios modelos de lenguaje grandes (LLM) a través del sitio web adot.ai, incluyendo el último GPT-4o. Esta versión para PC permite a los usuarios utilizar A. no solo en sus teléfonos móviles, sino que por primera vez también podrán acceder a través de navegadores en computadoras y tabletas. Nota de la imagen: Imagen generada por IA, servicio de autorización de imágenes Midjourney

Oct 22, 2024

1.6k

OpenR: Un innovador framework de código abierto para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes

Recientemente se ha presentado OpenR, un innovador framework de código abierto diseñado para abordar las deficiencias de los modelos de lenguaje grandes (LLM) en tareas de razonamiento complejas. Desarrollado conjuntamente por investigadores de University College London, la Universidad de Liverpool, la Universidad Jiao Tong de Shanghai, la Universidad de Ciencia y Tecnología de Hong Kong (Guangzhou) y la Universidad de Westlake, este framework utiliza el cálculo en tiempo de prueba, el aprendizaje por refuerzo y la supervisión de procesos para mejorar la capacidad de razonamiento de los LLM. Aunque los LLM han mostrado un progreso significativo en la generación de lenguaje, todavía presentan dificultades al abordar tareas complejas como problemas matemáticos, de programación y científicos.

Oct 14, 2024

2.0k

清华与微软联手打造 Differential Transformer，提高 AI 注意力集中度，精度提升 30%！

Recientemente, los modelos de lenguaje grandes (LLM) han experimentado un rápido desarrollo, y los modelos Transformer han sido cruciales en este avance. El núcleo de Transformer es el mecanismo de atención, que actúa como un filtro de información, permitiendo que el modelo se centre en las partes más importantes de una oración. Pero incluso los poderosos Transformer pueden verse afectados por información irrelevante, como si estuvieras buscando un libro en una biblioteca y te vieras abrumado por una pila de libros irrelevantes, lo que reduce la eficiencia. Esta información irrelevante generada por el mecanismo de atención se conoce en la literatura como ruido de atención. Imagina que quieres...

Oct 10, 2024

3.9k

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General