En esta era de explosión de información, la inteligencia artificial brilla como estrellas en el cielo nocturno de la sabiduría humana. Entre estas estrellas, la arquitectura Transformer es sin duda la más brillante, liderando una nueva era en el procesamiento del lenguaje natural gracias a su mecanismo de autoatención.
Sin embargo, incluso las estrellas más brillantes tienen rincones inaccesibles. Para los modelos Transformer con contextos largos, el alto consumo de recursos del cálculo de autoatención se convierte en un problema. Imagine intentar que la IA comprenda un artículo de decenas de miles de palabras; comparar cada palabra con todas las demás implica una cantidad de cálculo enorme.
Para solucionar este problema, un grupo de científicos de Zyphra y EleutherAI propusieron un nuevo método llamado Tree Attention.
La autoatención, núcleo de los modelos Transformer, tiene una complejidad computacional que aumenta cuadráticamente con la longitud de la secuencia. Esto se convierte en un obstáculo difícil de superar al procesar textos largos, especialmente para los modelos de lenguaje grandes (LLM).
La creación de Tree Attention es como plantar árboles de cálculo eficiente en este bosque computacional. Mediante una reducción en forma de árbol, descompone el cálculo de autoatención en múltiples tareas paralelas; cada tarea es como una hoja en el árbol, que juntas forman un árbol completo.
Más sorprendente aún, los creadores de Tree Attention derivaron la función de energía de la autoatención, lo que no solo proporciona una interpretación bayesiana de la autoatención, sino que también la conecta estrechamente con modelos de energía como las redes de Hopfield.
Tree Attention también considera la topología de red de los clústeres modernos de GPU, utilizando inteligentemente las conexiones de alto ancho de banda dentro del clúster para reducir la necesidad de comunicación entre nodos y mejorar así la eficiencia del cálculo.
Los científicos verificaron el rendimiento de Tree Attention en diferentes longitudes de secuencia y cantidades de GPU mediante una serie de experimentos. Los resultados muestran que Tree Attention es hasta 8 veces más rápida que el método Ring Attention existente al decodificar en múltiples GPU, reduciendo significativamente la cantidad de comunicación y el uso máximo de memoria.
La propuesta de Tree Attention no solo proporciona una solución eficiente para el cálculo de modelos de atención de contexto largo, sino que también ofrece una nueva perspectiva para comprender los mecanismos internos de los modelos Transformer. Con el continuo avance de la tecnología de IA, es razonable creer que Tree Attention desempeñará un papel importante en la investigación y las aplicaciones de IA en el futuro.
Enlace al artículo: https://mp.weixin.qq.com/s/U9FaE6d-HJGsUs7u9EKKuQ