En el mundo en rápida evolución de la inteligencia artificial, una empresa llamada Etched está apostando todo a una arquitectura de IA llamada Transformer. Recientemente, la compañía anunció el lanzamiento de Sohu, el primer circuito integrado específico de aplicación (ASIC) del mundo diseñado para Transformer, afirmando que su rendimiento supera con creces el de cualquier GPU en el mercado y revolucionará el campo de la IA.

image.png

La arquitectura Transformer domina el campo de la IA

En 2022, Etched hizo una audaz predicción: la arquitectura Transformer dominaría el mundo de la IA. Resultó que tenían razón. Hoy en día, desde ChatGPT hasta Sora, desde Gemini hasta Stable Diffusion 3, cada modelo de IA de vanguardia utiliza la arquitectura Transformer. Basándose en esta predicción, Etched dedicó dos años al desarrollo del chip Sohu.

El chip Sohu logra una mejora de rendimiento sin precedentes al integrar directamente la arquitectura Transformer en el hardware. Si bien esto significa que Sohu no puede ejecutar la mayoría de los modelos de IA tradicionales, como DLRM detrás de los anuncios de Instagram, el modelo de plegamiento de proteínas AlphaFold2 o el modelo de imágenes anterior Stable Diffusion 2, para los modelos Transformer, Sohu es significativamente más rápido que cualquier otro chip.

Ventajas de rendimiento significativas

Según Etched, un servidor con ocho chips Sohu puede procesar más de 500.000 tokens por segundo al ejecutar el modelo Llama 70B. Este rendimiento es un orden de magnitud más rápido que la próxima generación de GPU Blackwell (B200) de Nvidia, a un costo menor.

Específicamente, un servidor 8xSohu puede reemplazar 160 GPU H100. Esto significa que el uso del chip Sohu puede reducir drásticamente el costo de funcionamiento de los modelos de IA, al tiempo que aumenta significativamente la velocidad de procesamiento.

La lógica detrás de la apuesta

La apuesta decidida de Etched por la arquitectura Transformer se basa en una profunda comprensión de las tendencias en el desarrollo de la IA. La empresa cree que la escalabilidad es clave para lograr una inteligencia superior a la humana. En los últimos cinco años, los modelos de IA han superado a los humanos en la mayoría de las pruebas estandarizadas, y esto se debe principalmente a un aumento significativo en la potencia de cálculo. Por ejemplo, los recursos informáticos utilizados por Meta para entrenar el modelo Llama 400B fueron 50.000 veces mayores que los utilizados por OpenAI para entrenar GPT-2.

Sin embargo, escalar aún más se enfrenta a enormes desafíos. El costo de los centros de datos de próxima generación podría superar el PIB de un pequeño país. Al ritmo actual de desarrollo, nuestro hardware, red eléctrica y recursos financieros no pueden seguir el ritmo. Aquí es donde entra en juego el chip Sohu.

image.png

La necesidad de chips especializados

Etched cree que, a medida que la Ley de Moore se ralentiza, la única forma de mejorar el rendimiento es la especialización. Antes de que la arquitectura Transformer dominara el campo de la IA, muchas empresas estaban desarrollando chips de IA y GPU flexibles para manejar una variedad de arquitecturas diferentes. Pero ahora, con la demanda de inferencia Transformer aumentando de aproximadamente 50 millones de dólares a miles de millones de dólares, junto con la convergencia de la arquitectura de los modelos de IA, la aparición de chips especializados se ha vuelto inevitable.

Cuando el costo de entrenar un modelo alcanza los 1.000 millones de dólares y el costo de inferencia supera los 10.000 millones de dólares, incluso una mejora del 1% en el rendimiento justifica un proyecto de chip personalizado de 50 a 100 millones de dólares. De hecho, la ventaja de rendimiento de los ASIC es mucho mayor.

Funcionamiento del chip Sohu

El chip Sohu logra un rendimiento tan alto porque está optimizado específicamente para la arquitectura Transformer. Al eliminar la mayor parte de la lógica de flujo de control, Sohu puede albergar más unidades de cálculo matemático. Esto permite que Sohu tenga una tasa de utilización de FLOPS de más del 90%, mientras que la tasa de utilización al ejecutar TRT-LLM en una GPU es de alrededor del 30%.

Etched explica que, dado que la mayor parte del área de una GPU se utiliza para garantizar la capacidad de programación, un diseño específico para Transformer puede albergar más unidades de cálculo. De hecho, de los 80 mil millones de transistores de la GPU H100, solo el 3,3% se utiliza para la multiplicación de matrices. Sohu, al centrarse en Transformer, puede albergar más FLOPS en el chip sin reducir la precisión o utilizar técnicas de escasez.

Ecosistema de software

Aunque el chip Sohu ha logrado un gran avance a nivel de hardware, el ecosistema de software también es crucial. En comparación con las GPU y las TPU, el desarrollo de software de Sohu es relativamente sencillo, ya que solo necesita admitir la arquitectura Transformer. Etched se compromete a hacer de código abierto todo el software, desde los controladores hasta el kernel y la pila de servicios, lo que facilitará enormemente a los desarrolladores el uso y la optimización del chip Sohu.

Perspectivas futuras

Si la apuesta de Etched tiene éxito, el chip Sohu cambiará radicalmente el panorama de la industria de la IA. Actualmente, muchas aplicaciones de IA se enfrentan a cuellos de botella de rendimiento. Por ejemplo, Gemini necesita más de 60 segundos para responder a una pregunta sobre un video, los agentes de codificación son más costosos que los ingenieros de software y tardan horas en completar las tareas, y los modelos de video solo pueden generar un fotograma por segundo.

Se espera que el chip Sohu aumente la velocidad de los modelos de IA en 20 veces, al tiempo que reduce significativamente los costos. Esto significa que las aplicaciones en tiempo real como la generación de video, las llamadas, los agentes inteligentes y la búsqueda serán posibles. Etched ya ha comenzado a aceptar solicitudes de usuarios tempranos para el servicio en la nube de desarrolladores Sohu y está reclutando activamente talento para unirse a su equipo.

Los avances en la potencia de cálculo de la IA pueden tener un impacto profundo, y el chip Sohu de Etched sin duda merece nuestra atención. A medida que se revelen más detalles y se desarrollen las aplicaciones prácticas, podremos evaluar mejor el potencial de esta tecnología y su impacto en el campo de la IA.