Na área de treinamento de inteligência artificial, as placas de vídeo da Nvidia são praticamente imbatíveis, mas no campo da inferência de IA, os concorrentes parecem estar se aproximando, especialmente em termos de eficiência energética. Embora o novo chip Blackwell da Nvidia tenha um desempenho robusto, ainda não se sabe se conseguirá manter sua liderança.

Hoje, o ML Commons divulgou os resultados mais recentes da competição de inferência de IA - MLPerf Inference v4.1. Nesta rodada, participaram pela primeira vez aceleradores Instinct da AMD, aceleradores Trillium do Google, chips da startup canadense UntetherAI e o chip Blackwell da Nvidia. Outras duas empresas, Cerebras e FuriosaAI, lançaram novos chips de inferência, mas não enviaram resultados para o MLPerf.

image.png

A estrutura do MLPerf se assemelha a uma competição olímpica, com vários eventos e sub-eventos. A categoria "data center fechado" teve o maior número de participantes. Diferentemente da categoria aberta, a categoria fechada exige que os participantes realizem inferências em um modelo fornecido sem modificações significativas no software. A categoria de data center testa principalmente a capacidade de processamento de solicitações em lote, enquanto a categoria de borda se concentra na redução da latência.

Cada categoria possui 9 benchmarks diferentes, abrangendo várias tarefas de IA, incluindo a popular geração de imagens (pense no Midjourney) e perguntas e respostas de modelos de linguagem grandes (como o ChatGPT), além de tarefas importantes, mas menos conhecidas, como classificação de imagens, detecção de objetos e mecanismos de recomendação.

Esta rodada adicionou um novo benchmark - "modelo híbrido de especialistas". Esta é uma abordagem cada vez mais popular para implantação de modelos de linguagem, que divide um modelo de linguagem em vários modelos menores independentes, cada um ajustado para uma tarefa específica, como conversação diária, resolução de problemas matemáticos ou auxílio à programação. Ao atribuir cada consulta ao modelo menor apropriado, o uso de recursos é reduzido, diminuindo os custos e aumentando a taxa de transferência, segundo Miroslav Hodak, técnico sênior da AMD.

image.png

No popular benchmark "data center fechado", os vencedores foram novamente as submissões baseadas em GPUs Nvidia H200 e superchips GH200, que combinam GPU e CPU em um único pacote. No entanto, uma análise mais detalhada dos resultados revela detalhes interessantes. Alguns participantes usaram vários aceleradores, enquanto outros usaram apenas um. Se normalizarmos as consultas por segundo pelo número de aceleradores e mantivermos a melhor submissão para cada tipo de acelerador, o resultado fica mais incerto. É importante notar que este método ignora o papel da CPU e da interconexão.

Em termos de desempenho por acelerador, o Blackwell da Nvidia se destacou na tarefa de perguntas e respostas de modelos de linguagem grandes, com uma velocidade 2,5 vezes maior que a iteração anterior do chip, sendo este o único benchmark para o qual foi submetido. O chip speedAI240 de pré-visualização da Untether AI teve um desempenho quase igual ao do H200 em sua única tarefa submetida de reconhecimento de imagem. O Trillium do Google teve um desempenho ligeiramente inferior ao H100 e H200 na tarefa de geração de imagens, enquanto o Instinct da AMD teve um desempenho equivalente ao H100 na tarefa de perguntas e respostas de modelos de linguagem grandes.

O sucesso do Blackwell se deve em parte à sua capacidade de executar modelos de linguagem grandes com precisão de ponto flutuante de 4 bits. A Nvidia e seus concorrentes têm trabalhado para reduzir o número de bits na representação de dados em modelos transformadores (como o ChatGPT) para acelerar a computação. A Nvidia introduziu a matemática de 8 bits no H100, e esta submissão marca a primeira demonstração da matemática de 4 bits em um benchmark MLPerf.

O maior desafio ao usar números de tão baixa precisão é manter a precisão, afirma Dave Salvator, diretor de marketing de produtos da Nvidia. Para manter uma alta precisão na submissão do MLPerf, a equipe da Nvidia fez muitas inovações no software.

Além disso, a largura de banda de memória do Blackwell quase dobrou, atingindo 8 terabytes por segundo, enquanto a do H200 é de 4,8 terabytes por segundo.

A submissão do Blackwell da Nvidia usou um único chip, mas Salvator afirma que ele foi projetado para networking e escalabilidade, e terá o melhor desempenho quando usado com a interconexão NVLink da Nvidia. A GPU Blackwell suporta até 18 conexões NVLink de 100 GB por segundo, com uma largura de banda total de 1,8 terabytes por segundo, quase o dobro da largura de banda de interconexão do H100.

image.png

Salvator acredita que, à medida que os modelos de linguagem grandes aumentam de tamanho, mesmo a inferência exigirá plataformas multi-GPU para atender à demanda, e o Blackwell foi projetado para isso. "O Blackwell é uma plataforma", diz Salvator.

A Nvidia enviou seu sistema de chips Blackwell para a subcategoria de pré-visualização, o que significa que ele ainda não está disponível comercialmente, mas espera-se que esteja disponível antes da próxima publicação do MLPerf, aproximadamente em seis meses.

Em cada benchmark, o MLPerf também inclui uma parte de medição de energia, testando sistematicamente o consumo de energia real de cada sistema ao executar tarefas. A principal competição desta rodada (categoria de energia de data center fechado) teve apenas duas submissões: Nvidia e Untether AI. Embora a Nvidia tenha participado de todos os benchmarks, a Untether só enviou resultados para a tarefa de reconhecimento de imagem.

image.png

A Untether AI se destacou neste aspecto, alcançando uma eficiência energética excepcional. Seus chips usam um método chamado "computação em memória". Os chips da Untether AI são compostos por um conjunto de células de memória com pequenos processadores adjacentes. Cada processador trabalha em paralelo, processando simultaneamente dados nas células de memória vizinhas, reduzindo significativamente o tempo e a energia gastos na transferência de dados do modelo entre a memória e os núcleos de computação.

"Descobrimos que, ao executar cargas de trabalho de IA, 90% do consumo de energia está em mover dados da DRAM para a unidade de processamento de cache", afirma Robert Beachler, vice-presidente de produtos da Untether AI. "Portanto, a abordagem da Untether é mover a computação para perto dos dados, em vez de mover os dados para a unidade de computação."

Este método se destacou em outra subcategoria do MLPerf: borda fechada. Esta categoria se concentra em casos de uso mais práticos, como detecção de máquinas em fábricas, robótica guiada por visão e veículos autônomos - aplicações com requisitos rigorosos de eficiência energética e processamento rápido, explica Beachler.

Na tarefa de reconhecimento de imagem, o chip speedAI240 de pré-visualização da Untether AI teve um desempenho de latência 2,8 vezes mais rápido que o L40S da Nvidia, e uma taxa de transferência (amostras por segundo) 1,6 vezes maior. A startup também enviou resultados de consumo de energia nesta categoria, mas os concorrentes da Nvidia não, dificultando a comparação direta. No entanto, o consumo de energia nominal do chip speedAI240 de pré-visualização da Untether AI é de 150 watts, enquanto o da Nvidia L40S é de 350 watts, mostrando uma vantagem de 2,3 vezes no consumo de energia, com melhor desempenho de latência.

Embora a Cerebras e a Furiosa não tenham participado do MLPerf, elas também lançaram novos chips. A Cerebras revelou seu serviço de inferência na conferência IEEE Hot Chips da Universidade de Stanford. A Cerebras, sediada em Sunnyvale, Califórnia, fabrica chips gigantescos, tão grandes quanto o permitido por uma pastilha de silício, eliminando assim a interconexão entre chips e aumentando enormemente a largura de banda de memória do dispositivo, principalmente para treinar redes neurais gigantescas. Agora, eles atualizaram seu computador CS3 mais recente para suportar inferência.

Embora a Cerebras não tenha enviado resultados para o MLPerf, a empresa afirma que sua plataforma supera o H100 em 7 vezes e o chip concorrente Groq em 2 vezes no número de tokens LLM gerados por segundo. "Hoje, estamos na era de discagem da IA generativa", afirma Andrew Feldman, CEO e co-fundador da Cerebras. "Isso ocorre devido a um gargalo de largura de banda de memória. Seja o H100 da Nvidia, o MI300 da AMD ou o TPU, eles usam a mesma memória externa, resultando nas mesmas limitações. Nós quebramos essa barreira porque usamos um design em nível de wafer."

Na conferência Hot Chips, a Furiosa, sediada em Seul, também apresentou seu chip de segunda geração RNGD (pronunciado "rebelde"). O novo chip da Furiosa apresenta uma arquitetura de processador de contração de tensor (TCP). Em cargas de trabalho de IA, a função matemática básica é a multiplicação de matrizes, geralmente implementada como uma primitiva em hardware. No entanto, o tamanho e a forma das matrizes, ou seja, tensores mais gerais, podem variar muito. O RNGD implementa essa multiplicação de tensores mais geral como uma primitiva. "Na inferência, o tamanho do lote varia muito, por isso é essencial aproveitar ao máximo o paralelismo inerente e a reutilização de dados de uma determinada forma de tensor", disse June Paik, fundadora e CEO da Furiosa, na Hot Chips.

Embora a Furiosa não tenha participado do MLPerf, eles compararam internamente o chip RNGD com o benchmark de resumo LLM do MLPerf, obtendo um desempenho comparável ao chip L40S da Nvidia, mas com um consumo de energia de apenas 185 watts, em comparação com 320 watts do L40S. Paik afirma que o desempenho será melhorado com otimizações de software adicionais.

A IBM também anunciou seu novo chip Spyre, projetado para cargas de trabalho de IA generativa empresarial, com lançamento previsto para o primeiro trimestre de 2025.

Claramente, o mercado de chips de inferência de IA será animado no futuro previsível.

Referências: https://spectrum.ieee.org/new-inference-chips