Recentemente, a empresa de análise de tecnologia SemiAnalysis publicou um relatório de cinco meses que revela problemas significativos de software no chip de IA MI300X recém-lançado pela AMD, impedindo-o de atingir seu desempenho máximo e, portanto, de desafiar a liderança da Nvidia no mercado de chips de IA.
Nota da imagem: Imagem gerada por IA, fornecida pela Midjourney.
O relatório aponta que o software da AMD apresenta inúmeros bugs, tornando o treinamento de modelos de IA quase impossível e exigindo horas de depuração dos usuários. Ao mesmo tempo, a Nvidia continua lançando novos recursos, bibliotecas e atualizações de desempenho, ampliando ainda mais a diferença entre as duas empresas. Os analistas realizaram vários testes, incluindo benchmarks GEMM e treinamento de nó único, e os resultados mostraram que a AMD não conseguiu superar o chamado "fosso CUDA" – a forte vantagem da Nvidia em software.
Em termos de especificações de hardware, os dados de desempenho do MI300X são impressionantes, com capacidade de cálculo FP16 de 1307 TeraFLOPS e 192 GB de memória HBM3. Em comparação, a Nvidia H100 oferece 989 TeraFLOPS e 80 GB de memória, embora a mais recente H200 da Nvidia tenha reduzido essa diferença com 141 GB de memória. Vale ressaltar que o sistema AMD apresenta vantagens em termos de custo total de propriedade, com preços mais baixos e uma rede Ethernet mais acessível.
No entanto, essas vantagens de hardware não se traduziram em resultados práticos. A SemiAnalysis descreve essa situação como "comparar câmeras apenas pela quantidade de pixels", sugerindo que a AMD se perdeu nos números e não conseguiu entregar o desempenho real. Para obter resultados de benchmark utilizáveis, os analistas tiveram que colaborar diretamente com os engenheiros da AMD para resolver vários bugs de software, enquanto o sistema da Nvidia funcionou diretamente sem ajustes adicionais.
O relatório também menciona que a Tensorwave, um dos maiores provedores de serviços em nuvem de GPU da AMD, teve que fornecer gratuitamente à equipe da AMD as GPUs que havia comprado para ajudar a resolver os problemas de software. Por isso, a SemiAnalysis recomenda que Lisa Su, CEO da AMD, aumente os investimentos em desenvolvimento e teste de software, especialmente alocar um grande número de chips MI300X para testes automatizados, simplificar as variáveis de ambiente complexas e melhorar as configurações padrão para melhorar a experiência de fábrica.
Embora a SemiAnalysis deseje que a AMD se torne um forte concorrente da Nvidia, eles também afirmam que "ainda há muito trabalho a ser feito". Sem melhorias significativas no software, a AMD corre o risco de ficar ainda mais para trás, especialmente com a Nvidia se preparando para lançar seu chip Blackwell de próxima geração, embora haja também relatos de que o lançamento do produto de próxima geração da Nvidia não está sendo fácil.
Pontos importantes:
🌟 O chip de IA AMD MI300X enfrenta graves problemas de software, dificultando o treinamento de modelos de IA.
🔧 A Nvidia, com sua poderosa plataforma CUDA, continua expandindo sua vantagem de mercado, com atualizações de software frequentes.
💡 A SemiAnalysis recomenda que a AMD aumente seus investimentos em desenvolvimento de software e melhore a experiência do usuário para aumentar sua competitividade.