O aplicativo da empresa chinesa de modelos de linguagem de grande porte DeepSeek atingiu o topo da classificação de downloads gratuitos de aplicativos do App Store na China e nos Estados Unidos, superando o ChatGPT.

Este feito não apenas chamou a atenção do mercado, mas também teve um impacto significativo no preço das ações da Nvidia, líder em chips de IA. Apesar disso, um porta-voz da Nvidia fez comentários positivos sobre a DeepSeek, chamando-a de um avanço notável na área de IA e destacando como o trabalho da DeepSeek demonstra como usar a técnica de escalonamento de tempo de teste, modelos amplamente disponíveis e recursos computacionais que atendem aos regulamentos de exportação para criar novos modelos.

O porta-voz da Nvidia acrescentou que o processo de inferência requer um grande número de GPUs Nvidia e suporte de rede de alto desempenho. A Nvidia atualmente domina três leis de escala: pré-treinamento e pós-treinamento contínuos, e a nova técnica de escalonamento de tempo de teste. Essa declaração também implica que as GPUs usadas pela DeepSeek estão totalmente em conformidade com os regulamentos de exportação dos EUA.

A técnica de escalonamento de tempo de teste é um tópico amplamente discutido nos últimos anos. Ela indica que, se um modelo de IA totalmente treinado receber mais recursos computacionais para ajudar na inferência ao prever, gerar texto ou imagens, o modelo produzirá respostas de melhor qualidade. Essa técnica já foi aplicada a modelos como o o1 da OpenAI.

Em 27 de janeiro, os três principais índices de ações dos EUA tiveram fechamentos mistos, com as ações da Nvidia caindo 16,86%, fechando a US$ 118,58 por ação, o menor nível em 10 meses. A capitalização de mercado da Nvidia é de US$ 2,90 trilhões, com uma perda de US$ 590 bilhões em um único dia, estabelecendo um novo recorde de maior perda diária de valor de mercado para uma única ação. A queda da Nvidia também resultou em uma redução significativa na fortuna de seu fundador, Jensen Huang, em US$ 21 bilhões.

Sob a liderança da Nvidia, o setor de chips de semicondutores dos EUA sofreu uma queda coletiva. A DeepSeek é uma empresa de modelos de linguagem de grande porte pertencente à gigante de quantificação QuantConnect. Em 20 de janeiro, ela lançou oficialmente seu modelo de inferência DeepSeek-R1. O R1 recebeu ampla atenção por seu desempenho excepcional, natureza de código aberto, preço e custos de treinamento significativamente reduzidos. O custo de pré-treinamento do R1 foi de apenas US$ 5.576.000, concluído em 55 dias em um cluster de 2.048 GPUs Nvidia H800.

Destaques:

📈 O aplicativo DeepSeek atingiu o topo da classificação de downloads gratuitos de aplicativos do App Store na China e nos Estados Unidos.

💬 A Nvidia elogiou a DeepSeek como um avanço notável na área de IA, e a inferência requer um grande número de GPUs.

💸 As ações da Nvidia caíram 16,86%, com uma perda de US$ 590 bilhões em um único dia, estabelecendo um novo recorde de maior perda diária de valor de mercado para uma única ação.