A empresa de inteligência artificial de Elon Musk, xAI, lançou na segunda-feira seu mais recente modelo de linguagem, o Grok3, marcando um avanço significativo na área. Segundo Musk, o novo modelo requer dez vezes mais capacidade computacional que seu antecessor, utilizando um centro de dados em Memphis, equipado com cerca de 200.000 GPUs.
A série de modelos Grok3 apresenta várias variantes, incluindo uma versão simplificada projetada para maior velocidade, mas com alguma perda de precisão. Além disso, um novo modelo de "raciocínio" foi criado especificamente para resolver problemas de matemática e ciências. Os usuários podem ajustar esses recursos através das configurações "Pensar" e "Cérebro" na interface do Grok. A xAI afirma que esta versão ainda não está finalizada, o modelo continua em treinamento e a equipe planeja melhorias nas próximas semanas.
De acordo com dados da plataforma de benchmark de IA lmarena.ai, o Grok3 obteve uma pontuação superior a 1400 na área de chatbots, tornando-se líder, abrangendo todas as categorias, incluindo programação, superando modelos da OpenAI, Anthropic e Google. No entanto, o desempenho real pode diferir dos resultados de referência. Por exemplo, embora o Claude3.5Sonnet tenha obtido uma pontuação inferior a alguns modelos em testes de benchmark de codificação, muitos usuários o consideram uma opção melhor para tarefas de programação.
Andrej Karpathy, fundador da OpenAI, teve acesso antecipado ao Grok3 e elogiou muito a capacidade de raciocínio lógico do modelo. O recurso "Pensar" conseguiu lidar com tarefas complexas, como calcular os FLOPs de treinamento do GPT-2 ou criar uma grade hexagonal para um jogo de tabuleiro, capacidades anteriormente limitadas ao modelo de ponta o1-pro da OpenAI. Além disso, o recurso também melhorou a precisão das operações matemáticas básicas, como contagem de letras e comparação de decimais.
Em relação ao novo recurso de busca, Karpathy observou que a qualidade do DeepSearch é comparável às ferramentas de pesquisa da Perplexity, fornecendo respostas relevantes sobre tópicos como produtos Apple a serem lançados e a dinâmica das ações da Palantir. No entanto, ele também encontrou alguns problemas evidentes: o modelo às vezes gera URLs falsos, faz afirmações não suportadas e cita postagens do X apenas sob prompts específicos.
Ele também parece ter falta de consciência de sua própria existência, omitindo a posição da xAI entre os principais laboratórios de IA. Essas limitações impedem o DeepSearch de atingir o nível de qualidade da "pesquisa profunda" da OpenAI e apresenta desempenho deficiente em questões de humor e ética.