A Microsoft lançou recentemente um pequeno modelo de linguagem chamado Phi-4 na plataforma Hugging Face. Este modelo possui apenas 14 bilhões de parâmetros, mas apresentou desempenho excepcional em vários testes de desempenho, superando muitos modelos conhecidos, incluindo o GPT-4o da OpenAI e outros modelos open source como Qwen2.5 e Llama-3.1.
Em testes anteriores na competição matemática americana AMC, o Phi-4 obteve uma pontuação de 91,8, significativamente melhor que seus concorrentes, como Gemini Pro1.5 e Claude3.5Sonnet. Mais surpreendente ainda, este modelo de pequeno parâmetro alcançou uma alta pontuação de 84,8 no teste MMLU, demonstrando sua poderosa capacidade de raciocínio e processamento matemático.
Diferentemente de muitos modelos que dependem de fontes de dados orgânicos, o Phi-4 utiliza um método inovador para gerar dados sintéticos de alta qualidade, incluindo técnicas como prompts de múltiplos agentes, inversão de instruções e autocorreção. Esses métodos melhoraram significativamente a capacidade do Phi-4 de raciocinar e resolver problemas, permitindo-lhe lidar com tarefas mais complexas.
O Phi-4 utiliza uma arquitetura Transformer de decodificador apenas, suportando um comprimento de contexto de até 16k, ideal para processar dados de entrada grandes. Seu pré-treinamento utilizou aproximadamente 10 trilhões de tokens, combinando dados sintéticos com dados orgânicos rigorosamente selecionados, garantindo um desempenho excepcional em benchmarks como MMLU e HumanEval.
As características e vantagens do Phi-4 incluem: compacidade e eficiência adequadas para hardware de consumo; capacidade de raciocínio em tarefas STEM que supera modelos anteriores e maiores; e suporte para ajuste fino com conjuntos de dados sintéticos diversos, facilitando a satisfação de necessidades de domínio específico. Além disso, o Phi-4 oferece documentação e API detalhadas na plataforma Hugging Face, facilitando a integração para desenvolvedores.
Em termos de inovação tecnológica, o desenvolvimento do Phi-4 baseia-se em três pilares: técnicas de múltiplos agentes e autocorreção para gerar dados sintéticos; métodos de aprimoramento de treinamento posterior, como rejeição de amostragem e otimização de preferência direta (DPO); e dados de treinamento rigorosamente filtrados, garantindo uma sobreposição mínima com os dados de referência, melhorando a capacidade de generalização do modelo. Além disso, o Phi-4 utiliza a busca por tokens-chave (PTS) para identificar nós importantes no processo de tomada de decisão, otimizando sua capacidade de lidar com tarefas de raciocínio complexas.
Com o código aberto do Phi-4, as expectativas dos desenvolvedores finalmente se concretizaram. O modelo pode ser baixado na plataforma HuggingFace e é licenciado sob a licença MIT para uso comercial. Essa política aberta atraiu a atenção de muitos desenvolvedores e entusiastas de IA, e as mídias sociais oficiais do HuggingFace parabenizaram o lançamento, chamando-o de "melhor modelo de 14B de todos os tempos".
Acesso ao modelo: https://huggingface.co/microsoft/phi-4
Destaques:
🧠 ** A Microsoft lança o modelo de pequeno parâmetro Phi-4, com apenas 14 bilhões de parâmetros, mas superando vários modelos conhecidos.**
📊 ** Em vários testes de desempenho, o Phi-4 apresentou resultados excelentes, especialmente em matemática e raciocínio.**
🌐 O Phi-4 agora é de código aberto e permite uso comercial, atraindo a atenção e o uso de muitos desenvolvedores.