Recentemente, a Microsoft expandiu ainda mais a família Phi-4, lançando dois novos modelos: Phi-4 multimodais (Phi-4-multimodal) e Phi-4 mini (Phi-4-mini). A chegada desses dois modelos certamente fornecerá capacidade de processamento ainda mais robusta para uma variedade de aplicações de IA.
O modelo Phi-4 multimodal é o primeiro modelo de arquitetura unificada da Microsoft a integrar processamento de voz, visão e texto, com 56 milhões de parâmetros. Este modelo apresentou desempenho excepcional em vários testes de referência, superando muitos concorrentes no mercado, como a série Gemini 2.0 do Google. Em tarefas de reconhecimento automático de fala (ASR) e tradução de fala (ST), o modelo Phi-4 multimodal se destacou, superando modelos de voz especializados como WhisperV3 e SeamlessM4T-v2-Large, alcançando a impressionante taxa de erro de palavras de 6,14% e conquistando o primeiro lugar no ranking Hugging Face OpenASR.
No processamento de imagens, o modelo Phi-4 multimodal também se mostrou excelente. Sua capacidade em raciocínio matemático e científico é impressionante, conseguindo entender documentos, gráficos e executar reconhecimento óptico de caracteres (OCR). Em comparação com modelos populares como Gemini-2-Flash-lite-preview e Claude-3.5-Sonnet, o desempenho deste modelo é comparável, ou até mesmo superior.
O outro modelo recém-lançado, o Phi-4 mini, concentra-se em tarefas de processamento de texto, com 38 milhões de parâmetros. Em tarefas de raciocínio textual, cálculos matemáticos, programação e seguimento de instruções, o Phi-4 mini demonstrou desempenho excepcional, superando vários modelos de linguagem grandes populares. Para garantir a segurança e confiabilidade dos novos modelos, a Microsoft convidou especialistas em segurança internos e externos para realizar testes abrangentes e otimizou-os de acordo com os padrões da equipe de resposta a ameaças de IA da Microsoft (AIRT).
Ambos os novos modelos podem ser implantados em diferentes dispositivos por meio do ONNX Runtime, sendo adequados para vários cenários de aplicativos de baixo custo e baixa latência. Eles já estão disponíveis no Azure AI Foundry, Hugging Face e no catálogo de APIs da NVIDIA para uso pelos desenvolvedores. Sem dúvida, os novos modelos da série Phi-4 representam um avanço significativo da Microsoft em tecnologia de IA eficiente, abrindo novas possibilidades para aplicações de inteligência artificial no futuro.