Recientemente, Microsoft ha ampliado aún más la familia Phi-4 con dos nuevos modelos: Phi-4 multimodal y Phi-4 mini. La llegada de estos modelos proporcionará una capacidad de procesamiento significativamente mejorada para una amplia gama de aplicaciones de IA.

El modelo Phi-4 multi-modal es el primer modelo de arquitectura unificada de Microsoft que integra el procesamiento de voz, visión y texto, con 56 millones de parámetros. Este modelo ha demostrado un rendimiento excepcional en varias pruebas de referencia, superando a muchos competidores del mercado, como la serie Gemini 2.0 de Google. En tareas de reconocimiento automático del habla (ASR) y traducción de voz (ST), el modelo Phi-4 multi-modal se ha destacado especialmente, superando a modelos de voz profesionales como WhisperV3 y SeamlessM4T-v2-Large. De hecho, ha logrado la primera posición en la clasificación Hugging Face OpenASR con una tasa de error de palabras del 6.14%.

En el procesamiento de imágenes, el modelo Phi-4 multi-modal también ha demostrado un rendimiento excelente. Su capacidad en razonamiento matemático y científico es impresionante, pudiendo comprender eficazmente documentos, gráficos y realizar reconocimiento óptico de caracteres (OCR). Su rendimiento es comparable, o incluso superior, al de modelos populares como Gemini-2-Flash-lite-preview y Claude-3.5-Sonnet.

El otro modelo recién lanzado, Phi-4 mini, se centra en tareas de procesamiento de texto, con 38 millones de parámetros. Phi-4 mini destaca en razonamiento textual, cálculos matemáticos, programación y seguimiento de instrucciones, superando a varios modelos de lenguaje grandes populares. Para garantizar la seguridad y fiabilidad de los nuevos modelos, Microsoft ha invitado a expertos en seguridad internos y externos a realizar pruebas exhaustivas, optimizándolos según los estándares del equipo rojo de inteligencia artificial de Microsoft (AIRT).

Ambos modelos se pueden implementar en diferentes dispositivos a través de ONNX Runtime, siendo adecuados para diversas aplicaciones de bajo coste y baja latencia. Ya están disponibles para los desarrolladores en Azure AI Foundry, Hugging Face y el catálogo de API de NVIDIA. Sin duda, los nuevos modelos de la serie Phi-4 representan un gran avance de Microsoft en tecnología de IA eficiente, abriendo nuevas posibilidades para las aplicaciones de inteligencia artificial del futuro.