Phi-4-multimodal-instruct

Phi-4-multimodal-instruct é um modelo básico multimodal leve desenvolvido pela Microsoft, que suporta entrada de texto, imagem e áudio.

Nuevo Producto PremiumProductividadMultimodalReconhecimento de Voz
Phi-4-multimodal-instruct é um modelo básico multimodal desenvolvido pela Microsoft, suportando entrada de texto, imagem e áudio, gerando saída de texto. Este modelo é construído com base na pesquisa e nos conjuntos de dados do Phi-3.5 e Phi-4.0, passando por processos de ajuste fino supervisionado, otimização de preferência direta e aprendizado por reforço com feedback humano para melhorar a capacidade de seguir instruções e a segurança. Ele suporta entrada de texto, imagem e áudio em vários idiomas, com um comprimento de contexto de 128K, adequado para várias tarefas multimodais, como reconhecimento de voz, tradução de voz e perguntas e respostas visuais. Este modelo obteve melhorias significativas na capacidade multimodal, especialmente em tarefas de voz e visão. Ele fornece aos desenvolvedores poderosas capacidades de processamento multimodal, que podem ser usadas para construir vários aplicativos multimodais.
Abrir sitio web

Phi-4-multimodal-instruct Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Phi-4-multimodal-instruct Tendencia de visitas

Phi-4-multimodal-instruct Distribución geográfica de las visitas

Phi-4-multimodal-instruct Fuentes de tráfico

Phi-4-multimodal-instruct Alternativas