Phi-4-multimodal-instruct
Phi-4-multimodal-instruct é um modelo básico multimodal leve desenvolvido pela Microsoft, que suporta entrada de texto, imagem e áudio.
Novo Produto PremiumProdutividadeMultimodalReconhecimento de Voz
Phi-4-multimodal-instruct é um modelo básico multimodal desenvolvido pela Microsoft, suportando entrada de texto, imagem e áudio, gerando saída de texto. Este modelo é construído com base na pesquisa e nos conjuntos de dados do Phi-3.5 e Phi-4.0, passando por processos de ajuste fino supervisionado, otimização de preferência direta e aprendizado por reforço com feedback humano para melhorar a capacidade de seguir instruções e a segurança. Ele suporta entrada de texto, imagem e áudio em vários idiomas, com um comprimento de contexto de 128K, adequado para várias tarefas multimodais, como reconhecimento de voz, tradução de voz e perguntas e respostas visuais. Este modelo obteve melhorias significativas na capacidade multimodal, especialmente em tarefas de voz e visão. Ele fornece aos desenvolvedores poderosas capacidades de processamento multimodal, que podem ser usadas para construir vários aplicativos multimodais.
Phi-4-multimodal-instruct Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44