Phi-3.5-vision

Modelo multimodal avançado, suporta compreensão de imagens e texto.

Produto ComumProgramaçãoMultimodalCompreensão de Imagens

Phi-3.5-vision é um modelo multimodal leve e de última geração desenvolvido pela Microsoft, construído com base em conjuntos de dados que incluem dados sintéticos e sites publicamente disponíveis e filtrados, focando em dados de raciocínio denso e de alta qualidade para texto e visão. Este modelo pertence à família de modelos Phi-3 e passou por um rigoroso processo de aprimoramento, combinando ajuste fino supervisionado e otimização de preferência direta para garantir o seguimento preciso de instruções e fortes medidas de segurança.

Best AI Websites & Tools

Phi-3.5-vision

Phi-3.5-vision Situação do Tráfego Mais Recente

Phi-3.5-vision Tendência de Visitas

Phi-3.5-vision Distribuição Geográfica das Visitas

Phi-3.5-vision Fontes de Tráfego

Phi-3.5-vision Alternativas

Phi-3.5-vision — Modelo multimodal avançado, suporta compreensão de imagens e texto.

Qwen2-VL-2B — Modelo de linguagem visual de ponta, com suporte para compreensão multimodal e geração de texto.

Aquila-VL-2B-llava-qwen — Modelo de linguagem visual que combina informações de imagem e texto para processamento inteligente.

PaliGemma — Modelo de linguagem visual de ponta e código aberto do Google

Aya Vision — Aya Vision é um modelo de visão multimodal multilíngue lançado pela Cohere, com o objetivo de melhorar a capacidade de compreensão visual e textual em cenários multilíngues.

Magma-8B — Magma-8B é um modelo de IA multimodal lançado pela Microsoft, capaz de processar entradas de imagem e texto e gerar saídas de texto.

SmolVLM-256M-Instruct — SmolVLM-256M é o menor modelo multimodal do mundo, capaz de processar de forma eficiente entradas de imagem e texto e gerar saídas de texto.

VideoLLaMA3 — VideoLLaMA3 é um modelo básico multimodal de ponta, focado na compreensão de imagens e vídeos.

InternVL2_5-38B-MPO — Modelo da série InternVL2.5-MPO, baseado no InternVL2.5 e otimização de preferência mista, apresentando desempenho excepcional.

InternVL2_5-8B-MPO — Modelo de linguagem grande multimodais, demonstrando desempenho geral excepcional.

Llama-3.1-70B-Instruct-AWQ-INT4 — Modelo de geração de texto com 70 bilhões de parâmetros

InternVL2_5-4B-MPO-AWQ — Modelo de linguagem grande multimodal, otimizado para interação imagem-texto.

Valley 2.0 — Modelo de linguagem grande multi-modal, aprimora a capacidade de processamento de dados de texto, imagem e vídeo.

Llama-lynx-70b-4bitAWQ — Modelo de geração de texto com 7 bilhões de parâmetros

InternVL 2.5 — Série de modelos de linguagem grandes multimodais de código aberto

OLMo-2-1124-7B-RM — Modelo de linguagem grande, usado para geração e classificação de texto

InternVL2_5-1B — Modelo de linguagem de grande porte multimodal, suporta compreensão de imagens e texto

InternVL2_5-78B — Série de modelos de linguagem grandes multimodais avançados

Qwen2-VL-7B — Qwen2-VL-7B é o mais recente modelo de linguagem visual, que suporta compreensão multimodal e geração de texto.

Amazon Nova — Amazon Nova é a nova geração de modelos básicos da Amazon, oferecendo inteligência de ponta e um custo-benefício líder do setor.

OLMo-2-1124-7B-SFT — Modelo de geração de texto em inglês de alto desempenho

OLMo-2-1124-7B-DPO — Modelo avançado de geração de texto, que suporta o processamento de diversas tarefas.

OLMo-2-1124-13B-DPO — Modelo de linguagem inglês de alto desempenho, adequado para diversas tarefas.

dolmino-mix-1124 — Conjunto de dados de alta qualidade, usado na segunda etapa do treinamento do OLMo2.

OLMo-2-1124-13B-Instruct — Modelo de linguagem grande otimizado, especializado em geração de texto e diálogo.

Llama-3.1-Tulu-3-8B-DPO — Modelo avançado de geração de texto, que suporta diversas tarefas.

Llama-3.1-Tulu-3-70B — Modelo líder em uma família de modelos que seguem instruções, oferecendo dados, código e guias de código aberto.

Demonstração do Qwen Turbo 1M — Demonstração do Qwen Turbo 1M é um espaço do Hugging Face fornecido pela Qwen.

Pixtral Large — Modelo de IA multimodal de ponta, oferecendo compreensão de imagens e texto.

ultravox-v0_4_1-llama-3_1-70b — Modelo de linguagem grande multimodal de voz