SlowFast-LLaVA

Modelo de linguagem grande sem treinamento para compreensão e raciocínio de vídeo.

Produto ComumProdutividadePerguntas e Respostas em VídeoAprendizado Multimodal

SlowFast-LLaVA é um modelo de linguagem grande multimodal sem treinamento, projetado para compreensão e raciocínio de vídeo. Sem necessidade de ajuste fino em quaisquer dados, ele atinge desempenho comparável ou superior ao de modelos de linguagem grandes de vídeo de última geração em diversas tarefas e benchmarks de perguntas e respostas em vídeo.

Best AI Websites & Tools

SlowFast-LLaVA

SlowFast-LLaVA Situação do Tráfego Mais Recente

SlowFast-LLaVA Tendência de Visitas

SlowFast-LLaVA Distribuição Geográfica das Visitas

SlowFast-LLaVA Fontes de Tráfego

SlowFast-LLaVA Alternativas

SlowFast-LLaVA — Modelo de linguagem grande sem treinamento para compreensão e raciocínio de vídeo.

FakeShield — Detecção e localização de imagens explicáveis baseada em modelo de linguagem grande multimodal

Argo — Construa facilmente seu próprio modelo de linguagem grande; inteligência exclusiva, tudo localmente.

NotaGen — NotaGen é um modelo para geração de música simbólica, que adota o paradigma de treinamento de modelos de linguagem grande e se concentra na geração de partituras clássicas de alta qualidade.

DMXAPI — DMXAPI é uma plataforma que agrega APIs de modelos de linguagem global, oferecendo acesso a mais de 300 modelos.

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B é um modelo de linguagem grande, multilíngue e de alto desempenho, ajustado para instruções, adequado para diversas aplicações.

Doubao-1.5-pro — Doubao-1.5-pro é um modelo de linguagem grande (LLM) esparso MoE de alto desempenho, focado no equilíbrio extremo entre desempenho de inferência e capacidade do modelo.

InternVL2_5-78B-MPO — Esta é uma série de modelos de linguagem grandes multimodais avançados, apresentando desempenho geral excepcional.

MinMo — MinMo é um modelo de linguagem grande multimodário para interação de voz perfeita.

Dria-Agent-a-3B — Modelo de linguagem grande baseado na série Qwen2.5-Coder, focado em aplicações de agente.

Dria-Agent-a-7B — Modelo de linguagem grande baseado na série Qwen2.5-Coder, focado em aplicações de agente.

Dria-Agent-α — Dria-Agent-α é uma estrutura de interação de ferramentas de modelo de linguagem grande (LLM) baseada em Python.

Llama-3-Patronus-Lynx-8B-Instruct-Q4_K_M-GGUF — Modelo de linguagem grande quantizado baseado em um modelo específico, adequado para tarefas de processamento de linguagem natural.

InternVL2_5-38B-MPO — Modelo da série InternVL2.5-MPO, baseado no InternVL2.5 e otimização de preferência mista, apresentando desempenho excepcional.

InternVL2_5-26B-MPO-AWQ — Modelo de linguagem grande multimodais avançado, com capacidade excepcional de raciocínio multimodais.

InternVL2_5-26B-MPO — Modelo de linguagem grande multimodal que aprimora a interação entre visão e linguagem.

InternVL2_5-8B-MPO — Modelo de linguagem grande multimodais, demonstrando desempenho geral excepcional.

HuatuoGPT-o1-8B — Modelo de linguagem grande avançado para a área médica

HuatuoGPT-o1 — Modelo de linguagem grande para raciocínio complexo na área médica

InternVL2_5-4B-MPO-AWQ — Modelo de linguagem grande multimodal, otimizado para interação imagem-texto.

InternVL2_5-4B-MPO — Modelo de linguagem grande multi-modal, demonstrando desempenho geral excelente.

Valley 2.0 — Modelo de linguagem grande multi-modal, aprimora a capacidade de processamento de dados de texto, imagem e vídeo.

InternVL2_5-2B-MPO — Modelo de linguagem grande multimodal avançado

InternVL2_5-1B-MPO — Modelo de linguagem grande multimodal que aprimora a compreensão integrada de visão e linguagem.

InternVL2-8B-MPO — Modelo de linguagem grande multimodal, aprimorando a capacidade de raciocínio multimodal.

EXAONE-3.5-32B-Instruct-GGUF — Modelo de linguagem grande multilíngue e de alto desempenho desenvolvido pela LG AI Research

Command R7B — Modelo de IA generativo rápido e eficiente

InternVL 2.5 — Série de modelos de linguagem grandes multimodais de código aberto

InternVL2_5-4B — Modelo de linguagem grande multimodal, que integra compreensão visual e linguística.

InternVL2_5-2B — Modelo de linguagem grande multimodal, que suporta interação profunda entre imagens e texto.