Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

LLaVA-Video

Pesquisa em Refinamento de Instruções de Vídeo e Dados Sintéticos

Produto ComumVídeoCompreensão de vídeoAprendizado multimodal

Abrir Site

LLaVA-Video é um grande modelo multimodal (LMMs) focado no refinamento de instruções de vídeo. Ele resolve o problema da aquisição de grandes quantidades de dados brutos de alta qualidade da internet criando um conjunto de dados sintético de alta qualidade, LLaVA-Video-178K. Este conjunto de dados inclui tarefas como descrições detalhadas de vídeo, perguntas e respostas abertas e perguntas e respostas de múltipla escolha, com o objetivo de melhorar a capacidade de compreensão e raciocínio dos modelos de linguagem de vídeo. O modelo LLaVA-Video obteve excelentes resultados em vários testes de referência de vídeo, demonstrando a eficácia do seu conjunto de dados.

Abrir Site

LLaVA-Video Situação do Tráfego Mais Recente

Total de Visitas Mensais

80956

Taxa de Rejeição

52.28%

Média de Páginas por Visita

1.2

Duração Média da Visita

00:00:34

LLaVA-Video Tendência de Visitas

LLaVA-Video Distribuição Geográfica das Visitas

LLaVA-Video Fontes de Tráfego

LLaVA-Video Alternativas

LLaVA-Video — Pesquisa em Refinamento de Instruções de Vídeo e Dados Sintéticos

Vídeo

•Compreensão de vídeo•Aprendizado multimodal

270

VideoRAG — VideoRAG é uma estrutura de geração aprimorada por recuperação para processamento de vídeos de contexto extremamente longo.

Vídeo

•Compreensão de vídeo•Recuperação aprimorada

174

Qwen2.5-VL — Qwen2.5-VL é um poderoso modelo de linguagem visual que consegue compreender o conteúdo de imagens e vídeos e gerar texto correspondente.

Seleção Nacional

•Multimodal•Reconhecimento de imagem

1134

Tarsier — Tarsier é um grande modelo de linguagem de vídeo lançado pela ByteDance para gerar descrições de vídeo de alta qualidade.

Vídeo

•Descrição de vídeo•Compreensão de vídeo

612

VideoLLaMA3 — VideoLLaMA3 é um modelo básico multimodal de ponta, focado na compreensão de imagens e vídeos.

Vídeo

•Multimodal•Compreensão de Vídeo

294

OmAgent.com — Uma estrutura de agente nativa multimodais para dispositivos inteligentes e outros.

Produtividade

•Multimodal•Dispositivos inteligentes

180

videoprompt.org — Banco de Prompts para Geração de Vídeos com IA

Vídeo

•Geração de Vídeo com IA•Edição de Vídeo

372

Apollo-LMMs — Exploração da compreensão de vídeo em modelos de linguagem multimodais (LMMs) de grande escala

Vídeo

•Compreensão de Vídeo•Modelos Multimodais

228

Florence-VL — Ferramenta de aprimoramento de modelos de linguagem visual, combinando codificador visual generativo e técnica de fusão profunda e ampla.

Programação

•Modelo de Linguagem Visual•Aprendizado Multimodal

216

Qwen2-VL-7B — Qwen2-VL-7B é o mais recente modelo de linguagem visual, que suporta compreensão multimodal e geração de texto.

Imagem

•Modelo de linguagem visual•Multimodal

192

LLaVA-o1 — Modelo de linguagem visual capaz de raciocínio passo a passo.

Produtividade

•Modelo de linguagem visual•Raciocínio passo a passo

228

Pesquisa Nous — Líder em modelos e simuladores de linguagem centrados no ser humano

Seleção Internacional

•IA•Modelos de linguagem

192

PPLLaVA — Modelo de implementação em GPU para compreensão de sequências de vídeo

Vídeo

•Compreensão de vídeo•Modelo de linguagem grande

168

Agente S — Agente S: Uma estrutura de agente aberta que permite que computadores usem computadores como humanos.

Produtividade

•Inteligência Artificial•Automação

168

LongVU — Modelo de Compressão Adaptativa Espaço-Temporal para Compreensão de Linguagem em Vídeos Longos

Vídeo

•Compreensão de Vídeo•Compressão Espaço-Temporal

210

FakeShield — Detecção e localização de imagens explicáveis baseada em modelo de linguagem grande multimodal

Imagem

•Detecção de Imagens•Aprendizado Multimodal

210

DocLayout-YOLO — Melhora a análise de layout de documentos por meio de dados sintéticos diversificados e percepção adaptativa global a local.

Imagem

•Análise de layout de documentos•Aprendizado profundo

318

Aria — Modelo híbrido de especialistas nativo multi-modal

Programação

•Multimodal•Modelo híbrido de especialistas

276

NVLM — Modelo de linguagem grande multimodal de ponta, que oferece desempenho avançado em tarefas de visão-linguagem.

Produtividade

•Aprendizado Multimodal•Modelos de Linguagem Grandes

252

LongLLaVA — Modelo de linguagem de grande porte multimodal eficientemente escalável para 1000 imagens

Imagem

•Aprendizado multimodal•Processamento de imagens

186

EAGLE — Exploração do espaço de design de modelos de linguagem grandes multimodais

Programação

•Aprendizado Multimodal•Modelos de Linguagem Grandes

438

SlowFast-LLaVA — Modelo de linguagem grande sem treinamento para compreensão e raciocínio de vídeo.

Produtividade

•Perguntas e Respostas em Vídeo•Aprendizado Multimodal

252

Video-CCAM — Modelo de vídeo multilíngue leve e flexível desenvolvido pela equipe de pesquisa de multimídia do Tencent QQ.

Vídeo

•Compreensão de vídeo•Modelo multilíngue

282

Llama3-s v0.2 — Novo ponto de verificação multimodal, aprimorando a capacidade de compreensão de fala.

Programação

•Reconhecimento de fala•Processamento de linguagem natural

288

llama3-s — Um modelo de linguagem aberto em treinamento, com capacidade de 'audição'.

Programação

•Processamento de Linguagem Natural•Aprendizado de Máquina

216

MG-LLaVA — Modelo de Linguagem de Aprendizado de Máquina (MLLM) inovador com ajuste fino de instruções visuais de granularidade múltipla

Programação

•Aprendizado de Máquina•Processamento Visual

174

Notícias de IA

IA Diário

Linha do Tempo da IA

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

LLaVA-Video

LLaVA-Video Situação do Tráfego Mais Recente

LLaVA-Video Tendência de Visitas

LLaVA-Video Distribuição Geográfica das Visitas

LLaVA-Video Fontes de Tráfego

LLaVA-Video Alternativas

LLaVA-Video — Pesquisa em Refinamento de Instruções de Vídeo e Dados Sintéticos

VideoRAG — VideoRAG é uma estrutura de geração aprimorada por recuperação para processamento de vídeos de contexto extremamente longo.

Qwen2.5-VL — Qwen2.5-VL é um poderoso modelo de linguagem visual que consegue compreender o conteúdo de imagens e vídeos e gerar texto correspondente.

Tarsier — Tarsier é um grande modelo de linguagem de vídeo lançado pela ByteDance para gerar descrições de vídeo de alta qualidade.

VideoLLaMA3 — VideoLLaMA3 é um modelo básico multimodal de ponta, focado na compreensão de imagens e vídeos.

OmAgent.com — Uma estrutura de agente nativa multimodais para dispositivos inteligentes e outros.

videoprompt.org — Banco de Prompts para Geração de Vídeos com IA

Apollo-LMMs — Exploração da compreensão de vídeo em modelos de linguagem multimodais (LMMs) de grande escala

Florence-VL — Ferramenta de aprimoramento de modelos de linguagem visual, combinando codificador visual generativo e técnica de fusão profunda e ampla.

Qwen2-VL-7B — Qwen2-VL-7B é o mais recente modelo de linguagem visual, que suporta compreensão multimodal e geração de texto.

LLaVA-o1 — Modelo de linguagem visual capaz de raciocínio passo a passo.

Pesquisa Nous — Líder em modelos e simuladores de linguagem centrados no ser humano

PPLLaVA — Modelo de implementação em GPU para compreensão de sequências de vídeo

Agente S — Agente S: Uma estrutura de agente aberta que permite que computadores usem computadores como humanos.

LongVU — Modelo de Compressão Adaptativa Espaço-Temporal para Compreensão de Linguagem em Vídeos Longos

FakeShield — Detecção e localização de imagens explicáveis baseada em modelo de linguagem grande multimodal

DocLayout-YOLO — Melhora a análise de layout de documentos por meio de dados sintéticos diversificados e percepção adaptativa global a local.

Aria — Modelo híbrido de especialistas nativo multi-modal

NVLM — Modelo de linguagem grande multimodal de ponta, que oferece desempenho avançado em tarefas de visão-linguagem.

LongLLaVA — Modelo de linguagem de grande porte multimodal eficientemente escalável para 1000 imagens

EAGLE — Exploração do espaço de design de modelos de linguagem grandes multimodais

SlowFast-LLaVA — Modelo de linguagem grande sem treinamento para compreensão e raciocínio de vídeo.

Video-CCAM — Modelo de vídeo multilíngue leve e flexível desenvolvido pela equipe de pesquisa de multimídia do Tencent QQ.

Llama3-s v0.2 — Novo ponto de verificação multimodal, aprimorando a capacidade de compreensão de fala.

llama3-s — Um modelo de linguagem aberto em treinamento, com capacidade de 'audição'.

Dourado — Modelo avançado para compreensão de vídeo

MAVIS — Modelo de ajuste de instruções de visão matemática

InternLM-XComposer-2.5 — Um modelo de linguagem visual grande e multifuncional

LongVA — Modelo de conversão de contexto longo de linguagem para visão

MG-LLaVA — Modelo de Linguagem de Aprendizado de Máquina (MLLM) inovador com ajuste fino de instruções visuais de granularidade múltipla