Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

Kosmos-2

Modelo de linguagem de grande porte multimodal voltado para o mundo

Produto ComumProdutividadeProcessamento de Linguagem NaturalMultimodal

Abrir Site

Kosmos-2 é um modelo de linguagem de grande porte multimodal que pode associar linguagem natural com entradas de várias formas, como imagens e vídeos. Pode ser usado em tarefas como localização de frases, compreensão de referências, geração de referências, descrição de imagens e perguntas e respostas visuais. O Kosmos-2 utiliza o conjunto de dados GRIT, que contém um grande número de pares imagem-texto, usados para treinamento e avaliação do modelo. A vantagem do Kosmos-2 reside na sua capacidade de associar linguagem natural com informações visuais, melhorando assim o desempenho do modelo.

Abrir Site

Kosmos-2 Situação do Tráfego Mais Recente

Total de Visitas Mensais

521149929

Taxa de Rejeição

35.96%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:29

Kosmos-2 Tendência de Visitas

Kosmos-2 Distribuição Geográfica das Visitas

Kosmos-2 Fontes de Tráfego

Kosmos-2 Alternativas

InternVL2_5-8B-MPO — Modelo de linguagem grande multimodais, demonstrando desempenho geral excepcional.

Imagem

•Multimodal•Modelo de Linguagem Grande

396

InternVL2_5-4B-MPO — Modelo de linguagem grande multi-modal, demonstrando desempenho geral excelente.

Imagem

•Multimodal•Modelo de Linguagem Grande

204

InternVL2_5-2B-MPO — Modelo de linguagem grande multimodal avançado

Imagem

•Multimodal•Modelo de Linguagem Grande

174

pixtral-12b-240910 — Modelo de linguagem grande multimodal, suporta compreensão de imagens e texto.

Imagem

•Multimodal•Processamento de Imagens

240

Kosmos-2 — Modelo de linguagem de grande porte multimodal voltado para o mundo

Produtividade

•Processamento de Linguagem Natural•Multimodal

366

UniTok — UniTok é um tokenizador visual unificado para geração e compreensão visual.

Imagem

•Inteligência Artificial•Geração Visual

120

ViDoRAG — ViDoRAG é uma estrutura de agente de raciocínio iterativo dinâmico que combina recuperação de documentos visuais com geração aprimorada.

Programação

•Multimodal•Geração Aprimorada por Recuperação

138

Migician — Migician é um modelo de linguagem grande multimodal focado na localização de imagens múltiplas, capaz de realizar localização precisa de imagens múltiplas de forma livre.

Imagem

•Multimodal•Localização de Imagens

180

Janus-Pro-1B — Janus-Pro-1B é uma estrutura auto-regressiva unificada de compreensão e geração multimodal.

Imagem

•Multimodal•Geração de Imagens

636

SmolVLM-256M-Instruct — SmolVLM-256M é o menor modelo multimodal do mundo, capaz de processar de forma eficiente entradas de imagem e texto e gerar saídas de texto.

Imagem

•Multimodal•Processamento de Imagens

228

VideoLLaMA3 — VideoLLaMA3 é um modelo básico multimodal de ponta, focado na compreensão de imagens e vídeos.

Vídeo

•Multimodal•Compreensão de Vídeo

294

InternVL2_5-26B-MPO-AWQ — Modelo de linguagem grande multimodais avançado, com capacidade excepcional de raciocínio multimodais.

Programação

•Multimodal•Modelo de Linguagem Grande

234

Valley — Modelo multimodal de larga escala, processando dados de texto, imagem e vídeo.

Imagem

•Multimodal•Modelo de Larga Escala

348

FlagAI — Projeto de código aberto de algoritmos, modelos e ferramentas de otimização de modelos de linguagem grandes (LLMs) - uma solução completa.

Programação

•Inteligência Artificial•Modelos de Linguagem Grandes (LLMs)

198

InternVL2_5-1B-MPO — Modelo de linguagem grande multimodal que aprimora a compreensão integrada de visão e linguagem.

Produtividade

•Multimodal•Modelo de Linguagem Grande

288

WePOINTS — O projeto WePOINTS fornece uma estrutura unificada para modelos multimodais.

Programação

•Multimodal•Inteligência Artificial

168

Pixtral-12B-2409 — Modelo multimodal de 12B parâmetros, combinando um codificador visual para processar imagens e texto.

Produtividade

•Multimodal•Processamento de Imagens

228

Pixtral 12B — Primeiro modelo multimodal Mistral, suportando o processamento de tarefas mistas de imagem e texto.

Produtividade

•Multimodal•Modelo de IA

174

Modelo de IA Xihu — Modelo multimodal com alta inteligência emocional e intelectual

Seleção Nacional

•Inteligência Artificial•Multimodal

540

Show-o — Transformador único para compreensão e geração multimodal unificada

Imagem

•Inteligência Artificial•Multimodal

354

LLaVA-OneVision — Modelo de conversão eficiente para tarefas de visão multimodal

Imagem

•Multimodal•Reconhecimento Visual

732

MedTrinity-25M — Conjunto de dados médicos multimodais em larga escala

Outros

•Imagens médicas•Multimodal

894

Florence-2-large-ft — Modelo básico de visão avançado, compatível com diversas tarefas de visão e visão-linguagem.

Imagem

•Processamento de imagens•Processamento de linguagem natural

678

Série GLM-4 — Modelo de diálogo multimodal multilíngue de código aberto

Programação

•Multilíngue•Multimodal

486

Gemini 1.5 Flash — Modelo de IA leve e eficiente do Google, projetado para tarefas de alta frequência e grande escala.

Produtividade

•IA•Aprendizado de Máquina

648

Meta Llama 3 — Modelo de linguagem grande de código aberto de nova geração da Meta, com desempenho excepcional.

Tendência Global

•Modelo Grande•Código Aberto

5088

Mini-Gemini — Modelo de IA multimodal, com capacidade de compreensão e geração de imagens.

Produtividade

•Modelo de IA•Processamento de imagens

2742

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Kosmos-2

Kosmos-2 Situação do Tráfego Mais Recente

Kosmos-2 Tendência de Visitas

Kosmos-2 Distribuição Geográfica das Visitas

Kosmos-2 Fontes de Tráfego

Kosmos-2 Alternativas

InternVL2_5-8B-MPO — Modelo de linguagem grande multimodais, demonstrando desempenho geral excepcional.

InternVL2_5-4B-MPO — Modelo de linguagem grande multi-modal, demonstrando desempenho geral excelente.

InternVL2_5-2B-MPO — Modelo de linguagem grande multimodal avançado

pixtral-12b-240910 — Modelo de linguagem grande multimodal, suporta compreensão de imagens e texto.

Kosmos-2 — Modelo de linguagem de grande porte multimodal voltado para o mundo

UniTok — UniTok é um tokenizador visual unificado para geração e compreensão visual.

ViDoRAG — ViDoRAG é uma estrutura de agente de raciocínio iterativo dinâmico que combina recuperação de documentos visuais com geração aprimorada.

Migician — Migician é um modelo de linguagem grande multimodal focado na localização de imagens múltiplas, capaz de realizar localização precisa de imagens múltiplas de forma livre.

Janus-Pro-1B — Janus-Pro-1B é uma estrutura auto-regressiva unificada de compreensão e geração multimodal.

SmolVLM-256M-Instruct — SmolVLM-256M é o menor modelo multimodal do mundo, capaz de processar de forma eficiente entradas de imagem e texto e gerar saídas de texto.

VideoLLaMA3 — VideoLLaMA3 é um modelo básico multimodal de ponta, focado na compreensão de imagens e vídeos.

InternVL2_5-26B-MPO-AWQ — Modelo de linguagem grande multimodais avançado, com capacidade excepcional de raciocínio multimodais.

Valley — Modelo multimodal de larga escala, processando dados de texto, imagem e vídeo.

FlagAI — Projeto de código aberto de algoritmos, modelos e ferramentas de otimização de modelos de linguagem grandes (LLMs) - uma solução completa.

InternVL2_5-1B-MPO — Modelo de linguagem grande multimodal que aprimora a compreensão integrada de visão e linguagem.

WePOINTS — O projeto WePOINTS fornece uma estrutura unificada para modelos multimodais.

InternVL2_5-38B — Série de modelos de linguagem grandes multimodais avançados

EMOVA — Modelo de linguagem multimodal rico em emoções

Molmo — Família de modelos de IA multimodal de ponta

Pixtral-12B-2409 — Modelo multimodal de 12B parâmetros, combinando um codificador visual para processar imagens e texto.

Pixtral 12B — Primeiro modelo multimodal Mistral, suportando o processamento de tarefas mistas de imagem e texto.

Modelo de IA Xihu — Modelo multimodal com alta inteligência emocional e intelectual

Show-o — Transformador único para compreensão e geração multimodal unificada

LLaVA-OneVision — Modelo de conversão eficiente para tarefas de visão multimodal

MedTrinity-25M — Conjunto de dados médicos multimodais em larga escala

Florence-2-large-ft — Modelo básico de visão avançado, compatível com diversas tarefas de visão e visão-linguagem.

Série GLM-4 — Modelo de diálogo multimodal multilíngue de código aberto

Gemini 1.5 Flash — Modelo de IA leve e eficiente do Google, projetado para tarefas de alta frequência e grande escala.

Meta Llama 3 — Modelo de linguagem grande de código aberto de nova geração da Meta, com desempenho excepcional.

Mini-Gemini — Modelo de IA multimodal, com capacidade de compreensão e geração de imagens.