CuMo

Uma arquitetura avançada para escalar modelos de linguagem grandes multimodais (LLMs).

Produto ComumProgramaçãoIAAprendizado Multimodal
CuMo é uma arquitetura de escalonamento para modelos de linguagem grandes multimodais (LLMs) que aumenta a escalabilidade do modelo integrando blocos esparsos de mistura de especialistas com portões Top-K (MoE) no codificador visual e no conector MLP, sem praticamente aumentar os parâmetros de ativação durante a inferência. O CuMo inicializa cada especialista nos blocos MoE após o pré-treinamento do bloco MLP e utiliza uma perda auxiliar na fase de ajuste de instruções visuais para garantir uma carga equilibrada dos especialistas. O CuMo supera outros modelos semelhantes em vários benchmarks de VQA e seguimento de instruções visuais, sendo totalmente treinado em datasets de código aberto.
Abrir Site

CuMo Situação do Tráfego Mais Recente

Total de Visitas Mensais

340

Taxa de Rejeição

43.45%

Média de Páginas por Visita

1.0

Duração Média da Visita

00:00:00

CuMo Tendência de Visitas

CuMo Distribuição Geográfica das Visitas

CuMo Fontes de Tráfego

CuMo Alternativas