CuMo
Uma arquitetura avançada para escalar modelos de linguagem grandes multimodais (LLMs).
Produto ComumProgramaçãoIAAprendizado Multimodal
CuMo é uma arquitetura de escalonamento para modelos de linguagem grandes multimodais (LLMs) que aumenta a escalabilidade do modelo integrando blocos esparsos de mistura de especialistas com portões Top-K (MoE) no codificador visual e no conector MLP, sem praticamente aumentar os parâmetros de ativação durante a inferência. O CuMo inicializa cada especialista nos blocos MoE após o pré-treinamento do bloco MLP e utiliza uma perda auxiliar na fase de ajuste de instruções visuais para garantir uma carga equilibrada dos especialistas. O CuMo supera outros modelos semelhantes em vários benchmarks de VQA e seguimento de instruções visuais, sendo totalmente treinado em datasets de código aberto.
CuMo Situação do Tráfego Mais Recente
Total de Visitas Mensais
340
Taxa de Rejeição
43.45%
Média de Páginas por Visita
1.0
Duração Média da Visita
00:00:00