CuMo
Arquitectura avanzada para la ampliación de modelos de lenguaje grandes multimodales (LLM).
Producto ComúnProgramaciónIAAprendizaje multimodal
CuMo es una arquitectura de ampliación para modelos de lenguaje grandes multimodales (LLM) que mejora la escalabilidad del modelo mediante la integración de bloques de mezcla de expertos (MoE) de Top-K dispersos en el codificador visual y el conector MLP, sin apenas aumentar los parámetros de activación durante la inferencia. CuMo inicializa cada experto en los bloques MoE después del preentrenamiento del bloque MLP y utiliza una pérdida auxiliar durante la fase de ajuste de instrucciones visuales para asegurar una carga equilibrada de los expertos. CuMo supera a otros modelos similares en varios puntos de referencia de VQA y seguimiento de instrucciones visuales, y está entrenado completamente con conjuntos de datos de código abierto.
CuMo Situación del tráfico más reciente
Total de visitas mensuales
340
Tasa de rebote
43.45%
Páginas promedio por visita
1.0
Duración promedio de la visita
00:00:00