Apollo es una familia avanzada de modelos grandes multimodales (LMMs) enfocados en la comprensión de vídeo. A través de la exploración sistemática del espacio de diseño de los video-LMMs, revela los factores clave que impulsan el rendimiento y ofrece información práctica para optimizarlo. Apollo, mediante el descubrimiento de la 'Consistencia de Escalado', permite que las decisiones de diseño tomadas en modelos y conjuntos de datos más pequeños se transfieran de forma fiable a modelos más grandes, reduciendo considerablemente el coste computacional. Las principales ventajas de Apollo incluyen decisiones de diseño eficientes, planes de entrenamiento optimizados y mezcla de datos, así como un nuevo benchmark, ApolloBench, para una evaluación eficiente.