InternViT-6B-448px-V2_5 es un modelo de visión basado en InternViT-6B-448px-V1-5. Mediante el aprendizaje incremental de ViT y la pérdida NTP (fase 1.5), se ha mejorado la capacidad del codificador visual para extraer características visuales, especialmente en áreas subrepresentadas en conjuntos de datos de red a gran escala, como datos de OCR multilingües y gráficos matemáticos. Este modelo forma parte de la serie InternVL 2.5, conservando la arquitectura "ViT-MLP-LLM" de su predecesor e integrando InternViT preentrenado incrementalmente con varios LLM preentrenados, incluyendo InternLM 2.5 y Qwen 2.5, utilizando un proyector MLP con inicialización aleatoria.