InternViT-300M-448px-V2_5
Versión mejorada de InternViT-300M-448px, que mejora la capacidad de extracción de características visuales.
Producto ComúnImagenExtracción de características visualesAprendizaje multimodal
InternViT-300M-448px-V2_5 es una versión mejorada de InternViT-300M-448px. Mediante el aprendizaje incremental de ViT y la pérdida NTP (Etapa 1.5), se mejora la capacidad del codificador visual para extraer características visuales, especialmente en áreas con poca representación en conjuntos de datos web a gran escala, como datos de OCR multilingüe y gráficos matemáticos. Este modelo forma parte de la serie InternViT 2.5, manteniendo la misma arquitectura de modelo 'ViT-MLP-LLM' de sus predecesores e integrando un nuevo InternViT preentrenado incrementalmente con varios LLM preentrenados, como InternLM 2.5 y Qwen 2.5, utilizando un proyector MLP con inicialización aleatoria.
InternViT-300M-448px-V2_5 Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44