¡Más de 10,000 estrellas! El modelo MiniCPM-V2.6 de Mentian, un pequeño cañón inteligente, llega a la cima de GitHub

AIbase基地

Publicado elNoticias de IA · 3 minutos de lectura · Aug 13, 2024

273

La última versión 2.6 de MiniCPM-V, el pequeño cañón de pared, ha ascendido rápidamente al Top 3 en las listas de tendencias de las famosas comunidades de código abierto GitHub y HuggingFace a nivel mundial desde su lanzamiento, superando las 10,000 estrellas en GitHub. Desde su debut el 1 de febrero, la serie MiniCPM ha acumulado más de un millón de descargas, convirtiéndose en un importante estándar de medición para el límite de capacidad de los modelos de extremo.

微信截图_20240813081342.png

MiniCPM-V2.6, con sus 8B parámetros, ha logrado una mejora integral en el rendimiento de la comprensión de imágenes individuales, múltiples imágenes y videos, superando a GPT-4V. Este modelo multimodal de extremo integra por primera vez funciones de alta gama como comprensión de video en tiempo real, comprensión conjunta de múltiples imágenes y ICL multi-imagen. Tras la cuantificación, ocupa solo 6 GB de memoria en el extremo y alcanza una velocidad de inferencia de 18 tokens/s, un 33% más rápido que la generación anterior, y admite la inferencia llama.cpp, ollama y vllm, además de soportar múltiples idiomas.

Este avance tecnológico ha generado una gran respuesta en la comunidad tecnológica mundial, y muchos desarrolladores y miembros de la comunidad han mostrado un gran interés en el lanzamiento de MiniCPM-V2.6.

Actualmente, las direcciones de código abierto de MiniCPM-V2.6 en GitHub y Hugging Face ya están disponibles públicamente, junto con enlaces a tutoriales de implementación de llama.cpp, ollama y vllm.

Dirección de código abierto de MiniCPM-V2.6 en GitHub:

https://github.com/OpenBMB/MiniCPM-V

Dirección de código abierto de MiniCPM-V2.6 en Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-2_6

Dirección de los tutoriales de implementación de llama.cpp, ollama y vllm:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Recientemente, la comunidad Modelers lanzó oficialmente Step-Video y Step-Audio, dos modelos multimodales de código abierto desarrollados por Step-Video. Estos dos modelos se utilizan para la generación de video e interacción de voz, con el objetivo de proporcionar herramientas de IA más potentes para desarrolladores y empresas. El nombre completo del modelo Step-Video es Step-Video-T2V, un modelo de generación de video de código abierto, el más grande del mundo, con una capacidad de 30 mil millones de parámetros. Este modelo puede generar directamente videos de 20 segundos...

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

El modelo nacional DeepSeek ha lanzado su nuevo modelo multimodal Janus-Pro, incursionando oficialmente en el campo de la generación de imágenes a partir de texto. Este movimiento marca un gran avance en la tecnología de IA multimodal de DeepSeek. En las pruebas de referencia GenEval y DPG-Bench, Janus-Pro-7B no solo superó a DALL-E3 de OpenAI, sino que también a modelos populares como Stable Diffusion y Emu3-Gen. Janus-Pro utiliza licencia MIT

OpenBMB lanza el modelo multimodal MiniCPM-o2.6: Procesamiento de visión y voz incluso en teléfonos móviles

En los últimos años, la inteligencia artificial ha experimentado un progreso notable, pero persiste el desafío de equilibrar la eficiencia computacional con la multifuncionalidad. Muchos modelos multimodales avanzados, como GPT-4, suelen requerir grandes recursos computacionales, lo que limita su uso a servidores de alta gama y dificulta la aplicación efectiva de la tecnología inteligente en dispositivos periféricos como teléfonos inteligentes y tabletas. Además, el procesamiento en tiempo real de tareas como el análisis de vídeo o la conversión de voz a texto sigue presentando obstáculos tecnológicos, poniendo de manifiesto la necesidad de modelos de IA eficientes y flexibles que permitan una integración perfecta con recursos de hardware limitados.

Noticias de IA

¡Más de 10,000 estrellas! El modelo MiniCPM-V2.6 de Mentian, un pequeño cañón inteligente, llega a la cima de GitHub

AIbase基地

Noticias de IA relacionadas recomendadas

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Microsoft lanza Phi-4, un modelo multimodal y miniaturizado que mejora el procesamiento de voz, visión y texto

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

OpenBMB lanza el modelo multimodal MiniCPM-o2.6: Procesamiento de visión y voz incluso en teléfonos móviles