A versão mais recente do MiniCPM-V, o MiniCPM-V 2.6, tem subido rapidamente para o Top 3 nas listas de tendências do GitHub e Hugging Face, duas comunidades de código aberto mundialmente famosas, desde o seu lançamento. O número de estrelas no GitHub já ultrapassou 10.000. Desde sua estreia em 1º de fevereiro, a série MiniCPM acumulou mais de um milhão de downloads, tornando-se um importante padrão para medir o limite de capacidade dos modelos de ponta.

微信截图_20240813081342.png

O MiniCPM-V 2.6, com seus 8 bilhões de parâmetros, alcançou melhorias significativas no desempenho em relação à compreensão de imagens únicas, múltiplas imagens e vídeos, superando o GPT-4V. Este modelo multimodal de ponta integra pela primeira vez recursos avançados como compreensão de vídeo em tempo real, compreensão conjunta de múltiplas imagens e ICL multi-imagem. Após a quantização, ocupa apenas 6 GB de memória de ponta e possui uma velocidade de inferência de 18 tokens/s, 33% mais rápido que a geração anterior. Ele também suporta inferência llama.cpp, ollama e vllm, além de suportar vários idiomas.

Este avanço tecnológico gerou grande entusiasmo na comunidade tecnológica global, com muitos desenvolvedores e membros da comunidade mostrando grande interesse no lançamento do MiniCPM-V 2.6.

Atualmente, os endereços de código aberto do MiniCPM-V 2.6 no GitHub e Hugging Face já estão disponíveis publicamente, juntamente com links para tutoriais de implantação do llama.cpp, ollama e vllm.

Endereço de código aberto do MiniCPM-V 2.6 no GitHub:

https://github.com/OpenBMB/MiniCPM-V

Endereço de código aberto do MiniCPM-V 2.6 no Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-2_6

Endereço dos tutoriais de implantação do llama.cpp, ollama e vllm:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc