O modelo de inteligência artificial multimodal para dispositivos móveis "MiniCPM-V2.6", com apenas 8B de parâmetros, alcançou resultados SOTA (State of the Art, ou seja, o melhor nível atual) em três tarefas: compreensão de imagem única, múltiplas imagens e vídeo, todas abaixo de 20B. Isso representa uma melhoria significativa na capacidade multimodal de IA em dispositivos móveis, sendo diretamente comparável ao GPT-4V.

微信截图_20240807080523.png

Segue um resumo das características:

  1. Características do modelo: O MiniCPM-V2.6 alcançou uma superação abrangente nas capacidades principais em dispositivos móveis, como compreensão de imagem única, múltiplas imagens e vídeo. Pela primeira vez, funcionalidades como compreensão de vídeo em tempo real e compreensão conjunta de múltiplas imagens foram disponibilizadas em dispositivos móveis, aproximando-se de cenários reais mais complexos.

  2. Eficiência e desempenho: Este modelo, com poucos recursos, apresenta uma alta densidade de pixels (Token Density), duas vezes maior que a do GPT-4o para codificação de token único, alcançando alta eficiência operacional em dispositivos móveis.

  3. Compatibilidade com dispositivos móveis: Após a quantização, o modelo requer apenas 6 GB de memória, com velocidade de inferência de até 18 tokens por segundo, 33% mais rápido que a geração anterior, e suporta múltiplas linguagens e frameworks de inferência.

  4. Expansão de funcionalidades: O MiniCPM-V2.6, através da capacidade OCR, transfere a capacidade de análise de imagens de alta definição de cenários de imagem única para cenários de múltiplas imagens e vídeo, reduzindo a quantidade de tokens visuais e economizando recursos.

  5. Capacidade de inferência: Apresenta excelente capacidade em compreensão de múltiplas imagens e tarefas de inferência complexas, como a descrição passo a passo de como ajustar o assento de uma bicicleta e a identificação do humor em memes.

  6. ICL de múltiplas imagens: O modelo suporta aprendizado de poucos exemplos com contexto, adaptando-se rapidamente a tarefas de domínio específico e melhorando a estabilidade da saída.

  7. Arquitetura visual de alta definição: Através de uma arquitetura visual unificada, a capacidade OCR do modelo é mantida, permitindo uma expansão fluida de imagem única para múltiplas imagens e vídeo.

  8. Taxa de alucinação ultrabaixa: O MiniCPM-V2.6 apresentou desempenho excelente em avaliações de alucinação, demonstrando sua confiabilidade.

O lançamento do modelo MiniCPM-V2.6 é de grande importância para o desenvolvimento da IA em dispositivos móveis, não apenas melhorando a capacidade de processamento multimodal, mas também demonstrando a possibilidade de implementar IA de alto desempenho em dispositivos móveis com recursos limitados.

Endereço de código aberto do modelo MiniCPM-V2.6:

GitHub:

https://github.com/OpenBMB/MiniCPM-V

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-V-2_6

Tutoriais de implantação llama.cpp, ollama, vllm:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

Endereço de código aberto da série MiniCPM:

https://github.com/OpenBMB/MiniCPM