OpenBMB lança o modelo multi-modal MiniCPM-o2.6: processamento de visão e voz agora também em smartphones

Nos últimos anos, a tecnologia de inteligência artificial (IA) avançou significativamente, mas ainda enfrenta desafios na conciliação entre eficiência computacional e multifuncionalidade. Muitos modelos multimodais avançados, como o GPT-4, geralmente exigem grandes recursos computacionais, limitando seu uso a servidores de alta performance e dificultando a utilização eficaz da tecnologia inteligente em dispositivos de borda, como smartphones e tablets. Além disso, o processamento em tempo real de tarefas como análise de vídeo ou conversão de voz para texto ainda apresenta obstáculos tecnológicos, destacando a necessidade de modelos de IA eficientes e flexíveis para operação perfeita com recursos de hardware limitados.

Para solucionar esses problemas, a OpenBMB lançou recentemente o MiniCPM-o2.6, um modelo com arquitetura de 8 bilhões de parâmetros, projetado para suportar processamento de visão, voz e linguagem, podendo operar eficientemente em dispositivos de borda como smartphones, tablets e iPads. O MiniCPM-o2.6 utiliza um design modular, integrando vários componentes poderosos:

- SigLip-400M para compreensão visual.

- Whisper-300M para processamento de voz multilíngue.

- ChatTTS-200M para capacidades de conversação.

- Qwen2.5-7B para compreensão avançada de texto.

O modelo obteve uma pontuação média de 70,2 no benchmark OpenCompass, superando o GPT-4V em tarefas visuais. Seu suporte multilíngue e operação eficiente em dispositivos de consumo o tornam prático em diversos cenários de aplicação.

O MiniCPM-o2.6 alcança seu desempenho robusto por meio dos seguintes detalhes técnicos:

- Otimização de parâmetros: Apesar de seu tamanho considerável, foi otimizado por meio de frameworks como llama.cpp e vLLM para manter a precisão e reduzir as necessidades de recursos.

- Processamento multimodal: Suporta processamento de imagens com resolução de até 1344×1344 e possui recursos de OCR com desempenho excelente.

- Suporte de streaming: Suporta processamento contínuo de vídeo e áudio, permitindo sua aplicação em cenários como monitoramento em tempo real e transmissões ao vivo.

- Recursos de voz: Oferece compreensão de voz bilíngue, clonagem de voz e controle emocional, promovendo interação natural em tempo real.

- Fácil integração: Compatível com plataformas como o Gradio, simplificando o processo de implantação e adequado para aplicações comerciais com menos de um milhão de usuários ativos diários.

Esses recursos oferecem aos desenvolvedores e empresas a oportunidade de implantar soluções de IA complexas sem depender de infraestruturas massivas.

O MiniCPM-o2.6 se destaca em várias áreas. Ele supera o GPT-4V em tarefas visuais, realiza conversas em tempo real em chinês e inglês no processamento de voz, além de oferecer controle emocional e clonagem de voz, apresentando excelente capacidade de interação em linguagem natural. O processamento contínuo de vídeo e áudio o torna adequado para ferramentas de tradução em tempo real e aprendizagem interativa, garantindo alta precisão em tarefas de OCR, como digitalização de documentos.

O lançamento do MiniCPM-o2.6 representa um avanço significativo na tecnologia de inteligência artificial, resolvendo com sucesso o desafio de longa data da compatibilidade entre modelos intensivos em recursos e dispositivos de borda. Ao combinar capacidades multimodais avançadas com operação eficiente em dispositivos de borda, a OpenBMB criou um modelo poderoso e acessível. Com a crescente importância da IA na vida cotidiana, o MiniCPM-o2.6 demonstra como a inovação pode reduzir a diferença entre desempenho e praticidade, permitindo que desenvolvedores e usuários de diversos setores utilizem efetivamente tecnologias de ponta.

Modelo: https://huggingface.co/openbmb/MiniCPM-o-2_6

Destaques:
🌟 MiniCPM-o2.6 é um modelo multimodal com 8 bilhões de parâmetros, capaz de operar eficientemente em dispositivos de borda, suportando processamento de visão, voz e linguagem.
🚀 O modelo apresentou excelente desempenho no benchmark OpenCompass, superando o GPT-4V em tarefas visuais e possuindo capacidade de processamento multilíngue.
🛠️ O MiniCPM-o2.6 possui recursos de processamento em tempo real, clonagem de voz e controle emocional, adequado para aplicações inovadoras em diversos setores, como educação e saúde.

Notícias e Informações de IA

OpenBMB lança o modelo multi-modal MiniCPM-o2.6: processamento de visão e voz agora também em smartphones

AIbase基地

Notícias de IA Relacionadas Recomendadas

Apresentado como o OCR mais poderoso do mundo! Análise completa da nova API OCR da Mistral

Quantexa arrecada US$ 175 milhões, atingindo avaliação de US$ 2,6 bilhões, impulsionando negócios de análise de dados e IA

CoreWeave adquire a plataforma de desenvolvimento de IA Weights&Biases para acelerar a inovação em inteligência artificial

Estudo de Stanford revela: adoção de ferramentas de escrita de IA é mais rápida em regiões com baixa escolaridade