A renomada empresa chinesa de inteligência artificial Moonshot AI (月之暗面) anunciou recentemente o lançamento de código aberto de dois novos modelos de linguagem visual: Kimi-VL e Kimi-VL-Thinking. Esses modelos, com sua arquitetura leve e capacidade excepcional de compreensão e raciocínio multimodais, superaram vários modelos grandes, incluindo o GPT-4o, em diversos testes de referência importantes, gerando grande interesse na indústria.
Corpo leve, potência imensa
Diferentemente dos modelos principais que costumam ter centenas de bilhões ou até trilhões de parâmetros, o Kimi-VL e o Kimi-VL-Thinking utilizam a arquitetura MoE (Mixture-of-Experts, mistura de especialistas), com aproximadamente 3 bilhões de parâmetros ativados. Isso significa que eles são mais eficientes em termos de execução e implantação, exigindo menos recursos computacionais. No entanto, surpreendentemente, mesmo com essa arquitetura leve, esses dois modelos obtiveram resultados excelentes em vários testes de referência, demonstrando sua poderosa capacidade de raciocínio.
Inteligência multimodal aprimorada: desempenho notável em raciocínio matemático e operação de agentes
Os modelos da série Kimi-VL se destacaram no raciocínio multimodal e na capacidade de agentes. No teste de referência MathVision, que avalia a capacidade de raciocínio matemático multimodal do modelo, o Kimi-VL obteve uma pontuação de 36,8%, um resultado comparável ao de modelos grandes com dez vezes mais parâmetros.
Ainda mais impressionante é o desempenho no teste ScreenSpot-Pro, que avalia a capacidade de operação de agentes, onde o Kimi-VL atingiu 34,5%. Isso indica que o modelo possui um excelente potencial para compreender interfaces de usuário complexas e executar as operações correspondentes, lançando as bases para o desenvolvimento futuro de aplicativos de interação homem-máquina mais inteligentes.
Visão de alta definição: suporte nativo para processamento de imagens de alta resolução
Graças à arquitetura MoonViT, os modelos da série Kimi-VL possuem uma poderosa capacidade de reconhecimento e compreensão de imagens e texto. No teste de referência OCRBench, obteve uma pontuação de 867, demonstrando seu desempenho excepcional no processamento de imagens de alta resolução e reconhecimento de texto complexo. Esse recurso é crucial para aplicativos que lidam com muitas informações em imagens e documentos.
Memória ultralonga: domínio fácil da compreensão de contextos longos
A capacidade de compreensão de contextos longos é outro destaque dos modelos da série Kimi-VL. Eles suportam entradas de contexto de até 128K tokens. Isso significa que os modelos podem processar simultaneamente informações complexas de textos longos, como documentos e vídeos mais longos, e realizar uma compreensão e análise mais aprofundada.
No teste de compreensão de documentos longos MMLongBench-Doc, o Kimi-VL obteve 35,1%, enquanto no teste de compreensão de vídeos longos LongVideoBench, alcançou uma pontuação alta de 64,5%. Isso torna os modelos da série Kimi-VL extremamente promissores em cenários como respostas a perguntas em documentos e análise de vídeos, que exigem o processamento de grandes quantidades de informações contextuais.
Compartilhamento de código aberto, criando juntos o futuro da inteligência multimodal
A Moonshot AI destaca que o lançamento de código aberto do Kimi-VL e do Kimi-VL-Thinking é apenas um pequeno passo em direção à inteligência multimodal universal. Eles esperam, por meio do código aberto, atrair mais desenvolvedores da comunidade para o desenvolvimento de aplicativos do modelo, explorando conjuntamente as infinitas possibilidades dos modelos da série Kimi-VL em áreas como respostas a perguntas em documentos, operação de interfaces, compreensão de imagens e texto e análise de vídeos.
Atualmente, os desenvolvedores podem acessar as informações e o código dos modelos da série Kimi-VL da seguinte maneira:
GitHub: https://github.com/MoonshotAI/Kimi-VL
https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct