A Lua Escura anunciou hoje o lançamento de seu novo modelo de raciocínio visual, o k1. Este modelo, baseado em tecnologia de aprendizado por reforço, não apenas suporta a compreensão de imagens de ponta a ponta, mas também integra a tecnologia de cadeia de pensamento, expandindo suas capacidades para além da matemática, incluindo física e química. Em testes de capacidade de referência, o modelo k1 superou modelos líderes globais, como o o1 da OpenAI, o GPT-4o e o Claude3.5Sonnet.
A nova geração de modelos gera etapas de raciocínio mais detalhadas, formando cadeias de pensamento de alta qualidade, melhorando significativamente a taxa de sucesso na resolução de tarefas complexas. A fusão da compreensão de imagens e da capacidade de raciocínio do modelo k1 da Kimi oferece aos usuários uma experiência de interação mais fluida, permitindo o processamento direto de informações de imagens inseridas pelo usuário e a obtenção de respostas, sem a necessidade de OCR externo ou modelos visuais adicionais.
O treinamento do modelo k1 foi dividido em duas etapas: primeiro, o pré-treinamento para obter o modelo básico, e depois o treinamento de aprendizado por reforço com base nesse modelo. O modelo básico obteve uma excelente pontuação de 903 pontos no OCRBench e apresentou desempenho excepcional nos conjuntos de testes de referência MathVista-testmini, MMMU-val e DocVQA. O treinamento posterior de aprendizado por reforço foi otimizado em termos de qualidade de dados e eficiência de aprendizado, alcançando um novo avanço em escala.
A Kimi também construiu independentemente um conjunto de testes padronizado, o Science Vista, que abrange problemas de matemática, física e química em imagens com diferentes níveis de dificuldade, e o tornará disponível para todo o setor. Embora o modelo k1 tenha mostrado algumas limitações em testes internos, como espaço para melhoria na generalização fora da distribuição e na taxa de sucesso em problemas complexos, seu desempenho em cenários com ruído visual é superior ao de outros modelos, demonstrando uma capacidade de reconhecimento visual excepcional.
O modelo de raciocínio visual k1 do assistente inteligente Kimi não apenas se destaca em matemática, mas também se estende à física e à química, demonstrando amplas capacidades em ciências básicas. Além disso, o modelo k1 demonstrou capacidades gerais, podendo explicar e raciocinar sobre problemas não matemáticos, como o conteúdo e a história de fundo de manuscritos científicos.
O assistente inteligente Kimi espera explorar um mundo maior com os usuários. O novo modelo k1 já está disponível, e os usuários podem experimentar este novo recurso por meio do aplicativo móvel ou da versão web mais recente do assistente inteligente Kimi.