Recentemente, a Beijing Moon's Dark Side Technology Co., Ltd. anunciou uma grande atualização técnica para seu assistente inteligente Kimi, lançando o novo modelo de raciocínio multimodal k1.5. Este modelo alcançou níveis líderes do setor em raciocínio multimodal e raciocínio geral, marcando outro avanço inovador do Kimi no campo da inteligência artificial.
O modelo de raciocínio multimodal k1.5 representa a terceira grande atualização do Kimi para seus modelos de aprendizado por reforço da série k em apenas três meses. Após o lançamento do modelo matemático k0-math em novembro do ano passado e do modelo de raciocínio visual k1 em dezembro, o modelo k1.5 demonstrou desempenho excepcional em testes de referência. No modo short-CoT, as habilidades matemáticas, de codificação, multimodais visuais e gerais do k1.5 superaram significativamente os modelos SOTA de raciocínio curto globais GPT-4o e Claude3.5Sonnet, com uma margem de 550%. Já no modo long-CoT, as habilidades matemáticas, de codificação e de raciocínio multimodal do k1.5 alcançaram o nível do modelo SOTA de raciocínio longo OpenAI o1 versão oficial, sendo a primeira vez que uma empresa fora da OpenAI consegue atingir o desempenho de raciocínio multimodal da versão oficial o1 em todo o mundo.
Por trás dessa atualização está o esforço incansável e a inovação da equipe técnica do Kimi. A equipe divulgou pela primeira vez um relatório técnico detalhado sobre o treinamento do modelo, intitulado "Kimi k1.5: Escalando o aprendizado por reforço com modelos de linguagem grandes", que documenta a jornada de exploração do treinamento do modelo sob um novo paradigma tecnológico.
O relatório destaca que as inovações-chave do modelo k1.5 incluem a extensão do contexto longo, que melhora a eficiência do treinamento por meio de técnicas de desdobramento parcial, observando-se que o aumento do comprimento do contexto pode melhorar continuamente o desempenho do modelo. Além disso, métodos aprimorados de otimização de estratégia e um design de estrutura simplificado também contribuíram para o desempenho robusto do modelo. É importante notar que o modelo k1.5 foi treinado em dados de texto e visuais, possuindo a capacidade de raciocínio conjunto entre os dois modos, com desempenho excepcional em matemática, embora ainda apresente desafios no tratamento de problemas de geometria que dependem da compreensão de gráficos.
Para melhorar ainda mais a capacidade de raciocínio de cadeia curta, a equipe também propôs um método eficaz long2short, utilizando a tecnologia Long-CoT para melhorar o modelo Short-CoT, obtendo resultados notáveis em testes como AIME, MATH500 e LiveCodeBench, superando significativamente os modelos de raciocínio de cadeia curta existentes, como GPT-4 e Claude Sonnet3.5.
Uma versão de pré-visualização do modelo de raciocínio multimodal k1.5 será lançada gradualmente no site Kimi.com e no aplicativo assistente inteligente Kimi mais recente. Os usuários poderão experimentar este modelo atualizado ao encontrar o botão de alternância de modelo durante o uso. O modelo k1.5 é especializado em raciocínio profundo e pode ajudar os usuários a resolver problemas complexos de código, matemática e trabalho.
A Beijing Moon's Dark Side Technology Co., Ltd. afirmou que, em 2025, continuará a acelerar a atualização dos modelos de aprendizado por reforço da série k de acordo com seu roteiro definido, adicionando mais modalidades, mais domínios e capacidades mais robustas, desbloqueando mais possibilidades para os usuários.
Link do relatório do github:https://github.com/MoonshotAI/kimi-k1.5