Recentemente, a Tencent lançou oficialmente seu modelo de raciocínio profundo autodesenvolvido - a versão oficial do HunYuan T1.
A versão oficial do HunYuan T1, baseada em aprendizado por reforço em larga escala, foi otimizada para problemas de ciências exatas, como matemática, raciocínio lógico, ciências e código, resultando em um aumento significativo na capacidade de raciocínio. Em benchmarks comuns, como o conjunto de dados aprimorado de avaliação de modelos de linguagem grande MMLU-PRO, o HunYuan T1 obteve uma excelente pontuação de 87,2, ficando atrás apenas do modelo de ponta o1. Ao mesmo tempo, em testes de benchmark abertos de conhecimento em chinês e inglês e de matemática e raciocínio lógico de nível competitivo, como CEval, AIME e Zebra Logic, o HunYuan T1 demonstrou o nível de um modelo de raciocínio líder do setor.
Além da capacidade de raciocínio básica, a versão oficial do HunYuan T1 também mostrou uma forte adaptabilidade em várias tarefas de alinhamento, tarefas de seguimento de instruções e tarefas de utilização de ferramentas. Isso se deve à sua arquitetura inovadora herdada do HunYuan Turbo S e ao uso do modo de fusão Hybrid-Mamba-Transformer. Esta é a primeira vez na indústria que a arquitetura Mamba híbrida é aplicada sem perdas a modelos de raciocínio superdimensionados, reduzindo efetivamente a complexidade computacional da estrutura tradicional do Transformer, reduzindo o uso de memória do KV-Cache e, portanto, reduzindo significativamente os custos de treinamento e inferência.
Além disso, com base em sua excelente capacidade de captura de textos longos, o HunYuan T1 pode resolver eficazmente os problemas comuns de perda de contexto e dependência de informações de longa distância no raciocínio de textos longos. A arquitetura Mamba híbrida foi otimizada especificamente para o processamento de sequências longas, utilizando um método de cálculo eficiente para garantir a capacidade de captura de informações de texto longo, ao mesmo tempo em que reduz significativamente o consumo de recursos. Com uma quantidade semelhante de parâmetros de ativação, o HunYuan T1 alcançou um aumento de 2 vezes na velocidade de decodificação.
Atualmente, o Tencent HunYuan T1 já está disponível para experiência e o serviço de API foi lançado. Os usuários podem, de acordo com suas necessidades, desfrutar da conveniência e eficiência deste poderoso modelo de raciocínio com um preço de entrada de 1 yuan por milhão de tokens e um preço de saída de 4 yuans por milhão de tokens.