Lanzamiento oficial del modelo de pensamiento profundo autodesarrollado de Tencent, "T1"

Recientemente, Tencent lanzó oficialmente su modelo de pensamiento profundo de desarrollo propio: HunYuan T1 versión oficial.

La versión oficial de HunYuan T1, basada en el aprendizaje por refuerzo a gran escala, ha sido optimizada específicamente para problemas de ciencia, como matemáticas, razonamiento lógico, ciencia y código, lo que ha llevado a una mejora significativa en su capacidad de razonamiento. En benchmarks comunes, como el conjunto de datos mejorado de evaluación de modelos de lenguaje grande MMLU-PRO, HunYuan T1 obtuvo una excelente puntuación de 87.2, solo superado por el modelo de vanguardia o1. Simultáneamente, en pruebas de referencia públicas de conocimiento chino e inglés, y en pruebas de matemáticas y razonamiento lógico de nivel competitivo como CEval, AIME y Zebra Logic, HunYuan T1 demostró el nivel de un modelo de razonamiento líder en la industria.

¡Tencent lo más fuerte! Se lanza oficialmente el modelo de pensamiento profundo autodesarrollado HunYuan T1: habla rápido, responde al instante

Además de la capacidad de razonamiento básico, la versión oficial de HunYuan T1 ha demostrado una gran adaptabilidad en múltiples tareas de alineación, tareas de seguimiento de instrucciones y tareas de utilización de herramientas. Esto se debe a su innovadora arquitectura heredada de HunYuan Turbo S, y a la adopción del modo de fusión Hybrid-Mamba-Transformer. Esta es la primera vez en la industria que la arquitectura Mamba híbrida se aplica sin pérdidas a modelos de razonamiento de gran tamaño, reduciendo eficazmente la complejidad computacional de la estructura tradicional del Transformer, disminuyendo el uso de memoria de KV-Cache y, por lo tanto, reduciendo significativamente los costos de entrenamiento e inferencia.

Además, basándose en su excelente capacidad de captura de textos largos, HunYuan T1 puede resolver eficazmente los problemas comunes de pérdida de contexto y dependencia de información a larga distancia en el razonamiento de textos largos. La arquitectura Mamba híbrida está optimizada específicamente para el procesamiento de secuencias largas, y a través de un método de cálculo eficiente, reduce significativamente el consumo de recursos al tiempo que garantiza la capacidad de captura de información de textos largos. Con una cantidad similar de parámetros de activación, HunYuan T1 ha logrado duplicar la velocidad de decodificación.

Actualmente, Tencent HunYuan T1 ya está disponible para su experiencia y se ha lanzado el servicio API. Los usuarios pueden, según sus necesidades, disfrutar de la comodidad y eficiencia de este potente modelo de razonamiento con un precio de entrada de 1 yuan por millón de tokens y un precio de salida de 4 yuanes por millón de tokens.

Noticias de IA

Lanzamiento oficial del modelo de pensamiento profundo autodesarrollado de Tencent, "T1"

AIbase基地