Recientemente, Kunlun Wanwei, en colaboración con la Universidad Tecnológica de Nanyang de Singapur, ha desarrollado con éxito un algoritmo llamado Q*, que mejora significativamente la capacidad de razonamiento de los modelos lingüísticos grandes existentes. Q* ayuda a los modelos pequeños a alcanzar la capacidad de razonamiento de modelos con parámetros decenas o incluso cientos de veces mayores en diferentes conjuntos de datos, lo que mejora considerablemente el rendimiento del modelo y reduce significativamente la necesidad de recursos computacionales, abriendo nuevas posibilidades para la aplicación generalizada de la inteligencia artificial e inaugurando una nueva era de inteligencia eficiente.

Kunlun Wanwei

En el artículo de investigación "Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning", los investigadores presentan el marco Q*, que descompone la trayectoria de razonamiento de los modelos lingüísticos grandes en varios estados y utiliza el algoritmo de búsqueda A* para lograr una planificación integral, mejorando el rendimiento de los modelos de código abierto en tareas de razonamiento.

Específicamente, mediante la definición de la función de Costo de Ruta y la función de Recompensa Acumulada, se logra una consideración integral de los beneficios del estado histórico y los beneficios esperados futuros. En los experimentos, Q* ayudó a diferentes modelos a lograr una mejora significativa en la precisión en varios conjuntos de datos, superando a algunos modelos conocidos.

Actualmente, la investigación de Q* se encuentra en una etapa inicial y aún hay margen de mejora. En el futuro, Kunlun Wanwei continuará investigando a fondo para mejorar la capacidad de razonamiento de los modelos de código abierto nacionales y aportar más posibilidades al desarrollo de la tecnología de inteligencia artificial.

Enlace al artículo:

https://arxiv.org/abs/2406.14283