Un reciente estudio alentador demuestra que los modelos lingüísticos grandes (LLM) pueden mejorar significativamente su rendimiento mediante la función de búsqueda. Específicamente, el modelo Llama3.1, con solo 800 millones de parámetros, después de 100 búsquedas, logró un rendimiento en la generación de código Python comparable al de GPT-4o.

Esta idea recuerda el clásico artículo de 2019 de Rich Sutton, pionero del aprendizaje por refuerzo, "La Amarga Lección". Menciona que, a medida que aumenta la capacidad de cálculo, debemos reconocer el poder de los métodos generales. En particular, "búsqueda" y "aprendizaje" parecen ser excelentes opciones de escalabilidad continua.

image.png

Aunque Sutton enfatiza la importancia del aprendizaje, es decir, que los modelos más grandes suelen aprender más conocimientos, a menudo pasamos por alto el potencial de la búsqueda en el proceso de razonamiento. Recientemente, investigadores de Stanford, Oxford y DeepMind descubrieron que aumentar el número de muestras repetidas en la fase de razonamiento puede mejorar significativamente el rendimiento del modelo en áreas como matemáticas, razonamiento y generación de código.

Inspirados por estas investigaciones, dos ingenieros decidieron experimentar. Descubrieron que usar 100 modelos Llama pequeños para la búsqueda puede superar o igualar a GPT-4o en tareas de programación Python. Usaron una vívida metáfora: "Antes se necesitaba un gran caballo para lograr cierta capacidad; ahora, 100 patitos pueden hacer lo mismo".

Para lograr un rendimiento superior, utilizaron la biblioteca vLLM para la inferencia por lotes y la ejecutaron en 10 GPU A100-40GB, alcanzando una asombrosa velocidad de salida de 40k tokens/segundo. Los autores eligieron HumanEval como prueba de referencia, ya que evalúa el código generado mediante la ejecución de pruebas, lo que proporciona una evaluación más objetiva y precisa.

image.png

Según el informe, en la inferencia de cero disparos, GPT-4o obtuvo una puntuación pass@1 del 90.2%. Con el método descrito, la puntuación pass@k de Llama3.18B también mejoró significativamente. Con 100 muestras repetidas, Llama alcanzó el 90.5%; al aumentar las muestras repetidas a 1000, la puntuación aumentó aún más hasta el 95.1%, superando claramente a GPT-4o.

Cabe mencionar que, aunque este experimento no es una reproducción exacta del estudio original, destaca la posibilidad de que modelos más pequeños superen a modelos más grandes en un rango predecible al mejorar la fase de razonamiento mediante el método de búsqueda.

La búsqueda es poderosa porque puede escalar "transparentemente" con el aumento de la capacidad de cálculo, transfiriendo recursos de la memoria al cálculo y logrando un equilibrio de recursos. Recientemente, DeepMind ha logrado avances importantes en el campo de las matemáticas, demostrando el poder de la búsqueda.

Sin embargo, el éxito de la búsqueda requiere primero una evaluación de alta calidad de los resultados. El modelo de DeepMind logra una supervisión eficaz al convertir problemas matemáticos expresados en lenguaje natural en expresiones formalizadas. En otras áreas, como las tareas de PNL abiertas, como "resumir correos electrónicos", la dificultad para realizar una búsqueda eficaz es mucho mayor.

Esta investigación muestra que la mejora del rendimiento de los modelos generativos en dominios específicos está estrechamente relacionada con sus capacidades de evaluación y búsqueda. Las futuras investigaciones podrían explorar cómo mejorar estas capacidades mediante entornos digitales reproducibles.

Dirección del artículo: https://arxiv.org/pdf/2407.21787