Recientemente, un equipo de la Universidad de Cambridge y otros publicó un importante artículo que revela la verdadera naturaleza de los grandes modelos lingüísticos (LLM), analizando a fondo el rendimiento real de los modelos de lenguaje actuales. Los resultados son sorprendentes: estos modelos de IA, en los que se depositan grandes esperanzas, muestran un rendimiento mucho menor de lo esperado en muchas tareas básicas.
Este estudio evaluó exhaustivamente varios modelos de vanguardia, incluyendo o1-preview. Los resultados muestran una diferencia significativa en la capacidad de comprensión entre los modelos de IA y los humanos. Sorprendentemente, los modelos sobresalen en tareas que los humanos consideran complejas, pero cometen errores frecuentes en problemas simples. Esta discrepancia lleva a cuestionar si la IA realmente comprende la esencia de las tareas o simplemente está "fingiendo inteligencia".
Más sorprendente aún es que la ingeniería de prompts (Prompt Engineering), considerada una técnica para mejorar el rendimiento de la IA, parece no resolver los problemas fundamentales de los modelos. El estudio descubrió errores sorprendentes incluso en juegos de palabras simples. Por ejemplo, pueden deletrear correctamente palabras complejas como "electroluminiscencia", pero fallan en acertijos simples como "my", respondiendo con "mummy".
El equipo de investigación evaluó 32 modelos de lenguaje diferentes, mostrando una gran inestabilidad en su rendimiento en tareas de diversa dificultad. En tareas complejas, su precisión es mucho menor de lo esperado. Peor aún, estos modelos parecen intentar tareas más difíciles sin dominar las más sencillas, lo que lleva a errores frecuentes.
Otro aspecto preocupante es la alta sensibilidad de los modelos a las indicaciones. El estudio encontró que muchos modelos no pueden completar tareas simples sin indicaciones cuidadosamente diseñadas. Un simple cambio en la indicación puede provocar una gran diferencia en el rendimiento del modelo, lo que supone un gran desafío para las aplicaciones prácticas.
Más preocupante aún es que, incluso los modelos entrenados con aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), siguen teniendo problemas de fiabilidad. En escenarios complejos, estos modelos suelen mostrar una confianza excesiva, pero con un aumento significativo en la tasa de errores. Esto puede llevar a que los usuarios acepten resultados erróneos sin darse cuenta, causando graves errores de juicio.
Este estudio sin duda ha enfriado el entusiasmo en el campo de la IA, especialmente en comparación con las predicciones optimistas de Ilya Sutskever, el "Nobel" de la IA de hace dos años. Él confiaba en que, con el tiempo, el rendimiento de la IA se ajustaría a las expectativas humanas. Sin embargo, la realidad ofrece una respuesta completamente diferente.
Este estudio es como un espejo que refleja las muchas deficiencias de los grandes modelos lingüísticos actuales. Aunque tenemos grandes expectativas para el futuro de la IA, estos descubrimientos nos recuerdan la necesidad de mantener la cautela con estos "genios". La fiabilidad de la IA necesita una solución urgente, y el camino hacia el futuro sigue siendo largo.
Esta investigación no solo revela el estado actual del desarrollo de la tecnología de IA, sino que también proporciona una referencia importante para futuras líneas de investigación. Nos recuerda que, al tiempo que buscamos mejorar las capacidades de la IA, debemos prestar más atención a su estabilidad y fiabilidad. La investigación futura de la IA puede necesitar centrarse más en cómo mejorar el rendimiento consistente de los modelos y cómo encontrar un equilibrio entre tareas simples y complejas.
Referencias:
https://docs.google.com/document/u/0/d/1SwdgJBLo-WMQs-Z55HHndTf4ZsqGop3FccnUk6f8E-w/mobilebasic?_immersive_translate_auto_translate=1