Un estudio reciente realizado conjuntamente por la Universidad de Múnich, el Centro de Aprendizaje Automático de Múnich y Adobe Research muestra que 12 de los modelos de lenguaje AI más avanzados, incluyendo GPT-4o, Gemini 1.5 Pro y Llama-3.3-70B, experimentan una disminución significativa del rendimiento en tareas de razonamiento conceptual con textos largos. A pesar de que estos modelos admiten el procesamiento de contextos con al menos 128.000 tokens, su capacidad de asociación lógica profunda presenta limitaciones fundamentales.

El equipo de investigación desarrolló el sistema de prueba NOLIMA (sin coincidencia de palabras), que, mediante un diseño que evita deliberadamente la repetición de palabras clave, revela la fragilidad de los modelos de IA en la conexión conceptual. Por ejemplo, si el texto describe que "Yuki vive junto al Semperoper", el modelo debe comprender primero el conocimiento general de que "el Semperoper está en Dresde" para poder responder "¿Quién ha estado en Dresde?".

Robot escribiendo en el trabajo

Nota de la imagen: La imagen fue generada por IA, proveedor de licencias de imágenes Midjourney

Los resultados de las pruebas muestran:

1. Caída en picado del rendimiento en textos largos: Cuando el contexto se amplía de 2.000 a 8.000 tokens, el rendimiento de la mayoría de los modelos disminuye significativamente; en escenarios con 32.000 tokens, 10 de los 12 modelos muestran un rendimiento que es solo la mitad del que tenían con textos cortos.

2. El mecanismo de atención revela debilidades: Los modelos tienen dificultades para localizar información relevante en textos largos; cuando la respuesta clave aparece en la segunda mitad del texto, la precisión disminuye aún más.

3. Los modelos de razonamiento especializados aún presentan defectos: Los sistemas o1, o3-mini y DeepSeek-R1, diseñados para el razonamiento complejo, obtuvieron menos del 50% en la prueba NOLIMA-Hard con 32K tokens, a pesar de su rendimiento casi perfecto con textos cortos.

El estudio señala que la dependencia excesiva de los modelos en el pensamiento inercial de "coincidencia de palabras" es el problema central. Cuando la prueba elimina deliberadamente las mismas palabras, incluso utilizando la técnica de indicaciones de cadena de pensamiento (CoT), la mejora en la capacidad de procesamiento de textos largos de Llama-3.3-70B sigue siendo limitada. Más grave aún, la presencia de interferencias de coincidencia de palabras en contextos irrelevantes puede exacerbar los errores de juicio del modelo.

"Esto revela la contradicción fundamental de la IA actual: es fácil ampliar la ventana de contexto, pero difícil mejorar la capacidad de razonamiento profundo", destacan los investigadores. Tomando GPT-4o como ejemplo, aunque alcanza una longitud de contexto efectiva de 8.000 tokens, sigue mostrando debilidad en la integración de conceptos entre párrafos. A medida que el texto se alarga, el mecanismo de atención del modelo se "desenfoca" gradualmente, dificultando el mantenimiento de una cadena lógica coherente.

Esta investigación sirve como una llamada de atención para el desarrollo de la IA: el simple aumento de la longitud de procesamiento no puede superar el cuello de botella del razonamiento. La industria debe reconsiderar el diseño de la arquitectura del modelo y desarrollar mecanismos de extracción y asociación de información más eficientes. En el futuro, la clave para superar los límites del procesamiento de textos largos será lograr que la IA comprenda realmente el texto en lugar de depender de la coincidencia de patrones.