El último modelo de Anthropic, Claude 3.5 Sonnet, ha demostrado un rendimiento excepcional en recientes evaluaciones técnicas, incluso superando el nivel de un doctorado profesional. En la prueba Graduate-Level Question Answering (GPQA), Claude 3.5 Sonnet obtuvo una puntuación del 67.2%, no solo superando por primera vez el 65% en este tipo de evaluaciones para un modelo de lenguaje grande, sino también marcando un nuevo hito en la comprensión y respuesta a preguntas de conocimiento científico avanzado.

GQrRBTfa0AAwXFe.jpg

GPQA, una prueba de referencia que mide la capacidad de los modelos de lenguaje para responder preguntas de conocimiento científico a nivel de posgrado, abarca una serie de preguntas complejas y profundas, exigiendo un alto nivel de razonamiento y capacidad de integración de conocimientos. En esta desafiante prueba, la puntuación media de los doctores con título de doctorado es de aproximadamente el 34%, mientras que la de los doctores especializados en un campo específico es del 65%. Cabe destacar que un modelo de lenguaje con una puntuación GPQA del 60% tiene un nivel de inteligencia equivalente a un CI de 150.

GQrRofibYAAK9Mx.jpg

Aunque actualmente no hay datos concretos de GPT-4o y GPT-4T en la evaluación GPQA, según la información disponible, el rendimiento de Claude 3.5 Sonnet parece superior a estos dos modelos. En otras evaluaciones relacionadas, como la evaluación 0-shot CoT, Claude 3.5 Sonnet también obtuvo puntuaciones más altas que GPT-4o (53.6%) y GPT-4T (48.0%), lo que demuestra aún más su liderazgo en la comprensión del lenguaje y la resolución de problemas.

Este logro de Anthropic no solo muestra la potente capacidad de Claude 3.5 Sonnet, sino que también establece un nuevo estándar para los modelos de lenguaje grandes en el tratamiento de tareas de preguntas y respuestas de conocimiento avanzado. Con el continuo avance de la tecnología, el potencial de aplicación de estos modelos en diversos campos será sin duda aún mayor en el futuro.