Recientemente, OpenAI publicó un estudio sobre su nuevo modelo de razonamiento o3, demostrando cómo los modelos lingüísticos grandes (LLM) pueden pasar de ser programadores principiantes a competidores de nivel mundial. o3 obtuvo una puntuación de 2724 en la conocida plataforma de programación CodeForces, situándose en el percentil 99.8%, un rendimiento excepcional, y logró una puntuación de nivel medalla de oro en la Olimpiada Internacional de Informática (IOI) de 2024.
Nota de la imagen: Imagen generada por IA, proveída por Midjourney.
El estudio muestra que el modelo o3 superó en la competición IOI al modelo o1-ioi, específicamente ajustado para este evento. Este resultado indica que los logros obtenidos mediante el aprendizaje por refuerzo superan a las soluciones diseñadas manualmente. En la IOI 2024, o3 compitió bajo condiciones estándar y superó con éxito el umbral de la medalla de oro. Simultáneamente, se ubicó entre los 200 mejores programadores del mundo en CodeForces, compitiendo con los programadores humanos de élite.
Ethan Mollick, profesor asociado de la Wharton School, comentó: "La capacidad de razonamiento general desarrollada a través del aprendizaje por refuerzo ahora supera a las soluciones específicas de dominio cuidadosamente diseñadas. En lugar de construir sistemas especializados para tareas específicas, lograr resultados superiores con modelos grandes y generales mediante una capacidad de razonamiento más fuerte."
Esta investigación forma parte de la evaluación de OpenAI del rendimiento de sus modelos en la programación competitiva y en el campo más amplio de la ingeniería de software. Además, Anthropic publicó el lunes un informe sobre el impacto de la IA en el lugar de trabajo. El informe indica que aproximadamente el 36% de las ocupaciones utilizan IA en al menos el 25% de las tareas laborales, mientras que el 57% de las aplicaciones de IA mejoran las capacidades humanas y el 43% se centra en la automatización. Sin embargo, solo en el 4% de las ocupaciones, la IA se utiliza en al menos el 75% de las tareas laborales.
El estudio también indica que el desarrollo de software y la redacción técnica son los principales campos de aplicación de la IA, mientras que su papel es relativamente menor en tareas que implican interacción física con el entorno.
Puntos clave:
💻 El modelo o3 obtuvo una puntuación de 2724 en CodeForces, situándose en el percentil 99.8% y consiguiendo una medalla de oro en la Olimpiada Internacional de Informática.
📊 El aprendizaje por refuerzo supera las soluciones de diseño manual tradicional, demostrando la ventaja de la capacidad de razonamiento general.
📈 La IA se aplica ampliamente en el lugar de trabajo, siendo el desarrollo de software y la redacción técnica sus principales áreas, mientras que su aplicación en tareas de interacción física es menor.