OpenAI lanza SWE-bench Verified: Mejora la evaluación de la capacidad de ingeniería de software de la IA

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Aug 15, 2024

141

El 13 de agosto, OpenAI anunció el lanzamiento de SWE-bench Verified, un nuevo benchmark para la evaluación de la generación de código, diseñado para evaluar con mayor precisión el rendimiento de los modelos de inteligencia artificial en tareas de ingeniería de software. Este nuevo benchmark aborda varias limitaciones del SWE-bench original.

SWE-bench es un conjunto de datos de evaluación basado en problemas de software reales de GitHub, que incluye 2294 pares de Issue-Pull Request de 12 repositorios populares de Python. Sin embargo, el SWE-bench original presentaba tres problemas principales: las pruebas unitarias eran demasiado estrictas, lo que podía rechazar soluciones correctas; las descripciones de los problemas no eran lo suficientemente claras; y la configuración del entorno de desarrollo era difícil de lograr de forma fiable.

QQ截图20240815145302.png

Para solucionar estos problemas, SWE-bench Verified introduce un nuevo kit de herramientas de evaluación con un entorno Docker contenedorizado, lo que hace que el proceso de evaluación sea más consistente y fiable. Esta mejora ha mejorado significativamente las puntuaciones de rendimiento de los modelos de IA. Por ejemplo, GPT-4o resolvió el 33,2% de las muestras en el nuevo benchmark, mientras que la puntuación del mejor framework de agentes de código abierto, Agentless, se duplicó hasta el 16%.

Esta mejora en el rendimiento indica que SWE-bench Verified captura mejor las capacidades reales de los modelos de IA en tareas de ingeniería de software. Al solucionar las limitaciones del benchmark original, OpenAI proporciona una herramienta de evaluación más precisa para las aplicaciones de IA en el desarrollo de software, lo que podría impulsar el desarrollo y la aplicación de tecnologías relacionadas.

A medida que la aplicación de la IA en la ingeniería de software se generaliza, los benchmarks de evaluación como SWE-bench Verified desempeñarán un papel importante en la medición y el impulso de la mejora de las capacidades de los modelos de IA.

Dirección: https://openai.com/index/introducing-swe-bench-verified/

El Departamento de Justicia de EE. UU. exige a Google que venda Chrome y relaje las restricciones a las inversiones en IA

Según documentos judiciales recientes del Departamento de Justicia de EE. UU., se sigue exigiendo a Google que venda su navegador web Chrome. Esta propuesta, inicialmente planteada por el entonces presidente Biden el año pasado, se mantiene bajo la segunda administración de Trump. Sin embargo, el Departamento de Justicia ya no exige que Google se deshaga de todas sus inversiones en inteligencia artificial, incluyendo los miles de millones de dólares invertidos en Anthropic. En los documentos judiciales, el Departamento de Justicia afirma que las prácticas ilegales de Google han creado un gigante económico que ha tenido un impacto severo en el mercado, asegurando que Google, pase lo que pase...

Noticias de IA

OpenAI lanza SWE-bench Verified: Mejora la evaluación de la capacidad de ingeniería de software de la IA

AIbase基地

Noticias de IA relacionadas recomendadas

Manus y Alibaba Cloud Tongyi Qianwen colaboran para impulsar productos de agentes de IA nacionales

El Departamento de Justicia de EE. UU. exige a Google que venda Chrome y relaje las restricciones a las inversiones en IA

Tongyi App lanza el modelo de inteligencia artificial Qianwen QwQ-32B: Experiencia de IA mejorada continuamente

Manus, el asistente de IA multifuncional creado por el equipo de Monica, es un éxito rotundo. ¿Cómo conseguir un código de invitación para Manus?