La empresa emergente de IA, Cognition, ha lanzado un nuevo programador de IA llamado "Genie", cuyo rendimiento ha sido asombroso, superando instantáneamente a Devin y GPT-4 para convertirse en el asistente de programación de IA más potente del mundo.
Este programador de IA obtuvo una puntuación de 30.08% en la plataforma de pruebas autorizada SWE-Bench, superando con creces el 13.8% de Devin y el 12.47% de Swe-agent+GPT-4.
Quizás se pregunte cómo lo logró Genie. En diciembre de 2022, el cofundador de Genie, Alistair Pullen, presentó este proyecto en la Universidad de Londres. Su objetivo era crear una IA capaz de codificar, depurar y optimizar automáticamente como un humano. Después de más de un año de desarrollo, Genie finalmente entró en fase de prueba y obtuvo una financiación inicial de 2,5 millones de dólares.
Alistair mencionó que el éxito de Genie está estrechamente relacionado con sus datos y métodos de entrenamiento. A diferencia del ajuste fino de los grandes modelos tradicionales, Genie utiliza un conjunto de datos especial que incluye el proceso de razonamiento de programadores humanos. Estos datos abarcan el descubrimiento gradual del conocimiento y el proceso de toma de decisiones basado en casos, lo que permite a Genie mostrar un juicio similar al de un ingeniero humano cuando se enfrenta a problemas complejos.
Además, Genie emplea un exclusivo "mecanismo de automejora". Inicialmente, Genie se entrenó con datos de alta calidad hasta alcanzar un estado de "perfección", pero en este proceso, Genie mostró una capacidad insuficiente para juzgar y corregir sus propios errores. Para superar este problema, los desarrolladores utilizaron Genie para generar datos sintéticos, enriqueciendo aún más el contenido de entrenamiento. Es como cuando una madre enseña a su hijo a caminar, guiándolo correctamente cada vez que se cae.
Después de varias iteraciones de entrenamiento, la capacidad de Genie aumentó considerablemente, incluso mostrando soluciones creativas para problemas desconocidos. Funcionalmente, Genie admite diversas tareas de desarrollo, incluyendo el desarrollo de funciones, la corrección de errores, la refactorización de código y las pruebas de código, abarcando docenas de lenguajes de programación como JavaScript, Python y Java.
Actualmente, Genie ha abierto la solicitud de prueba. Puede registrarse a través del sitio web oficial, y se espera que los permisos de prueba se distribuyan en las próximas semanas.
Blog oficial: https://cosine.sh/blog/state-of-the-art
Dirección de prueba: https://cosine.sh/register
Puntos clave:
🌟 Genie obtuvo una puntuación de 30.08% en la prueba SWE-Bench, convirtiéndose en el programador de IA más potente del mundo.
🚀 El uso de un conjunto de datos especial y un mecanismo de automejora permite a Genie destacarse en la codificación compleja.
📝 ¡Actualmente se ha abierto la solicitud de prueba, y se lanzarán más funciones sorprendentes en el futuro!