Investigadores de OpenAI anunciaron el jueves el lanzamiento de CriticGPT, un innovador modelo de IA diseñado para identificar y corregir errores en el código generado por ChatGPT. Este avance revolucionario representa un paso significativo en la automejora y el control de calidad de la tecnología de inteligencia artificial.

QQ截图20240628091656.png

Características principales de CriticGPT

1. Basado en la serie GPT-4: CriticGPT se basa en el potente modelo de lenguaje GPT-4.

2. Enfoque en la revisión de código: Principalmente utilizado para analizar el código de programación generado por ChatGPT e identificar posibles errores.

3. Colaboración humano-máquina: Actúa como asistente de IA para los entrenadores humanos, mejorando la eficiencia y precisión de la revisión de código.

4. Aprendizaje por refuerzo: Mediante el aprendizaje a partir de retroalimentación humana (RLHF), mejora el grado de "alineación" del sistema de IA.

QQ截图20240628091930.png

Proceso de desarrollo y resultados

Los investigadores emplearon métodos de entrenamiento innovadores para desarrollar CriticGPT:

1. Preparación del conjunto de datos: Se utilizó para el entrenamiento un conjunto de muestras de código con errores introducidos intencionalmente.

2. Participación humana: Se solicitó a entrenadores humanos que modificaran el código escrito por ChatGPT, introduciendo errores y proporcionando retroalimentación.

3. Aplicación de nuevas tecnologías: Se introdujo la técnica de "búsqueda de haces de muestreo forzado" (FSBS, por sus siglas en inglés) para equilibrar la generación de comentarios detallados y la reducción de problemas ficticios.

QQ截图20240628091944.png

Resultados experimentales:

- En el 63% de los casos de errores naturales, los humanos prefirieron las críticas de CriticGPT.

- CriticGPT redujo las críticas inútiles y los falsos positivos/alucinaciones.

- En el 24% de los casos previamente considerados perfectos, CriticGPT detectó y confirmó con éxito errores.

Aplicaciones potenciales y limitaciones

Aunque CriticGPT está principalmente dirigido a la revisión de código, los estudios indican que tiene el potencial de extenderse a tareas no relacionadas con el código. Sin embargo, el modelo también presenta algunas limitaciones:

1. Principalmente entrenado con respuestas cortas de ChatGPT, por lo que puede no ser adecuado para tareas más complejas.

2. Aunque se redujo el comportamiento ficticio, no se eliminó por completo.

3. Aún hay margen de mejora en la identificación de errores distribuidos en varias partes.

Perspectivas futuras

OpenAI planea integrar modelos similares a CriticGPT en su canalización de etiquetado RLHF para proporcionar asistencia de IA a los entrenadores. Esto representa un avance importante en el desarrollo de herramientas para evaluar la salida de los modelos de lenguaje grandes (LLM). Sin embargo, los investigadores también destacan que, incluso con asistencia de IA, las tareas extremadamente complejas siguen siendo un desafío para los evaluadores humanos.

Con el continuo desarrollo de la tecnología de IA, innovaciones como CriticGPT jugarán un papel clave en la mejora de la precisión y confiabilidad de los sistemas de IA, impulsando una mayor alineación entre la IA y las necesidades humanas.

Dirección:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/