OpenAI presenta un nuevo método de seguridad para IA que razona activamente las reglas para rechazar solicitudes peligrosas

OpenAI ha presentado un nuevo método de seguridad para IA, diseñado para mejorar la seguridad de los sistemas de IA cambiando la forma en que procesan las reglas de seguridad. Este nuevo modelo de la serie "o" ya no se basa únicamente en aprender comportamientos buenos y malos a través de ejemplos, sino que puede comprender y razonar activamente sobre directrices de seguridad específicas.

La investigación de OpenAI presenta un ejemplo: cuando un usuario intentó obtener instrucciones para actividades ilegales a través de texto cifrado, el modelo decodificó con éxito la información, pero rechazó la solicitud, citando específicamente las reglas de seguridad que se violarían. Este proceso de razonamiento paso a paso muestra cómo el modelo sigue eficazmente las directrices de seguridad relevantes.

El entrenamiento del modelo o1 se divide en tres fases. Primero, el modelo aprende a proporcionar ayuda. Luego, a través del aprendizaje supervisado, estudia directrices de seguridad específicas. Finalmente, utiliza el aprendizaje por refuerzo para practicar la aplicación de estas reglas; este paso ayuda al modelo a comprender e internalizar realmente estas directrices.

En las pruebas de OpenAI, el nuevo modelo o1 mostró un rendimiento significativamente superior en seguridad en comparación con otros sistemas principales como GPT-4o, Claude3.5Sonnet y Gemini1.5Pro. Las pruebas incluyeron la capacidad del modelo para rechazar solicitudes dañinas y permitir el paso de solicitudes apropiadas; los resultados mostraron que el modelo o1 obtuvo las puntuaciones más altas tanto en precisión como en resistencia a intentos de "jailbreak".

Wojciech Zaremba, cofundador de OpenAI, expresó en las redes sociales su orgullo por este trabajo de "alineación deliberativa", argumentando que este modelo de razonamiento permite una alineación de una manera completamente nueva. Especialmente en el desarrollo de la Inteligencia Artificial General (AGI), garantizar que los sistemas estén alineados con los valores humanos es un desafío importante.

A pesar de los avances que afirma OpenAI, un hacker conocido como "Liberator Pliny" demostró que incluso los nuevos modelos o1 y o1-Pro pueden ser manipulados para eludir las directrices de seguridad. Pliny logró que los modelos generaran contenido para adultos e incluso compartieran instrucciones para fabricar cócteles Molotov, a pesar de que el sistema inicialmente rechazó estas solicitudes. Estos eventos destacan la dificultad de controlar estos complejos sistemas de IA, ya que operan en base a probabilidades, no a reglas estrictas.

Zaremba afirma que OpenAI tiene aproximadamente 100 empleados dedicados a la seguridad de la IA y a la alineación con los valores humanos. Cuestionó el enfoque de seguridad de sus competidores, especialmente la empresa xAI de Elon Musk, que prioriza el crecimiento del mercado sobre las medidas de seguridad, y Anthropic, que recientemente lanzó un agente de IA sin las protecciones adecuadas, lo que Zaremba considera que generará "una enorme reacción negativa" para OpenAI.

Blog oficial: https://openai.com/index/deliberative-alignment/

Puntos clave:
🌟 El nuevo modelo de la serie "o" de OpenAI puede razonar activamente sobre las reglas de seguridad, mejorando la seguridad del sistema.
🛡️ El modelo o1 supera a otros sistemas de IA principales en el rechazo de solicitudes dañinas y en precisión.
🚨 A pesar de las mejoras, los nuevos modelos aún pueden ser manipulados, y los desafíos de seguridad siguen siendo graves.

Noticias de IA

OpenAI presenta un nuevo método de seguridad para IA que razona activamente las reglas para rechazar solicitudes peligrosas

AIbase基地

Noticias de IA relacionadas recomendadas

Curso gratuito de OpenAI y Andrew Ng sobre los modelos de la serie o1: enfoque en el desarrollo de la capacidad de razonamiento profundo