¡Sorprendente! OpenAI lanza los modelos de razonamiento o3 y o3-mini

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Dec 21, 2024

378

En su evento de lanzamiento de 12 días, OpenAI anunció la nueva generación de modelos de razonamiento: o3 y su versión reducida, o3-mini. Estos modelos son los sucesores de la serie o1, diseñados específicamente para pensar más profundamente antes de responder preguntas, mejorando así la precisión.

El modelo o3 ha alcanzado un excelente nivel en el benchmark ARC-AGI, convirtiéndose en el primer modelo de IA en superar este estándar y demostrando una capacidad de resolución de problemas cercana a la humana. El rendimiento mínimo del modelo o3 en ARC-AGI es del 75.7%, alcanzando el 87.5% con más recursos computacionales.

El modelo o3-mini se centra en mejorar la velocidad de razonamiento y reducir los costes, manteniendo al mismo tiempo el rendimiento. Es especialmente adecuado para tareas de programación. OpenAI planea lanzar o3-mini a finales de enero, seguido del modelo o3 completo poco después. Aunque la serie o3 no se lanzará públicamente de inmediato, sino que primero se someterá a pruebas de seguridad, OpenAI ya ha comenzado a permitir que los investigadores de seguridad se registren para acceder a las versiones preliminares de o3 y o3-mini.

El modelo de razonamiento más potente de OpenAI, o3, se lanza: capacidad AGI en aumento, acercándose al nivel humano

En la resolución de problemas de programación y matemáticas, el modelo o3 ha demostrado una capacidad notable. En el benchmark SWE-bench Verified, la precisión de o3 es de aproximadamente el 71.7%, un 20% más que el modelo o1. En Competition Code, o3 obtuvo una puntuación Elo de 2727, mientras que o1 solo obtuvo 1891. Además, o3 alcanzó una precisión del 96.7% en matemáticas de competición y del 87.7% en GPQA Diamond, casi un 10% más que o1.

OpenAI también presentó un nuevo método de evaluación de seguridad: el "alineamiento deliberativo" (deliberative alignment). Este es un nuevo paradigma que enseña directamente al modelo las normas de seguridad y le permite recordarlas explícitamente y razonar con precisión antes de responder. Este método se utilizó para alinear los modelos de la serie o de OpenAI y logró un alto grado de cumplimiento de las políticas de seguridad de OpenAI.

Actualmente, OpenAI está llevando a cabo pruebas de seguridad externas y ha abierto solicitudes de acceso anticipado en su sitio web. Los solicitantes deben completar un formulario en línea y proporcionar la información pertinente. Los investigadores seleccionados recibirán acceso a o3 y o3-mini para explorar sus capacidades y contribuir a la evaluación de seguridad.

Intangible, herramienta de creación 3D sin código, recibe una financiación de 4 millones de dólares

Intangible, una plataforma innovadora que permite la creación de contenido 3D sin necesidad de conocimientos de programación, ha anunciado una ronda de financiación de serie A por valor de 4 millones de dólares. Esta inversión impulsará el desarrollo de la plataforma y su expansión al mercado.

Quora Poe lanza función de aplicaciones de IA personalizadas; los usuarios pueden crear aplicaciones personalizadas con facilidad

Quora lanzó recientemente una nueva función en su plataforma de IA Poe que permite a los usuarios construir aplicaciones de IA personalizadas. Esta función, llamada "Aplicaciones Poe", permite a los usuarios crear interfaces visuales en la plataforma Poe mediante una simple descripción. Los usuarios pueden elegir diferentes modelos de IA para implementar sus ideas de aplicación. En la nueva herramienta de creación de aplicaciones, los usuarios solo necesitan describir la aplicación que desean crear, incluyendo la especificación del modelo de IA a utilizar, como el de OpenAI.

¡Compitiendo con DeepSeek y Claude! La función "Investigación Profunda" de OpenAI se lanza para todos los usuarios de pago de ChatGPT

OpenAI anunció recientemente la expansión de su función de Investigación Profunda (Deep Research) a todos los usuarios de ChatGPT Plus, Team, Education y Enterprise. Muchos expertos consideran esta función como el asistente de IA más transformador desde el lanzamiento de ChatGPT. Según la información oficial, estos usuarios recibirán 10 consultas de investigación profunda mensuales, mientras que los usuarios Pro tendrán acceso a 120 consultas mensuales. La Investigación Profunda utiliza Op...

El modelo o3 de OpenAI gana medalla de oro en la Olimpiada Internacional de Informática 2024

Recientemente, OpenAI publicó una investigación sobre su nuevo modelo de razonamiento o3, mostrando cómo un gran modelo de lenguaje (LLM) puede pasar de ser un programador principiante a un competidor de nivel mundial. o3 obtuvo una puntuación de 2724 en la famosa plataforma de programación CodeForces, situándose en el percentil 99.8%, un rendimiento excepcional, y logró una medalla de oro en la Olimpiada Internacional de Informática (IOI) 2024. Nota de la imagen: Imagen generada por IA, servicio de licencias de imágenes Mi