La empresa de inteligencia artificial Anthropic ha anunciado una importante actualización de su serie de modelos Claude 3.5, incluyendo los nuevos Claude 3.5 Sonnet y Claude 3.5 Haiku. Las versiones mejoradas presumen de permitir que la inteligencia artificial se haga cargo completamente de tu ordenador personal, capaz de ejecutar diversas tareas básicas, como simular la entrada de teclado y clics del ratón, para usar cualquier aplicación instalada en tu ordenador.

image.png

Capacidad de codificación significativamente mejorada, superando el modelo OpenAI o1-preview

El nuevo Claude 3.5 Sonnet presenta mejoras significativas en todos los aspectos, especialmente en la capacidad de codificación. Su puntuación en SWE-bench Verified ha aumentado del 33,4% al 49,0%, superando a todos los modelos disponibles públicamente, incluido el modelo o1-preview de OpenAI.

Además, también ha mejorado su rendimiento en TAU-bench, especialmente en los sectores minorista y aeronáutico. Todo esto se ha logrado manteniendo el mismo precio y velocidad que los productos anteriores.

image.png

Los comentarios de los clientes muestran un salto cualitativo en la codificación con IA del Claude 3.5 Sonnet mejorado. Por ejemplo, GitLab probó este modelo para tareas de DevSecOps y descubrió una mejora significativa en su capacidad de razonamiento sin aumentar la latencia.

Claude 3.5 Haiku es el modelo más rápido de la próxima generación de Claude, superando a Claude 3 Opus con el mismo coste y velocidad, y ofreciendo un excelente rendimiento en varias pruebas de referencia de inteligencia, especialmente en tareas de codificación. La baja latencia y la capacidad de seguimiento de instrucciones más precisa de Claude 3.5 Haiku lo hacen ideal para la generación de productos de interfaz de usuario y experiencias personalizadas.

Manipulando el ordenador como un humano

La nueva función de uso del ordenador es un intento completamente nuevo. La empresa afirma que no se trata de desarrollar herramientas específicas para Claude, sino de enseñarle habilidades informáticas generales para que pueda utilizar diversas herramientas y programas estándar. Los desarrolladores pueden aprovechar esta capacidad para automatizar procesos repetitivos, construir y probar software, y realizar investigaciones abiertas, entre otras cosas.

Por supuesto, la capacidad de Claude para usar el ordenador aún necesita mejoras. Algunas operaciones sencillas, como desplazarse y arrastrar, siguen siendo un desafío para Claude. Para garantizar la seguridad, también se ha desarrollado un nuevo clasificador que puede identificar si el uso del ordenador ha generado algún peligro potencial.

Jared Kaplan, director científico de Anthropic, declaró en una entrevista: "Estamos a punto de entrar en una nueva era en la que la inteligencia artificial puede utilizar todas las herramientas que tú utilizas como individuo para completar tareas". Esta actualización representa un paso importante para Anthropic en la expansión de los modelos de IA comerciales desde el marco tradicional de chat hasta un "agente de IA" completo.

En una demostración, se le pidió a Claude que planeara un viaje para ver el amanecer en el Golden Gate Bridge para un amigo. La IA no solo abrió una página web, sino que también buscó un lugar de observación adecuado en Google y añadió el viaje a la aplicación de calendario. Aunque esta actuación es impresionante, Wired señaló que no proporcionó información adicional, como cómo llegar al destino.

Además, en otra demostración, se le pidió a Claude que creara un sitio web sencillo, y utilizó con éxito Microsoft Visual Studio Code para crear un sitio web y abrir un servidor local para realizar pruebas. Sin embargo, durante este proceso, encontró algunos errores menores, pero los corrigió con éxito tras recibir indicaciones.

image.png

Claude 3.5 Sonnet demostró su capacidad para ejecutar tareas de varios pasos en diferentes plataformas de software al completar de forma autónoma una solicitud de proveedor recuperando la información necesaria de un sistema de gestión de relaciones con clientes (CRM).

El Claude 3.5 Sonnet mejorado ya está disponible para todos los usuarios. A partir de hoy, los desarrolladores pueden utilizarlo para construir con la versión beta de uso de ordenador en la API de Anthropic, Amazon Bedrock y Vertex AI de Google Cloud. El nuevo Claude 3.5 Haiku se lanzará a finales de este mes.

Blog oficial: https://www.anthropic.com/news/3-5-models-and-computer-use

Puntos clave:

 🌟 Importante actualización de los modelos Claude 3.5 Sonnet y Haiku, con una mejora significativa en la capacidad de codificación.

💻 La nueva función de uso del ordenador permite a Claude manipular el ordenador como un humano, abriendo nuevas posibilidades.

🔒 El uso de asistentes de IA presenta riesgos de seguridad, Anthropic enfatiza la observación y mejora gradual para garantizar la seguridad.