La société d'intelligence artificielle Anthropic a annoncé une mise à niveau majeure de sa série de modèles Claude 3.5, incluant les nouveaux Claude 3.5 Sonnet et Claude 3.5 Haiku. Les versions améliorées sont présentées comme capables de prendre entièrement le contrôle de votre ordinateur personnel. Elles peuvent exécuter diverses tâches de base, telles que simuler des entrées clavier et des clics de souris, permettant ainsi l'utilisation de n'importe quelle application installée sur votre ordinateur.
Capacités de codage considérablement améliorées, surpassant le modèle OpenAI o1-preview
Le nouveau Claude 3.5 Sonnet présente des améliorations significatives sur tous les aspects, en particulier en matière de codage. Son score sur SWE-bench Verified est passé de 33,4 % à 49,0 %, surpassant tous les modèles publiquement disponibles, y compris le modèle o1-preview d'OpenAI.
De plus, ses performances sur TAU-bench se sont également améliorées, notamment dans les secteurs de la vente au détail et de l'aéronautique. Tout cela est réalisé en maintenant le même prix et la même vitesse que les produits précédents.
Les retours clients montrent que le Claude 3.5 Sonnet amélioré représente un bond qualitatif dans le codage par IA. Par exemple, GitLab a testé ce modèle pour des tâches DevSecOps et a constaté une amélioration significative de ses capacités de raisonnement, sans augmentation de la latence.
Claude 3.5 Haiku est le modèle le plus rapide de la prochaine génération de Claude, surpassant Claude 3 Opus au même coût et à la même vitesse, et excellant dans plusieurs benchmarks d'intelligence, notamment en matière de codage. La faible latence et la précision accrue du suivi des instructions de Claude 3.5 Haiku le rendent idéal pour la génération de produits d'interface utilisateur et d'expériences personnalisées.
Manipuler un ordinateur comme un humain
La nouvelle fonctionnalité d'utilisation de l'ordinateur est une approche totalement nouvelle. Officiellement, il ne s'agit pas de développer des outils spécifiques pour Claude, mais de lui enseigner des compétences informatiques générales afin qu'il puisse utiliser divers outils et logiciels standard. Les développeurs peuvent exploiter cette capacité pour automatiser des processus répétitifs, construire et tester des logiciels, et mener des recherches ouvertes, etc.
Bien sûr, les capacités de Claude en matière d'utilisation de l'ordinateur restent à améliorer. Certaines opérations simples, comme le défilement et le glisser-déposer, restent pour l'instant un défi pour Claude. Pour des raisons de sécurité, un nouveau classificateur a été développé pour identifier les utilisations de l'ordinateur qui pourraient présenter un danger potentiel.
Jared Kaplan, le directeur scientifique d'Anthropic, a déclaré lors d'une interview : « Nous entrons dans une nouvelle ère où l'intelligence artificielle peut utiliser tous les outils dont vous disposez personnellement pour accomplir des tâches. » Cette mise à jour marque une étape importante pour Anthropic dans l'extension des modèles d'IA commerciaux du cadre traditionnel de discussion vers des « agents IA » complets.
Dans une démonstration, Claude a reçu pour instruction de planifier un voyage pour un ami afin d'admirer le lever du soleil sur le Golden Gate Bridge. L'IA a non seulement ouvert une page web, mais a également recherché un point de vue approprié sur Google et ajouté l'itinéraire à une application de calendrier. Bien que cette performance soit impressionnante, Wired a souligné qu'elle n'a pas fourni d'informations supplémentaires, telles que comment se rendre sur place.
Dans une autre démonstration, Claude a reçu pour instruction de créer un site web simple. Il a réussi à créer un site web à l'aide de Microsoft Visual Studio Code et à ouvrir un serveur local pour le tester. Cependant, il a rencontré quelques petites erreurs au cours du processus, mais les a corrigées avec succès après avoir reçu des instructions.
Claude 3.5 Sonnet a démontré sa capacité à exécuter des tâches à plusieurs étapes sur différentes plateformes logicielles en remplissant de manière autonome un formulaire de demande de fournisseur en récupérant les informations nécessaires dans un système de gestion de la relation client (CRM).
Le Claude 3.5 Sonnet amélioré est désormais disponible pour tous les utilisateurs. À partir d'aujourd'hui, les développeurs peuvent utiliser la version bêta pour ordinateur sur l'API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Le nouveau Claude 3.5 Haiku sera quant à lui disponible plus tard ce mois-ci.
Blog officiel : https://www.anthropic.com/news/3-5-models-and-computer-use
Points clés :
🌟 Mise à niveau majeure des modèles Claude 3.5 Sonnet et Haiku, amélioration significative des capacités de codage.
💻 La nouvelle fonctionnalité d'utilisation de l'ordinateur permet à Claude de manipuler un ordinateur comme un humain, ouvrant ainsi de nouvelles possibilités.
🔒 L'utilisation d'un assistant IA présente des risques pour la sécurité. Anthropic souligne l'importance d'une observation et d'améliorations progressives pour garantir la sécurité.