Das KI-Unternehmen Anthropic hat ein bedeutendes Upgrade seiner Claude 3.5-Modellreihe angekündigt, darunter die neuen Modelle Claude 3.5 Sonnet und Claude 3.5 Haiku. Die aktualisierten Versionen sollen es der KI ermöglichen, Ihren persönlichen Computer vollständig zu übernehmen. Sie können verschiedene grundlegende Aufgaben ausführen, wie z. B. die Simulation von Tastatureingaben und Mausklicks, um so jede auf Ihrem Computer installierte Anwendung zu nutzen.

image.png

Signifikante Verbesserung der Codierfähigkeiten – Übertrifft das OpenAI o1-preview Modell

Das neue Claude 3.5 Sonnet weist in allen Bereichen eine deutliche Verbesserung auf, insbesondere in Bezug auf die Codierfähigkeiten. Sein Score auf dem SWE-bench Verified stieg von 33,4 % auf 49,0 % und übertrifft damit alle öffentlich verfügbaren Modelle, einschließlich des OpenAI o1-preview Modells.

Darüber hinaus zeigt es verbesserte Leistungen auf der TAU-Bench, insbesondere im Einzelhandel und in der Luftfahrt. All dies wird bei gleichbleibenden Preisen und Geschwindigkeiten wie bei den Vorgängerprodukten erreicht.

image.png

Kundenfeedback zeigt einen qualitativen Sprung bei der KI-Codierung mit dem aktualisierten Claude 3.5 Sonnet. GitLab testete das Modell beispielsweise für DevSecOps-Aufgaben und stellte eine deutlich verbesserte Inferenzfähigkeit ohne zusätzliche Latenz fest.

Claude 3.5 Haiku ist das schnellste Modell der nächsten Generation von Claude, übertrifft Claude 3 Opus bei gleichen Kosten und Geschwindigkeit und erzielt hervorragende Ergebnisse in mehreren intelligenten Benchmark-Tests, insbesondere bei Codieraufgaben. Die niedrige Latenz und die präzisere Anweisungsbefolgung von Claude 3.5 Haiku machen es ideal für die Generierung von Benutzeroberflächenprodukten und personalisierten Erlebnissen.

Computer wie ein Mensch bedienen

Die neu eingeführte Computerbenutzungsfunktion ist ein völlig neuer Ansatz. Offiziell wird betont, dass es sich nicht um speziell für Claude entwickelte Tools handelt, sondern darum, ihm allgemeine Computerkenntnisse beizubringen, damit es verschiedene Standard-Tools und Softwareprogramme verwenden kann. Entwickler können diese Fähigkeit nutzen, um sich wiederholende Prozesse zu automatisieren, Software zu erstellen und zu testen sowie offene Forschungsarbeiten durchzuführen.

Natürlich gibt es noch Verbesserungspotenzial bei der Computerbedienung durch Claude. Einige einfache Aktionen wie Scrollen und Ziehen sind derzeit noch eine Herausforderung für Claude. Aus Sicherheitsgründen wurde ein neuer Klassifikator entwickelt, der potenziell gefährliche Computeraktionen erkennen kann.

Jared Kaplan, Chief Scientific Officer von Anthropic, sagte in einem Interview: „Wir stehen kurz vor einer neuen Ära, in der KI alle von Ihnen persönlich genutzten Tools verwenden kann, um Aufgaben zu erledigen.“ Dieses Update stellt einen wichtigen Schritt für Anthropic dar, um kommerzielle KI-Modelle von traditionellen Chat-Frameworks zu umfassenden „KI-Agenten“ zu erweitern.

In einer Demo wurde Claude gebeten, eine Reise zur Golden Gate Bridge zum Sonnenaufgang für einen Freund zu planen. Die KI öffnete nicht nur eine Webseite, sondern suchte auch auf Google nach einem geeigneten Aussichtspunkt und fügte die Reise in eine Kalenderanwendung ein. Obwohl diese Leistung beeindruckend ist, bemerkte „Wired“, dass einige zusätzliche Informationen, wie z. B. die Anreise, fehlten.

In einer weiteren Demo wurde Claude aufgefordert, eine einfache Website zu erstellen. Es erstellte erfolgreich eine Website mit Microsofts Visual Studio Code und öffnete einen lokalen Server zum Testen. Dabei traten zwar einige kleine Fehler auf, die aber nach Aufforderung erfolgreich behoben wurden.

image.png

Claude 3.5 Sonnet füllte eigenständig einen Lieferantenantrag aus, indem es die benötigten Informationen aus einem Customer-Relationship-Management-System (CRM) abfragte und demonstrierte so seine Fähigkeit, mehrstufige Aufgaben auf verschiedenen Softwareplattformen auszuführen.

Das aktualisierte Claude 3.5 Sonnet steht allen Nutzern zur Verfügung. Ab heute können Entwickler die Computer-Betaversion über die Anthropic API, Amazon Bedrock und Google Cloud Vertex AI nutzen. Das neue Claude 3.5 Haiku wird später in diesem Monat veröffentlicht.

Offizieller Blog: https://www.anthropic.com/news/3-5-models-and-computer-use

Wichtigste Punkte:

 🌟 Großes Upgrade der Modelle Claude 3.5 Sonnet und Haiku mit deutlich verbesserten Codierfähigkeiten.

💻 Die neue Funktion zur Computerbedienung ermöglicht es Claude, einen Computer wie ein Mensch zu bedienen und eröffnet neue Möglichkeiten.

🔒 Der Einsatz von KI-Assistenten birgt Sicherheitsrisiken. Anthropic betont schrittweise Beobachtung und Verbesserungen zur Gewährleistung der Sicherheit.