KI-Nachrichten

Verpassen Sie keinen Moment der globalen KI-Innovation

KI-Tagesübersicht

Tägliche Drei-Minuten-KI-Branchentrends

KI-Zeitleiste

Meilensteine der KI-Industrie

Al hardware

die artillerie der artillerie

KI-Monetarisierungs-Leitfaden

Neueste Fälle

KI-Monetarisierungsfall-Sharing

Bildersammlung

KI-Bilderstellungs-Monetarisierungsfälle

Videosammlung

KI-Videoerstellungs-Monetarisierungsfälle

Audiosammlung

KI-Audioerstellungs-Monetarisierungsfälle

Inhaltssammlung

KI-Content-Writing-Monetarisierungsfälle

KI-Tutorials

Neueste Tutorials

Kostenlose Weitergabe der neuesten KI-Tutorials

KI-Produkt-Rankings

KI-Produkt-Ranking

Zeigt das Ranking der Gesamtbesuche von KI-Websites

KI-Traffic-Wachstumsranking

Verfolgen Sie die am schnellsten wachsenden KI-Websites nach Traffic

KI-Traffic-Rückgangsranking

Konzentrieren Sie sich auf KI-Websites mit signifikanten Traffic-Einbrüchen

KI-Wochenranking

Zeigt das wöchentliche Besuchsranking von KI-Websites

Beliebte Länder-Rankings

Vereinigte Staaten

KI-Websites, die bei US-Nutzern am beliebtesten sind

China

KI-Websites, die bei chinesischen Nutzern am beliebtesten sind

Indien

KI-Websites, die bei indischen Nutzern am beliebtesten sind

Brasilien

KI-Websites, die bei brasilianischen Nutzern am beliebtesten sind

Beliebte Kategorie-Rankings

Bildgenerierung

Ranking der Gesamtbesuche von KI-Bildgenerierungs-Websites

Persönlicher Assistent

Ranking der Gesamtbesuche von KI-Websites für persönliche Assistenten

Charaktergenerierung

Ranking der Gesamtbesuche von KI-Websites zur Charaktergenerierung

Videogenerierung

Ranking der Gesamtbesuche von KI-Videogenerierungs-Websites

Beliebte Open-Source-Datenrankings

KI-Projektranking

GitHub beliebte KI-Projekte nach Gesamt-Stars

KI-Projektwachstumsranking

GitHub beliebte KI-Projekte nach Wachstumsrate

KI-Entwickler-Ranking

GitHub beliebtes KI-Entwickler-Ranking

KI-Organisationsranking

GitHub beliebtes KI-Organisationsranking

Beliebte Open-Source-Kategorien

Deepseek

GitHub beliebte Deepseek Open-Source-Projekte

TTS

GitHub beliebte TTS Open-Source-Projekte

LLM

GitHub beliebte LLM Open-Source-Projekte

ChatGPT

GitHub beliebte ChatGPT Open-Source-Projekte

KI-Open-Source-Projektbibliothek

Überblick

Überblick über GitHub beliebte KI-Open-Source-Projekte

Produktbibliothek Tool Navigation

Anthropic startet Programm zur Förderung der Entwicklung neuer KI-Benchmarks

AIbase

Veröffentlicht amKI-Nachrichten und -Informationen · 6 Minuten Lesezeit · Jul 2, 2024

Anthropic hat ein Programm gestartet, um die Entwicklung neuer Benchmarks zu finanzieren, mit denen die Leistung und die Auswirkungen von KI-Modellen, einschließlich generativer Modelle wie dem eigenen Claude, bewertet werden können.

Anthropic gab das Programm am Montag bekannt und wird Zahlungen an Drittorganisationen leisten, die „die hochentwickelten Fähigkeiten von KI-Modellen effektiv messen können“, wie das Unternehmen in einem Blogbeitrag mitteilte. Interessierte können sich laufend bewerben.

Claude2, Anthropic, Künstliche Intelligenz, Chatbot

„Unsere Investitionen in diese Bewertungen zielen darauf ab, den gesamten Bereich der KI-Sicherheit zu verbessern und wertvolle Werkzeuge bereitzustellen, von denen das gesamte Ökosystem profitiert“, schrieb Anthropic in seinem offiziellen Blog. „Die Entwicklung hochwertiger, sicherheitsrelevanter Bewertungen ist nach wie vor eine Herausforderung, und die Nachfrage übersteigt das Angebot.“

Wie bereits erwähnt, gibt es bei KI ein Benchmark-Problem. Die heute am häufigsten zitierten KI-Benchmarks erfassen oft nicht gut, wie normale Menschen die getesteten Systeme tatsächlich verwenden. Darüber hinaus messen einige Benchmarks, insbesondere solche, die vor dem Aufkommen moderner generativer KI veröffentlicht wurden, möglicherweise nicht einmal das, was sie angeblich messen, da sie veraltet sind.

Die von Anthropic vorgeschlagene sehr hochrangige und schwierig klingende Lösung besteht darin, durch neue Tools, Infrastrukturen und Methoden herausfordernde Benchmarks zu erstellen, die sich auf KI-Sicherheit und gesellschaftliche Auswirkungen konzentrieren.

Das Unternehmen ruft insbesondere zu Tests auf, die die Fähigkeit von Modellen bewerten, Aufgaben wie die Durchführung von Cyberangriffen, die „Verbesserung“ von Massenvernichtungswaffen (z. B. Atomwaffen) und die Manipulation oder Täuschung von Menschen (z. B. durch Deepfakes oder Falschinformationen) zu erledigen. Bei KI-Risiken im Zusammenhang mit nationaler Sicherheit und Verteidigung erklärte Anthropic, dass es sich für die Entwicklung eines „Frühwarnsystems“ zur Identifizierung und Bewertung von Risiken einsetzt, obwohl im Blogbeitrag nicht dargelegt wurde, was ein solches System enthalten könnte.

Anthropic gab außerdem an, dass es beabsichtigt, durch das neue Programm die Forschung zu Benchmarks und „End-to-End“-Aufgaben zu unterstützen, um das Potenzial von KI in der wissenschaftlichen Forschung, der mehrsprachigen Kommunikation und der Reduzierung tief verwurzelter Vorurteile sowie der Selbstzensur von Toxizität zu untersuchen.

Um dies zu erreichen, hat sich Anthropic neue Plattformen vorgestellt, die es Fachleuten ermöglichen, eigene Bewertungen zu entwickeln, und groß angelegte Tests von Modellen mit „Tausenden“ von Nutzern beinhalten. Das Unternehmen gab an, einen hauptamtlichen Koordinator für das Programm eingestellt zu haben und möglicherweise vielversprechende Projekte zu kaufen oder zu erweitern.

Anthropics Bemühungen zur Unterstützung neuer KI-Benchmarks sind lobenswert – natürlich vorausgesetzt, dass genügend finanzielle und personelle Ressourcen zur Verfügung stehen. Angesichts der kommerziellen Ambitionen des Unternehmens im KI-Wettbewerb ist es jedoch möglicherweise schwierig, ihm uneingeschränkt zu vertrauen.

Anthropic erklärte außerdem, dass es hofft, dass sein Programm „ein Katalysator für Fortschritte sein wird, um die umfassende KI-Bewertung zu einem Industriestandard zu machen“. Dies ist eine Mission, der sich viele offene, nicht firmenangehörige Bemühungen anschließen können. Es bleibt jedoch abzuwarten, ob diese Bemühungen bereit sind, mit einem KI-Anbieter zusammenzuarbeiten, dessen Loyalität letztendlich den Aktionären gilt.

Wichtigste Punkte:
- 📌Anthropic startet ein Programm zur Finanzierung neuer Benchmarks zur Bewertung der Leistung und Auswirkungen von KI-Modellen.
- 📌Das Programm zielt darauf ab, herausfordernde Benchmarks zu erstellen, die sich auf KI-Sicherheit und gesellschaftliche Auswirkungen konzentrieren.
- 📌Anthropic hofft, dass sein Programm „ein Katalysator für Fortschritte sein wird, um die umfassende KI-Bewertung zu einem Industriestandard zu machen.“

KI-Modellbewertung Anthropic Claude Benchmark-Tests

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe