Vor dem Hintergrund des zunehmend intensiven Wettbewerbs im Bereich der künstlichen Intelligenz hat Google kürzlich die Einführung des Gemini 2.0 Flash Thinking-Modells angekündigt. Dieses multimodale Inferenzmodell zeichnet sich durch schnelle und transparente Verarbeitung aus und kann komplexe Probleme bewältigen. Googles CEO Sundar Pichai erklärte auf X (früher Twitter): „Dies ist unser bisher tiefgreifendstes Modell.“
Laut der Entwicklerdokumentation verfügt Gemini 2 Flash Thinking über eine stärkere Inferenzfähigkeit als die Basisversion von Gemini 2.0 Flash. Das neue Modell unterstützt 32.000 Eingabetoken (ungefähr 50 bis 60 Seiten Text) und kann Ausgaben von bis zu 8.000 Token generieren. Google gibt in seinem AI Studio an, dass dieses Modell besonders gut für „multimodales Verständnis, Inferenz“ und „Codierung“ geeignet ist.
Entwicklerdokumentation: https://ai.google.dev/gemini-api/docs/thinking-mode?hl=de
Detaillierte Informationen zum Trainingsprozess, zur Architektur, zu Lizenzen und Kosten des Modells wurden noch nicht veröffentlicht, aber Googles AI Studio zeigt derzeit an, dass die Nutzung des Modells pro Token kostenlos ist.
Ein bemerkenswertes Merkmal von Gemini 2.0 ist die Möglichkeit für Benutzer, über ein Dropdown-Menü auf den schrittweisen Inferenzprozess des Modells zuzugreifen. Dies ist bei Konkurrenzmodellen wie OpenAIs o1 und o1mini nicht der Fall. Diese transparente Inferenz ermöglicht es Benutzern, den Prozess der Schlussfolgerung des Modells nachzuvollziehen und behebt effektiv das Problem, dass KI oft als „Black Box“ betrachtet wird.
In einigen einfachen Tests konnte Gemini 2.0 innerhalb von ein bis drei Sekunden komplexe Fragen korrekt beantworten, z. B. die Anzahl der Buchstaben „R“ im Wort „Erdbeere“. In einem anderen Test verglich das Modell systematisch zwei Dezimalzahlen (9,9 und 9,11), indem es die Ganzzahl und die Nachkommastellen schrittweise analysierte.
Die unabhängige Analysefirma LM Arena bewertete Gemini 2.0 Flash Thinking als das leistungsstärkste Modell in der Kategorie der großen Sprachmodelle.
Darüber hinaus verfügt Gemini 2.0 Flash Thinking über eine native Funktion zum Hochladen und Analysieren von Bildern. Im Gegensatz dazu war OpenAIs o1 ursprünglich ein Textmodell, das später um die Analyse von Bildern und Dateien erweitert wurde. Derzeit geben beide nur Textausgaben zurück.
Obwohl die multimodale Fähigkeit von Gemini 2.0 Flash Thinking seine potenziellen Anwendungsfälle erweitert, sollten Entwickler beachten, dass das Modell derzeit keine Integration mit der Google-Suche oder anderen Google-Anwendungen und externen Tools unterstützt. Entwickler können das Modell über Google AI Studio und Vertex AI testen.
In dem zunehmend wettbewerbsintensiven KI-Markt könnte Gemini 2.0 Flash Thinking eine neue Ära für problem-lösende Modelle einleiten. Mit seiner Fähigkeit, verschiedene Datentypen zu verarbeiten, eine visualisierte Inferenz bereitzustellen und im großen Maßstab zu arbeiten, stellt es eine wichtige Konkurrenz zu OpenAIs o1-Serie und anderen Modellen im Bereich der Inferenz-KI dar.
Wichtigste Punkte:
🌟 Gemini 2.0 Flash Thinking verfügt über eine leistungsstarke Inferenzfähigkeit und unterstützt 32.000 Eingabetoken und 8.000 Ausgabetonen.
💡 Das Modell bietet über ein Dropdown-Menü eine schrittweise Inferenz, was die Transparenz erhöht und das Problem der „Black Box“-KI behebt.
🖼️ Es verfügt über eine native Funktion zum Hochladen und Analysieren von Bildern, was die multimodale Anwendung erweitert.