Google Gemini 2.0 offiziell veröffentlicht: Multimodale Ausgabe jetzt mit 2.0 Flash verfügbar

Sundar Pichai, CEO von Google und seiner Muttergesellschaft Alphabet, gab die Einführung des neuesten KI-Modells Gemini 2.0 bekannt. Dies stellt einen wichtigen Schritt für Google beim Aufbau eines universellen KI-Assistenten dar. Gemini 2.0 zeigt bemerkenswerte Fortschritte in der Verarbeitung multimodaler Eingaben und der nativen Werkzeugnutzung, wodurch KI-Agenten die Welt um sie herum besser verstehen und im Auftrag des Benutzers unter dessen Aufsicht handeln können.

Gemini 2.0 baut auf seinen Vorgängern Gemini 1.0 und 1.5 auf, wobei letzteres erstmals native multimodale Verarbeitungsfähigkeiten ermöglichte und verschiedene Informationstypen wie Text, Video, Bilder, Audio und Code verstand. Millionen von Entwicklern nutzen Gemini bereits für die Entwicklung, was Google dazu veranlasst, seine Produkte neu zu konzipieren, darunter 7 Produkte mit 2 Milliarden Nutzern, und neue Produkte zu schaffen. NotebookLM, ein Beispiel für multimodale und langkontextuelle Fähigkeiten, erfreut sich großer Beliebtheit.

微信截图_20241212080452.png

Die Einführung von Gemini 2.0 läutet für Google ein neues Zeitalter der Agenten ein. Das Modell verfügt über native Bild- und Audioausgabefähigkeiten sowie die Fähigkeit, native Tools zu verwenden. Google stellt Gemini 2.0 bereits Entwicklern und vertrauenswürdigen Testern zur Verfügung und plant eine schnelle Integration in seine Produkte, beginnend mit Gemini und der Suche. Ab heute steht das Gemini 2.0 Flash-Experimentiermodell allen Gemini-Nutzern zur Verfügung. Gleichzeitig hat Google die neue Funktion „Deep Research“ eingeführt, die mithilfe fortschrittlicher Inferenz und langkontextueller Fähigkeiten als Forschungsassistent fungiert, komplexe Themen für den Benutzer erforscht und Berichte erstellt. Diese Funktion ist derzeit in Gemini Advanced verfügbar.

Die Suche, eines der von KI am stärksten beeinflussten Produkte, erreicht mit Googles KI-Übersicht bereits 1 Milliarde Menschen und ermöglicht es ihnen, völlig neue Fragen zu stellen. Sie ist schnell zu einer der beliebtesten Suchfunktionen von Google geworden. Als nächsten Schritt wird Google die fortschrittlichen Inferenzfähigkeiten von Gemini 2.0 in die KI-Übersicht integrieren, um komplexere Themen und mehrstufige Probleme zu lösen, darunter fortgeschrittene mathematische Gleichungen, multimodale Abfragen und Codierung. Begrenzte Tests haben diese Woche begonnen, und eine breitere Einführung ist für Anfang nächsten Jahres geplant. Google wird die KI-Übersicht im kommenden Jahr auch auf weitere Länder und Sprachen ausweiten.

Mit den nativen multimodalen Fähigkeiten von Gemini 2.0 zeigt Google die Spitzenergebnisse seiner Agentenforschung. Gemini 2.0 Flash ist eine Verbesserung gegenüber 1.5 Flash, dem bisher beliebtesten Modell bei Entwicklern, mit ähnlichen schnellen Antwortzeiten. Bemerkenswert ist, dass 2.0 Flash in wichtigen Benchmark-Tests sogar doppelt so schnell wie 1.5 Pro ist. 2.0 Flash bringt auch neue Fähigkeiten mit sich. Neben der Unterstützung multimodaler Eingaben wie Bilder, Videos und Audio unterstützt 2.0 Flash jetzt auch multimodale Ausgaben, wie z. B. nativ generierte Bilder, die mit Text vermischt sind, und steuerbare mehrsprachige Text-to-Speech (TTS)-Audio. Es kann auch native Tools aufrufen, wie z. B. die Google-Suche, Codeausführung und benutzerdefinierte Funktionen von Drittanbietern.

微信截图_20241212080808.png

Gemini 2.0 Flash steht Entwicklern jetzt als experimentelles Modell über die Gemini-API von Google AI Studio und Vertex AI zur Verfügung. Allen Entwicklern stehen multimodale Eingaben und Textausgaben zur Verfügung, während Text-to-Speech und native Bilderzeugung frühen Zugriffspartnern vorbehalten sind. Die allgemeine Verfügbarkeit wird im Januar folgen, zusammen mit weiteren Modellgrößen.

Um Entwickler beim Erstellen dynamischer und interaktiver Anwendungen zu unterstützen, hat Google auch eine neue multimodale Echtzeit-API veröffentlicht, die Echtzeit-Audio- und Videostream-Eingaben ermöglicht und mehrere kombinierte Tools verwenden kann.

Ab heute können globale Gemini-Benutzer die chatoptimierte Version von 2.0 Flash im experimentellen Modus aufrufen, indem sie diese im Modell-Dropdown-Menü auf der Desktop- und mobilen Webseite auswählen. Sie wird in Kürze auch in der Gemini-Mobil-App verfügbar sein. Anfang nächsten Jahres wird Google Gemini 2.0 auf weitere Google-Produkte ausweiten.

KI-Nachrichten und -Informationen

Google Gemini 2.0 offiziell veröffentlicht: Multimodale Ausgabe jetzt mit 2.0 Flash verfügbar

AIbase基地