IBM hat kürzlich sein neuestes großes Sprachmodell Granite3.2 veröffentlicht, das Unternehmen und Open-Source-Communitys eine „kleine, effiziente und praktische“ KI-Lösung für Unternehmen bieten soll. Das Modell verfügt nicht nur über multimodale und Inferenzfähigkeiten, sondern bietet auch verbesserte Flexibilität und Kosteneffizienz, wodurch die Einführung für Benutzer vereinfacht wird.

QQ_1741229530181.png

Granite3.2 führt ein visuelles Sprachmodell (VLM) ein, das zur Verarbeitung von Dokumenten, Datenklassifizierung und -extraktion verwendet wird. IBM behauptet, dass dieses neue Modell in einigen wichtigen Benchmark-Tests die Leistung größerer Modelle wie Llama3.211B und Pixtral12B erreicht oder übertrifft. Darüber hinaus zeigt das 8B-Modell von Granite3.2 in Standard-Benchmark-Tests für mathematisches Schlussfolgern die Fähigkeit, mit größeren Modellen zu konkurrieren oder diese zu übertreffen.

Um die Inferenzfähigkeit zu verbessern, verfügen einige Modelle von Granite3.2 über eine „Chain-of-Thought“-Funktion, die Zwischenschritte der Inferenz verdeutlicht. Diese Funktion erfordert zwar höhere Rechenleistung, kann aber nach Bedarf aktiviert oder deaktiviert werden, um die Effizienz zu optimieren und die Gesamtkosten zu senken. Sriram Raghavan, Vizepräsident für IBM AI Research, erklärte auf der Veröffentlichung, dass der Schwerpunkt der nächsten Generation von KI auf Effizienz, Integration und tatsächlicher Wirkung liegt, damit Unternehmen starke Ergebnisse erzielen können, ohne zu viel auszugeben.

Neben der verbesserten Inferenzfähigkeit wurde auch eine verkleinerte Version des Sicherheitsmodells „Granite Guardian“ vorgestellt. Obwohl die Größe um 30 % reduziert wurde, bleibt die Leistung auf dem Niveau des Vorgängermodells. Zusätzlich hat IBM eine Funktion namens „Articulable Confidence“ eingeführt, die eine genauere Risikobewertung ermöglicht und Unsicherheiten in der Sicherheitsüberwachung berücksichtigt.

Granite3.2 wurde auf dem Open-Source-Toolkit Docling von IBM trainiert, das es Entwicklern ermöglicht, Dokumente in die spezifischen Daten umzuwandeln, die für benutzerdefinierte KI-Modelle für Unternehmen benötigt werden. Während des Modelltrainings wurden 85 Millionen PDF-Dateien und 26 Millionen synthetische Frage-Antwort-Paare verarbeitet, um die Fähigkeit des VLM zur Verarbeitung komplexer Dokumenten-Workflows zu verbessern.

IBM kündigte außerdem die Einführung der nächsten Generation von TinyTimeMixers (TTM)-Modellen an, einem kompakten vortrainierten Modell, das sich auf die Vorhersage multivariater Zeitreihen konzentriert und Langzeitvorhersagen von bis zu zwei Jahren ermöglicht.

Offizieller Blog: https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision

Highlights:

📊 Granite3.2 führt ein visuelles Sprachmodell ein und verbessert die Dokumentenverarbeitung und Datenextraktion.

💡 Das neue Modell verfügt über eine Chain-of-Thought-Funktion, die den Inferenzprozess verdeutlicht und die Inferenzfähigkeit verbessert.

🔍 Das Granit Guardian-Sicherheitsmodell wurde um 30 % verkleinert, ohne dass die Leistung beeinträchtigt wurde. Gleichzeitig wurde die Funktion „Articulable Confidence“ zur Risikobewertung eingeführt.