PaLI-3: Ein bahnbrechendes visuelles Sprachmodell

Google hat mit PaLI-3 ein visuelles Sprachmodell (VLM) vorgestellt, das trotz seiner geringen Größe von nur 5 Milliarden Parametern in multimodalen Tests herausragende Leistungen erzielt. Dieser Erfolg ist der Anwendung der SigLIP-Methode zu verdanken, die es ermöglicht, kleinere Modelle effizient zu trainieren und einzusetzen. Dieser Durchbruch könnte den Weg für eine neue Generation großer VLMs ebnen.