PaLI-3: Ein kompaktes visuelles Sprachmodell

Google hat ein kompaktes visuelles Sprachmodell namens PaLI-3 veröffentlicht, das einen State-of-the-Art-Leistungsstand erreicht. Durch die Verwendung einer kontrastiven Pretraining-Methode wurde das Potenzial von visuellen Textmodellen (VIT) eingehend untersucht und ein State-of-the-Art-Niveau in der mehrsprachigen Modalitätsrecherche erzielt.

PaLI-3 vereint natürliches Sprachverständnis und Bilderkennung und stellt eine wichtige Kraft für AI-Innovationen dar. Die auf SigLIP basierende kontrastive Pretraining-Methode läutet eine neue Ära der mehrsprachigen, cross-modalen Suche ein.

Obwohl PaLI-3 noch nicht vollständig Open Source ist, werden mehrsprachige und englischsprachige SigLIP-Modelle bereitgestellt, um Forschern die Möglichkeit zu geben, es auszuprobieren.