Im heutigen Bereich der Technologie ist CLIP (Contrastive Language-Image Pre-training) ein wichtiges multimodales Basismodell. Es verbindet visuelle und textuelle Signale in einem gemeinsamen Merkmalsraum, indem es kontrastive Lernverluste auf groß angelegten Bild-Text-Paaren verwendet.
CLIP fungiert als Retrieval-System und unterstützt verschiedene Aufgaben wie Zero-Shot-Klassifizierung, -Detektion, -Segmentierung und Bild-Text-Retrieval. Gleichzeitig nimmt es als Merkmalsextraktor eine führende Position bei nahezu allen cross-modalen Repräsentationsaufgaben ein, beispielsweise beim Bildverstehen, Videoverstehen und der Text-zu-Bild- oder Video-Generierung. Die Stärke von CLIP liegt in seiner Fähigkeit, Bilder mit natürlicher Sprache zu verknüpfen und menschliches Wissen zu erfassen, was auf seinem Training mit umfangreichen Webdaten mit detaillierten Textbeschreibungen beruht.
CLIP weist jedoch Einschränkungen bei der Verarbeitung langer und komplexer Textbeschreibungen auf. Um dieses Problem zu lösen, haben Forscher von Microsoft und der Tongji-Universität die LLM2CLIP-Methode vorgestellt, die darauf abzielt, das visuelle Repräsentationslernen durch die Integration großer Sprachmodelle (LLMs) zu verbessern. Dieser Ansatz ersetzt mutig den ursprünglichen CLIP-Text-Encoder und nutzt das umfangreiche Wissen von LLMs, um die Leistung des CLIP-Bild-Encoders zu steigern. Studien haben gezeigt, dass die direkte Integration von LLMs in CLIP zu Leistungseinbußen führt, daher muss diese Herausforderung bewältigt werden.
Die LLM2CLIP-Methode verbessert durch die Einführung der Technik des „Titel-kontrastiven Feinabstimmens“ die Fähigkeit von LLMs, Bildtitel zu trennen, was zu einer deutlichen Leistungssteigerung führt.
Die Forscher führten Feinabstimmungsexperimente mit Datensätzen unterschiedlicher Größe durch, darunter die kleinen CC-3M, mittlere CC-3M und CC-12M sowie die großen CC-3M, CC-12M, YFCC-15M und Recaption-1B. Die Ergebnisse zeigen, dass mit LLM2CLIP trainierte Modelle bei Bild-zu-Text- und Text-zu-Bild-Retrieval-Aufgaben besser abschneiden als herkömmliche CLIP- und EVA-Modelle.
Durch multimodales Training in Kombination mit Modellen wie Llava1.5 erzielt LLM2CLIP in fast allen Benchmarks hervorragende Ergebnisse, insbesondere bei der Verarbeitung von Retrieval-Aufgaben mit langen und kurzen Texten, wobei die Leistung des vorherigen EVA02-Modells um 16,5 % gesteigert wurde. Diese innovative Methode wandelt CLIP nicht nur von einem Modell, das nur mit englischen Daten arbeitet, in ein leistungsstarkes, sprachübergreifendes Modell um, sondern legt auch den Grundstein für zukünftige Forschung im Bereich des CLIP-Trainings.
Modell: https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
Code: https://github.com/microsoft/LLM2CLIP/
Paper: https://arxiv.org/abs/2411.04997
Wichtigste Punkte:
🌟 LLM2CLIP ist eine innovative Methode, die von Microsoft und der Tongji-Universität entwickelt wurde, um die Leistung des Bild-Encoders durch den Austausch des CLIP-Text-Encoders zu verbessern.
📈 Diese Methode verbessert durch die Technik des „Titel-kontrastiven Feinabstimmens“ die Fähigkeit des Modells, Bilder und Texte abzugleichen, und übertrifft die bisherigen State-of-the-Art-Modelle.
🌐 Experimente mit verschiedenen Datensätzen zeigen, dass LLM2CLIP bei Retrieval-Aufgaben mit langen und kurzen Texten besser abschneidet als herkömmliche Modelle und die Entwicklung sprachübergreifender Modelle vorantreibt.