Das chinesische Unternehmen DeepSeek hat sein neues multimodales großes Sprachmodell Janus-Pro veröffentlicht und damit offiziell den Bereich der Text-zu-Bild-Generierung betreten. Dieser Schritt markiert einen bedeutenden Durchbruch für DeepSeek im Bereich der multimodalen KI-Technologie.
In den Benchmarks GenEval und DPG-Bench übertraf Janus-Pro-7B nicht nur OpenAIs DALL-E3, sondern auch beliebte Modelle wie Stable Diffusion und Emu3-Gen. Janus-Pro wird unter der MIT-Open-Source-Lizenz veröffentlicht, was bedeutet, dass es uneingeschränkt für kommerzielle Zwecke genutzt werden kann. DeepSeek gab an, dass Janus-Pro eine Weiterentwicklung des am 13. November 2024 veröffentlichten JanusFlow-Modells ist.
Im Vergleich zu Vorgängermodellen wurde bei Janus-Pro die Trainingsstrategie optimiert, die Trainingsdaten erweitert und die Modellgröße vergrößert. Diese Verbesserungen führten zu erheblichen Fortschritten bei der multimodalen Verarbeitung und der präzisen Umsetzung von Text-zu-Bild-Anweisungen, gleichzeitig wurde die Stabilität der Text-zu-Bild-Generierung verbessert.
Obwohl Janus-Pro derzeit nur Bilder mit einer Auflösung von 384x384 Pixel verarbeiten kann, ist dieses Ergebnis angesichts der kompakten Modellgröße beeindruckend.
Als multimodales Modell kann Janus-Pro nicht nur Bilder generieren, sondern auch Bilder beschreiben, Sehenswürdigkeiten erkennen, Text in Bildern identifizieren und Informationen über das Wissen in Bildern liefern.
Wichtigste Punkte:
🌟 DeepSeek veröffentlicht das multimodale große Sprachmodell Janus-Pro und betritt den Bereich der Text-zu-Bild-Generierung.
📈 In Benchmarks übertrifft Janus-Pro-7B die Leistung von OpenAIs DALL-E3 und anderen beliebten Modellen.
✅ Janus-Pro wird unter der MIT-Open-Source-Lizenz veröffentlicht und kann uneingeschränkt kommerziell genutzt werden.