Hugging Face hat kürzlich die Liste der beliebtesten Modelle der zweiten Woche im April 2025 veröffentlicht, die Bereiche wie Text-, Bild- und Videogenerierung umfasst und die schnelle Iteration und die vielfältigen Anwendungen der KI-Technologie hervorhebt. Laut AIbase zeigt diese Liste nicht nur die Innovationskraft der Open-Source-Community, sondern spiegelt auch den Technologietrend von der Low-Precision-Schulung bis hin zur multimodalen Generierung wider. Im Folgenden finden Sie eine Analyse der Highlights der Liste, die das AIbase-Redaktionsteam für Sie zusammengestellt hat.

1.jpg

Textgenerierungsmodelle: Effizienz und Spezialisierung  

microsoft/bitnet-b1.58-2B-4T: Als erstes Textgenerierungsmodell, das mit 1-Bit-Genauigkeit trainiert wurde, erreicht BitNet mit extrem niedrigen Rechenkosten eine effiziente Inferenz und eignet sich daher für den Einsatz an Edge-Geräten. Seine innovative Quantisierungstechnologie reduziert den Energieverbrauch erheblich, ohne die Leistung einzuschränken, und genießt daher große Aufmerksamkeit in der Community.  

agentica-org/DeepCoder-14B-Preview: Ein speziell für die Codegenerierung optimiertes Textgenerierungsmodell, das besonders bei Frontend-Entwicklungsaufgaben hervorragende Leistungen zeigt. Sein Feintuning verbessert die Genauigkeit der Codelogik und bietet Entwicklern ein leistungsstarkes Werkzeug.  

THUDM/GLM-4-32B-0414 & GLM-Z1-32B-0414: Die GLM-Serie von Zhihu AI ist erneut in der Liste vertreten. GLM-4-32B wurde mit 15 TByte hochwertigen Daten vortrainiert und unterstützt Dialoge, Codegenerierung und Instruction Following; GLM-Z1-32B verbessert die Inferenzleistung und ist mit GPT-4 und DeepSeek-V3 vergleichbar. AIbase erwartet die Ergebnisse der Tests der Community in dieser Woche, um das Potenzial weiter zu validieren.  

deepseek-ai/DeepSeek-V3-0324: Eine „kleine Aktualisierung“ von DeepSeek-V3, die mit 671 Milliarden Parametern weiterhin im Bereich der Textgenerierung führend ist. Seine herausragende Leistung bei komplexen Inferenz- und mehrsprachigen Aufgaben hat es zum Benchmark-Modell der Open-Source-Community gemacht.  

microsoft/MAI-DS-R1: Ein von Microsoft auf Basis von DeepSeek nachtrainiertes Modell, das die Instruction-Following-Fähigkeit für bestimmte Aufgaben optimiert. Obwohl die Community seine Leistung unterschiedlich bewertet, wird es aufgrund seines effizienten Feintunings beachtet.

Bild- und Multimodale Modelle: Visuelle Generierung erreicht neue Höhen  

HiDream-ai/HiDream-I1-Full: Dieses Text-zu-Bild-Modell zeichnet sich durch seine hohe Generierungsqualität aus. Die Detailgenauigkeit und die Vielfalt der Stile sind beeindruckend. AIbase ist der Meinung, dass sein Anwendungspotenzial in der Kunstgestaltung und im kommerziellen Design enorm ist.  

Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro-2.0: Eine verbesserte Version von FLUX.1-dev, die sich auf die Generierung von Personen konzentriert. Durch die Integration der ControlNet-Technologie wird die Bildkonsistenz und die Steuergenauigkeit verbessert, was sie für hochpräzise visuelle Aufgaben geeignet macht.  

moonshotai/Kimi-VL-A3B-Thinking: Ein multimodales Modell von Kimi, das Bild-Text-zu-Text-Generierung unterstützt. Aufgrund seiner starken visuellen Verständnis- und Inferenzfähigkeiten eignet es sich für komplexe Frage-Antwort-Szenarien und Inhaltsanalysen. AIbase hat bereits über seine innovativen Durchbrüche im multimodalen Bereich berichtet.

Videogenerierungsmodelle: Beschleunigung der dynamischen Inhaltserstellung  

Wan-AI/Wan2.1-FLF2V-14B-720P: Das von Alibaba open-source gemachte Videogenerierungsmodell für Anfangs- und Endbilder unterstützt die Generierung von 5 Sekunden langen 720p-HD-Videos. Durch die Verwendung von CLIP-semantischen Merkmalen und der DiT-Architektur zeichnet sich dieses Modell durch eine hohe Bildstabilität und flüssige Übergänge aus und wird häufig in der Erstellung von Kurzvideos und in der Postproduktion von Filmen eingesetzt.  

AIbase analysiert, dass die Hugging Face-Liste zwei große Trends in der KI-Entwicklung widerspiegelt: Erstens den Aufstieg multimodaler Modelle, wie Kimi-VL und Wan2.1-FLF2V die Generierung von Bildern bis hin zu Videos zeigen; und zweitens den Durchbruch bei der effizienten Inferenz, wobei das 1-Bit-Training von BitNet neue Möglichkeiten für Umgebungen mit geringen Ressourcen eröffnet. Zukünftig wird die KI mit zunehmender Modellgröße und Rechenoptimierung eine größere Rolle in der Bildung, im Gesundheitswesen und in der Kreativwirtschaft spielen. AIbase wird die Liste weiterhin verfolgen und den Lesern die neuesten technischen Erkenntnisse liefern.