Wan 2.1, le modèle de génération vidéo open source d'Alibaba, domine les classements dès son lancement et fonctionne de manière fluide sur une carte graphique 4070

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 5 Minuten Lesezeit · Feb 27, 2025

Récemment, Alibaba a lancé en pleine nuit son tout nouveau modèle de génération de vidéo open source, Wan2.1. Avec ses 14 milliards de paramètres, ce modèle a rapidement conquis la première place du classement VBench, devenant ainsi un leader dans le domaine de la génération vidéo. Contrairement à QwQ-Max, lancé précédemment, Wan2.1 excelle dans le traitement des détails des mouvements complexes, capable de générer des danses synchronisées de plusieurs personnages avec une fluidité impressionnante.

Dans les démonstrations officielles, Wan2.1 a non seulement surmonté les difficultés liées à la génération d'images statiques, mais a également atteint de nouveaux sommets dans le traitement du texte. Bien que le déploiement de ses 14 milliards de paramètres soit difficile sur les cartes graphiques grand public, Alibaba a également lancé une version allégée de 1,3 milliard de paramètres, supportant une résolution 480P et fonctionnant fluidement sur une carte graphique 4070 avec 12 Go de VRAM.

Cerveau, grand modèle

Source : Image générée par IA, fournie par Midjourney

En plus des versions 14 milliards et 1,3 milliard de paramètres, Alibaba a publié deux autres modèles de génération vidéo, tous deux sous licence Apache2.0, ce qui signifie qu'ils peuvent être utilisés gratuitement à des fins commerciales. En pratique, les utilisateurs peuvent accéder à ce modèle via la plateforme d'Alibaba pour générer rapidement des vidéos, bien que le volume important d'utilisateurs puisse entraîner des temps d'attente prolongés. Les utilisateurs ayant des compétences techniques peuvent également installer et configurer le modèle eux-mêmes via Hugging Face, la communauté Modélisation et d'autres plateformes.

Le point fort de Wan2.1 réside dans son innovation technologique. Ce modèle utilise une architecture Diffusion Transformer et un encodeur automatique variationnel 3D, spécialement conçus pour la génération vidéo. Grâce à l'intégration de plusieurs stratégies de compression et de parallélisation, le modèle améliore considérablement l'efficacité de la génération tout en garantissant la qualité. Des études montrent que la vitesse de reconstruction de Wan est 2,5 fois supérieure à celle des technologies concurrentes, ce qui permet de réduire considérablement les ressources de calcul.

En termes d'expérience utilisateur, Wan2.1 a reçu de nombreux éloges. Que ce soit pour la génération de détails dans des scènes dynamiques ou pour les effets physiques naturels, les performances du modèle sont impressionnantes. Les utilisateurs peuvent non seulement créer des vidéos de haute qualité, mais aussi facilement réaliser des présentations textuelles dynamiques, ouvrant ainsi de nouvelles possibilités créatives.

Le modèle Wan2.1 d'Alibaba est non seulement technologiquement avancé, mais offre également aux créateurs une plus grande liberté de création, marquant une nouvelle avancée dans la technologie de génération vidéo.

Alibaba präsentiert OmniTalker: Durchbruch bei der KI-Videogenerierung – Stilisierte Sprache und Mimik synchronisiert mit nur einem Referenzvideo

Vor kurzem hat ein Forschungs- und Entwicklungsteam von Alibaba ein neues KI-Projekt namens OmniTalker vorgestellt, das mit seinen beeindruckenden Fähigkeiten zur Videogenerierung schnell die Aufmerksamkeit der Branche auf sich gezogen hat. OmniTalker benötigt lediglich ein Referenzvideo, um den Sprachstil und die Mimik der Person im Video präzise zu erfassen und auf dieser Grundlage ein Video mit synchronisierten Lippenbewegungen und natürlichen Gesichtsausdrücken zu generieren. Diese Technologie demonstriert nicht nur die umfassende Kompetenz von Alibaba im Bereich der generativen KI, sondern bietet auch revolutionäre Möglichkeiten für die Erstellung von Videoclips.

Über DeepSeek-R1 hinaus! Alis Wanxiang-Großmodell erreicht die Spitze der globalen Open-Source-Rangliste

Laut der neuesten Rangliste der Open-Source-Community Hugging Face hat das von Alibaba entwickelte Wanxiang-Großmodell nur 6 Tage nach seiner Open-Source-Veröffentlichung DeepSeek-R1 überholt und die Spitzenplätze in den beiden wichtigen Ranglisten "Modell-Hotlist" und "Modell-Space" belegt. Dieser Erfolg unterstreicht nicht nur die hervorragende technische Leistung des Wanxiang-Großmodells, sondern spiegelt auch seine breite Anerkennung und seinen Einfluss in der globalen Open-Source-Community wider.

Alibaba startet die Frühjahrs-Recruiting-Saison 2026 mit 3000 Stellen, fast 50% davon im KI-Bereich

Alibaba gab offiziell den Start der Frühjahrs-Praktikanten-Recruiting-Saison 2026 bekannt. Über 3000 Stellen wurden ausgeschrieben, wobei fast 50% der Stellen im Bereich Künstliche Intelligenz (KI) liegen. In einigen Geschäftsbereichen ist der Anteil der KI-Stellen noch höher, z.B. bei Amap mit ca. 65% und bei Alibaba Cloud mit über 80%. Dies zeigt die zunehmende Bedeutung von KI-Technologie bei Alibaba. Die Frühjahrs-Recruiting-Saison umfasst mehrere Abteilungen, darunter die Alibaba Group Holding, Alibaba Cloud, Amap, das Tongyi-Labor, Ele.me und Lynx.

Alibaba veröffentlicht das vollständig quelloffene Text-zu-Video-Modell Wanxiang 2.1: Versionen mit 14B und 1,3B Parametern verfügbar

Alibaba gab heute die vollständige Open-Source-Veröffentlichung seines Video-Generierungsmodells Wanxiang 2.1 bekannt, mit Versionen von 14 Milliarden und 1,3 Milliarden Parametern. Die professionelle 14B-Version bietet höchste Leistung und branchenführende Qualität für anspruchsvolle Szenarien. Die Hochgeschwindigkeitsversion mit 1,3B Parametern eignet sich für Consumer-Grafikkarten und kann mit 8,2 GB VRAM Videos in 480P-Qualität generieren. Sie ist ideal für die Weiterentwicklung und akademische Forschung. Laut offiziellen Angaben verbessert Wanxiang 2.1 die Verarbeitung komplexer Bewegungen, die Wiedergabe realer physikalischer Gesetze und die Filmqualität.

Alibaba präsentiert die Vorschauversion des Inferenzmodells QwQ-Max für Tongyi Qianwen, verfügbar unter qwen.ai

Am 25. Februar gab Alibaba die Einführung von QwQ-Max-Preview, einem Inferenzmodell basierend auf Qwen2.5-Max, bekannt und plant die vollständige Open-Source-Veröffentlichung seiner neuesten Inferenzmodelle QwQ-Max und Qwen2.5-Max. Die jetzt veröffentlichte QwQ-Max-Preview ist eine Vorschauversion. Alibaba gab an, dass die offizielle Version in Kürze erscheinen und unter der Apache2.0-Lizenz vollständig quelloffen sein wird. Anders als bisher umfasst die Open-Source-Veröffentlichung nicht nur das Modell selbst, sondern auch kleinere Versionen, wie z. B. Q...

阿里巴巴国际开源 Ovis2 系列多模态大型语言模型 – 共六个版本

Ovis2 ist die neueste Version der Ovis-Modellreihe des internationalen Teams von Alibaba. Im Vergleich zur Vorgängerversion 1.6 wurden bei Ovis2 sowohl die Datenkonstruktion als auch die Trainingsmethoden deutlich verbessert. Es wurde nicht nur die Leistungsdichte kleiner Modelle verstärkt, sondern auch die Fähigkeit zum Chain-of-Thought (CoT)-Schlussfolgern durch Instruktionsfeinabstimmung und Präferenzlernen erheblich gesteigert. Darüber hinaus wurde Ovis2 um die Verarbeitung von Videos und mehreren Bildern erweitert und die Mehrsprachigkeit sowie die OCR-Fähigkeiten in komplexen Szenarien verbessert, wodurch die Praktikabilität des Modells deutlich gesteigert wurde.

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick

Wan 2.1, le modèle de génération vidéo open source d'Alibaba, domine les classements dès son lancement et fonctionne de manière fluide sur une carte graphique 4070

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Alibaba präsentiert OmniTalker: Durchbruch bei der KI-Videogenerierung – Stilisierte Sprache und Mimik synchronisiert mit nur einem Referenzvideo

Yan Zhijie, Leiter des Sprachteams im Alibaba Tongyi-Labor, verlässt das Unternehmen

Alis neuestes Open-Source Inferenz-Großmodell QwQ-32B: Leistung vergleichbar mit DeepSeek-R1, geringerer Speicherbedarf

Alibaba Tongyi Lab veröffentlicht das Open-Source-System ViDoRAG für visuelle Dokumenten-RAG mit einer Genauigkeit von 79,4%

Über DeepSeek-R1 hinaus! Alis Wanxiang-Großmodell erreicht die Spitze der globalen Open-Source-Rangliste

Alibaba startet die Frühjahrs-Recruiting-Saison 2026 mit 3000 Stellen, fast 50% davon im KI-Bereich

Alibaba veröffentlicht das vollständig quelloffene Text-zu-Video-Modell Wanxiang 2.1: Versionen mit 14B und 1,3B Parametern verfügbar

Alibaba präsentiert die Vorschauversion des Inferenzmodells QwQ-Max für Tongyi Qianwen, verfügbar unter qwen.ai

阿里巴巴国际开源 Ovis2 系列多模态大型语言模型 – 共六个版本