SDXS

Modèle de diffusion potentiel en une seule étape en temps réel, contrôlable par condition d'image.

Produit OrdinaireImageIntelligence artificielleMachine learning

SDXS est un nouveau modèle de diffusion qui réduit considérablement la latence grâce à la miniaturisation du modèle et à la diminution du nombre d'étapes d'échantillonnage. Il utilise la distillation de connaissances pour simplifier l'architecture U-Net et du décodeur d'image, et introduit une technique innovante d'entraînement DM en une seule étape, utilisant la correspondance de caractéristiques et la distillation de scores. Les modèles SDXS-512 et SDXS-1024 peuvent atteindre des vitesses d'inférence d'environ 100 FPS et 30 FPS respectivement sur un seul GPU, soit 30 à 60 fois plus vite que les modèles précédents. De plus, cette méthode d'entraînement présente des applications potentielles en matière de contrôle conditionnel d'image, permettant une traduction image à image efficace.

Actualités IA

IA Quotidien

Chronologie de l'IA

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

SDXS

SDXS Dernière situation du trafic

SDXS Tendance des visites

SDXS Distribution géographique des visites

SDXS Sources de trafic

SDXS Alternatives

CausVid — Générateur vidéo causal rapide permettant une génération vidéo instantanée.

Accélérateur IA Intel Gaudi 3 — Accélérateur IA haute performance, conçu pour les charges de travail IA.

Cours d'IA en ligne — Offre les meilleures ressources sur l'intelligence artificielle : apprenez le machine learning, la data science et le traitement du langage naturel.

Bunny — Famille de modèles multimodaux légers mais puissants.

SDXS — Modèle de diffusion potentiel en une seule étape en temps réel, contrôlable par condition d'image.

Rayscape IA — Rayscape | Intelligence Artificielle en Radiologie

Pruna — Pruna est un framework d'optimisation de modèles qui aide les développeurs à livrer des modèles rapidement et efficacement.

Orpheus TTS — Un système de texte à parole open source, visant à créer une voix humaine naturelle.

Le Manuel des Systèmes Ultra-Scalables — Un outil dédié à la conception et à l'optimisation de systèmes ultra-scalables, offrant des solutions performantes.

Momodel.cn — Apprenez en ligne le Python, l'IA, les grands modèles linguistiques et la création d'IA ; des cours pour tous les niveaux, même débutants.

timesfm-2.0-500m-pytorch — Modèle de prédiction de séries temporelles pré-entraîné développé par Google Research.

Sonus-1 — Sonus-1 : une nouvelle ère pour les grands modèles de langage (LLM)

Llama-3.1-70B-Instruct-AWQ-INT4 — Modèle de génération de texte de 70 milliards de paramètres

VidTok — Famille de découpeurs vidéo open source de Microsoft

Valley 2.0 — Modèle linguistique de grande taille multimodale améliorant le traitement des données textuelles, images et vidéos.

Shoonya — Modèle et agent de base pour le secteur commercial

Ruyi-Mini-7B — Modèle open source de génération de vidéo à partir d'image

Recursal AI — Rendre l'intelligence artificielle accessible à tous

Apollo-LMMs — Exploration de la compréhension vidéo dans les grands modèles multimodaux

CosyVoice Générateur de Voix 2.0 - 0.5B — Modèle de synthèse vocale performant et multilingue

InternVL 2.5 — Série de grands modèles linguistiques multimodaux open source

PaliGemma 2 — PaliGemma 2 est un puissant modèle linguistique visuel, simple à optimiser.

Amazon Nova — Amazon Nova est le nouveau modèle de base d'Amazon, offrant une intelligence de pointe et un rapport qualité-prix inégalé.

HunyuanVideo — Framework d'entraînement de modèles de génération vidéo de grande taille, open source de Tencent

OLMo-2-1124-13B-DPO — Modèle linguistique performant pour l'anglais, adapté à diverses tâches.

SoraVids — Archives du modèle de génération vidéo Sora

ControlNets pour Stable Diffusion 3.5 Large — Trois modèles ControlNets pour Stable Diffusion 3.5 Large

LTX-Video — Modèle de génération vidéo basé sur DiT, générant des vidéos de haute qualité en temps réel.

AlphaQubit — Décodeur basé sur l'IA pour la correction d'erreurs en informatique quantique

Démo Qwen Turbo 1M — La démo Qwen Turbo 1M est un espace Hugging Face fourni par Qwen.