Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Al hardware

liste tous les produits de matériel AI.

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

MMAudio : Une nouvelle technologie audio IA pour le doublage vidéo automatique à partir de vidéos ou de texte

AIbase基地

Publié leActualités IA · 4 minutes de lecture · Dec 12, 2024

762

Une équipe de chercheurs de l'Université de l'Illinois à Urbana-Champaign, de Sony AI et du groupe Sony a récemment présenté une nouvelle technologie appelée MMAudio. Cette technologie vise à synthétiser de l'audio haute qualité à partir de vidéos grâce à un entraînement conjoint multi-modal.

L'innovation principale de MMAudio réside dans sa capacité à générer de l'audio synchronisé à partir d'entrées vidéo et textuelles. Cela élargit les applications de la génération audio, permettant de générer des effets sonores correspondant au contenu vidéo à partir de vidéos ou de textes.

MMAudio est conçu pour être entraîné sur divers ensembles de données audiovisuelles et audio-textuelles. Cet entraînement conjoint multi-modal améliore non seulement la qualité de l'audio synthétisé, mais garantit également la synchronisation entre l'audio généré et les images vidéo. L'intégration de ce module de synchronisation améliore considérablement la précision de la génération audio, assurant la cohérence entre le contenu audio et vidéo.

Actuellement, la bibliothèque de code de MMAudio est encore en cours de développement. Les chercheurs indiquent que la fonction d'inférence sur un seul exemple est déjà fonctionnelle, tandis que le code d'entraînement sera disponible dans les versions ultérieures. Pour faciliter l'utilisation, la technologie a été testée sur le système d'exploitation Ubuntu et un guide d'installation est fourni. Les utilisateurs doivent disposer de Python 3.9 ou supérieur, ainsi que des versions appropriées de PyTorch et de ffmpeg. L'installation de MMAudio se fait ensuite via une simple commande.

MMAudio présente encore quelques limitations dans la génération audio, telles que la production occasionnelle d'une voix ou d'une musique de fond peu claires, et une gestion imparfaite de certains concepts inconnus. L'équipe de recherche estime que l'ajout de données d'entraînement de haute qualité permettra de résoudre ces problèmes. Avec la poursuite des recherches, MMAudio devrait améliorer ses performances à l'avenir.

Essai : https://huggingface.co/spaces/hkchengrex/MMAudio

Code : https://github.com/hkchengrex/MMAudio

Points clés :
🌟 MMAudio permet une synthèse audio-vidéo de haute qualité grâce à un entraînement conjoint multi-modal.
📦 MMAudio peut être utilisé pour la génération audio sous Ubuntu grâce à une installation simple.
⚠️ La version actuelle présente quelques limitations, mais l'équipe de recherche travaille à l'amélioration des performances en augmentant les données d'entraînement.

MMAudio SonyAI Synthèse audio Entraînement conjoint multimodal

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Les laboratoires Alibaba Tongyi lancent un nouveau modèle de génération de personnages numériques : synthèse audiovisuelle plus réaliste !

Les laboratoires Alibaba Tongyi ont récemment publié un nouveau modèle de génération de vidéo de personnage numérique appelé "OmniTalker". Ce modèle innovant permet, via le téléchargement d'une vidéo de référence, d'imiter avec précision les expressions, la voix et le style de parole de la personne apparaissant dans la vidéo. Comparé aux processus traditionnels de création de personnages numériques, OmniTalker réduit considérablement les coûts de production tout en améliorant le réalisme et l'interactivité du contenu généré, répondant ainsi à une large gamme de besoins. OmniTalker est très facile à utiliser ; l'utilisateur a simplement besoin de…

Apr 15, 2025