Bulletin IA : ByteDance lance le modèle de génération vocale Seed-TTS ; Suno devancé par Udio pour une nouvelle fonctionnalité ; Tencent publie la bibliothèque d'accélération HunYuan DiT open source ; La fonctionnalité de canevas en temps réel est entièrement lancée par Jimeng

Bienvenue à la rubrique 【AI日报】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l'IA, en mettant l'accent sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits d'IA.

Nouveaux produits IA Cliquez pour en savoir plus : https://top.aibase.com/

1、Le modèle de génération vocale Seed-TTS de ByteDance excelle dans le contrôle des émotions, avec une voix presque indistinguable de celle d'un humain

Cet article présente Seed-TTS, un nouveau modèle de génération vocale proposé par l'équipe de ByteDance. Basé sur l'architecture Transformer autorégressive, ce modèle offre une qualité et une expressivité vocales exceptionnelles, rendant difficile la distinction avec la voix humaine. Il excelle dans le contrôle des émotions, le doublage de romans et la création de contenu multilingue. Grâce aux techniques d'auto-distillation et d'apprentissage par renforcement, la naturalité et la contrôlabilité de la prononciation ont été améliorées. Seed-TTS représente une avancée significative dans le domaine de la synthèse vocale, ouvrant de nouvelles possibilités pour les technologies futures.

【Résumé AiBase :】
🎯 L'équipe de ByteDance lance Seed-TTS, un nouveau modèle de génération vocale capable de produire une voix naturelle et expressive.
🎯 Excellentes performances en matière de contrôle des émotions, permettant d'ajuster les attributs émotionnels, le ton et le style de parole de la voix générée.
🎯 Capable de simuler des émotions et des contextes complexes, particulièrement adapté à la lecture de romans, au doublage vidéo, etc.
Adresse du produit : https://top.aibase.com/tool/seed-tts

2、Stability AI publie le modèle audio IA Stable Audio Open

Stable Audio Open est un modèle texte-vers-audio open source développé par Stability AI. Il peut générer des échantillons audio et des effets sonores d'une durée maximale de 47 secondes, adaptés à la production musicale et à la conception sonore. Les utilisateurs peuvent créer des rythmes, des mélodies instrumentales, des ambiances sonores, etc. Le modèle prend en charge les variations audio et les conversions de style. Il offre une qualité et une longueur de génération audio stables. Les utilisateurs peuvent affiner le modèle en fonction de leurs propres données audio pour améliorer la qualité et la contrôlabilité de l'audio généré.

【Résumé AiBase :】
🔊 Stable Audio Open est un modèle texte-vers-audio open source qui génère des échantillons audio et des effets sonores d'une durée maximale de 47 secondes.
🎶 Le modèle permet de créer des rythmes, des mélodies instrumentales, des ambiances sonores, etc.
🔧 Les utilisateurs peuvent affiner le modèle en fonction de leurs propres données audio pour améliorer la qualité et la contrôlabilité de l'audio généré.
Lien détaillé : https://top.aibase.com/tool/stable-audio-open-1-0

3、Udio devance Suno en lançant une nouvelle fonctionnalité : extension automatique de la création à partir de n'importe quel fichier audio

Cet article décrit comment Udio a devancé Suno en lançant une fonctionnalité initialement prévue par ce dernier. Udio a publié une série de mises à jour permettant aux utilisateurs de télécharger des extraits audio et d'analyser automatiquement les mélodies et les accords pour créer de la musique, ainsi que de nombreuses autres fonctionnalités pratiques.

【Résumé AiBase】
🎵 Udio a publié une série de mises à jour : il suffit de télécharger un extrait audio et Udio analysera les mélodies et les accords pour créer en quelques minutes une musique magnifique.
🎵 Une multitude de mots clés et de sources d'inspiration sont proposés pour aider les utilisateurs à développer leurs idées musicales et à trouver l'inspiration.
🎵 À noter que cette fonctionnalité est actuellement réservée aux utilisateurs payants.
Accès au produit : https://top.aibase.com/tool/udio
Plus de détails ici : https://mp.weixin.qq.com/s/QO_ucbMUD-6UJ1gs_j340A

4、Adobe met à jour sa politique de confidentialité, ce qui signifie qu'il a le droit d'utiliser les œuvres des utilisateurs pour entraîner l'IA

La récente mise à jour de la politique de confidentialité d'Adobe suscite l'inquiétude et les préoccupations des utilisateurs. Ces derniers craignent que leurs créations ne perdent leur confidentialité et soient utilisées pour entraîner l'intelligence artificielle ou pour la modération de contenu, ce qui pourrait nuire à la confiance entre les designers et leurs clients et avoir un impact négatif sur leur carrière. Cela soulève des questions sur le droit à la vie privée et la protection de la propriété intellectuelle.

【Résumé AiBase :】
🔍 Adobe exige que les utilisateurs acceptent les nouvelles conditions d'utilisation, y compris le droit d'accéder au contenu créé par les utilisateurs.
🔍 Les œuvres des designers et des artistes pourraient perdre leur confidentialité et être utilisées pour entraîner l'intelligence artificielle ou pour la modération de contenu.
🔍 La mise à jour de la politique de confidentialité d'Adobe suscite des inquiétudes quant à la confidentialité des travaux de conception.
Détails : https://www.chinaz.com/2024/0606/1621769.shtml

5、Tencent HunYuan publie une bibliothèque d'accélération pour le modèle open source de génération d'images à partir de texte HunYuan DiT

Tencent HunYuan a publié une bibliothèque d'accélération pour le modèle open source de génération d'images à partir de texte HunYuan DiT, permettant de réduire le temps d'inférence de 75 % et le temps de génération d'images de manière significative. Les utilisateurs peuvent appeler le modèle avec trois lignes de code, sans avoir à télécharger le code source. Tencent HunYuan a indiqué qu'il continuerait à optimiser l'écosystème open source de HunYuan DiT, à construire conjointement un écosystème open source de génération d'images et à promouvoir le développement de l'industrie des grands modèles.

【Résumé AiBase :】
🚀 Réduction du temps d'inférence de 75 %
💻 Appel du modèle avec trois lignes de code, sans téléchargement du code source.
🌱 Construction conjointe d'un écosystème open source de génération d'images, promotion du développement de l'industrie des grands modèles.
Lien détaillé : https://dit.hunyuan.tencent.com/

6、Projet MiGPT : intégration de l'enceinte intelligente Xiao Ai à ChatGPT et Doubao

Le projet MiGPT combine l'enceinte intelligente Xiao Ai, les appareils intelligents Mijia et la technologie ChatGPT pour créer un assistant familial intelligent et attentionné, automatisant les tâches ménagères et créant des liens émotionnels. Les principaux points forts du projet incluent les réponses LLM, les jeux de rôle, les réponses en streaming, la mémoire à court et long terme, la synthèse vocale personnalisée et l'agent domotique intelligent. Le projet propose deux modes de démarrage pour répondre aux différents besoins des utilisateurs. Les paramètres de configuration doivent être définis par l'utilisateur pour garantir une connexion correcte.

【Résumé AiBase :】
🤖 L'enceinte intelligente Xiao Ai utilise des grands modèles linguistiques comme ChatGPT pour répondre aux questions, fournir des informations et apporter de l'aide.
👩‍💼 L'enceinte intelligente Xiao Ai peut rapidement changer de rôle en fonction du contexte et des besoins de l'utilisateur, comme un compagnon idéal ou une amie attentionnée.
🔊 Le système répond instantanément aux instructions de l'utilisateur, offrant une expérience d'interaction fluide. La mémorisation de l'historique des conversations rend les conversations plus naturelles et plus harmonieuses.
Lien détaillé : https://top.aibase.com/tool/migpt

7、Lancement mondial de Motiff Miaoduo, l'outil de conception IA de Yuanfudao

Motiff Miaoduo est un logiciel de conception d'interface positionné comme un outil de conception à l'ère de l'IA. Il optimise le processus de conception grâce à l'IA, améliorant ainsi l'efficacité de la production et offrant aux utilisateurs une expérience de conception sans précédent. Ce logiciel apporte de nombreuses innovations, notamment la copie IA, la mise en page IA, la création et la maintenance de systèmes de conception IA, ainsi que le contrôle de cohérence IA. Il s'agit du premier logiciel de conception d'interface en Chine à utiliser un moteur de rendu graphique auto-développé.

【Résumé AiBase :】
🚀 Motiff Miaoduo optimise le processus de conception grâce à l'IA, améliorant ainsi l'efficacité de la production et offrant aux utilisateurs une expérience de conception sans précédent.
🎨 Le logiciel apporte de nombreuses innovations, notamment la copie IA, la mise en page IA, la création et la maintenance de systèmes de conception IA, ainsi que le contrôle de cohérence IA.
💡 Motiff Miaoduo présente une boîte à outils IA, un système de conception IA et un laboratoire IA, améliorant efficacement la productivité du secteur de la conception d'interfaces.
Lien détaillé : https://top.aibase.com/tool/motiff-miaoduo

8、Jimeng lance la fonctionnalité de canevas en temps réel

Jimeng a annoncé le lancement complet de la fonctionnalité de canevas en temps réel. Les utilisateurs peuvent personnaliser les images en dessinant simplement des formes et en ajoutant des mots clés, ce qui rend la création d'images par IA plus contrôlable. Après avoir enregistré en tant que nouveau calque, il est possible de continuer à optimiser l'image. Une fois finalisée, l'image peut être enregistrée.

【Résumé AiBase :】
🎨 La fonctionnalité de canevas en temps réel permet aux utilisateurs de personnaliser les images en dessinant simplement des formes et en ajoutant des mots clés, améliorant ainsi l'expérience utilisateur.
🖌️ En dessinant approximativement des formes, les utilisateurs peuvent obtenir des images personnalisées répondant à leurs besoins.
💡 Il est possible de continuer à ajuster et à optimiser après avoir enregistré en tant que nouveau calque, améliorant ainsi la qualité de l'image.
Lien détaillé : https://top.aibase.com/tool/jimengdreamina

9、Forte baisse de la fréquence d'activation de la fonction d'aperçu de l'IA Google

L'aperçu de l'intelligence artificielle de Google ne s'affiche plus que dans moins de 15 % des résultats de recherche, soit une baisse significative par rapport aux 84 % précédents. La manière dont l'intelligence artificielle est présentée dans les résultats de recherche a été ajustée afin d'améliorer la qualité de la recherche. L'article souligne que le rôle de l'intelligence artificielle dans la recherche est en constante évolution. Bien que la fonctionnalité d'aperçu ait été réduite, l'utilisation de l'intelligence artificielle dans la recherche est une évolution inévitable.

【Résumé AiBase :】
⭐ La fréquence d'activation de l'aperçu de l'IA Google dans les résultats de recherche est passée de 84 % à moins de 15 %.
⭐ Google a réduit le chevauchement entre les références à l'intelligence artificielle et les résultats de recherche traditionnels, améliorant ainsi la qualité de la recherche.
⭐ L'intelligence artificielle prédit et affiche les questions suivantes dans la recherche, ce qui incite les chercheurs à effectuer plusieurs recherches.

10、Des chercheurs mettent au point une intelligence artificielle capable d'identifier les émotions des sportifs

Des chercheurs ont utilisé un réseau neuronal assisté par ordinateur pour identifier avec précision les états émotionnels des joueurs de tennis à partir de leur langage corporel, démontrant le potentiel de l'intelligence artificielle dans la reconnaissance des émotions. Cependant, cette recherche soulève également des questions d'éthique, et il est nécessaire de clarifier les questions juridiques et morales connexes.

【Résumé AiBase :】
🔍 L'intelligence artificielle peut identifier avec précision les états émotionnels des joueurs de tennis, démontrant des capacités comparables à celles des observateurs humains.
🔍 L'utilisation de données de matchs réels pour entraîner le modèle d'intelligence artificielle a permis d'améliorer la précision de la reconnaissance des émotions.
🔍 La technologie de reconnaissance des émotions peut être appliquée dans de nombreux domaines, notamment l'amélioration de l'entraînement, l'amélioration de la dynamique d'équipe et la détection précoce des émotions négatives.

11、Ouroboros3D : génération d'images 3D à partir d'images grâce à la perception 3D

Ouroboros3D est un cadre de génération 3D unifié qui intègre la génération d'images multi-vues et la reconstruction 3D. Grâce à un processus de diffusion récursif, il permet de générer des modèles 3D à partir d'images. La nouvelle méthode proposée par les chercheurs présente plusieurs avantages, notamment la génération d'images multi-vues plus diversifiées et réalistes, la réduction du bruit et des distorsions, et l'amélioration de l'efficacité de la génération. Les expériences ont démontré que les modèles 3D générés par Ouroboros3D présentent de meilleurs détails et une meilleure précision, se rapprochant de scènes 3D réalistes.

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

Bulletin IA : ByteDance lance le modèle de génération vocale Seed-TTS ; Suno devancé par Udio pour une nouvelle fonctionnalité ; Tencent publie la bibliothèque d'accélération HunYuan DiT open source ; La fonctionnalité de canevas en temps réel est entièrement lancée par Jimeng

站长之家

Cet article provient d'AIbase Daily