Bulletin IA : Alibaba open-source le modèle de document DocOwl 1.5 ; Nouvelles fonctionnalités de l'éditeur d'images Midjourney disponibles la semaine prochaine ; Viggle IA lance une fonctionnalité de synchronisation labiale

Bienvenue sur la rubrique 【AI日报】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l'IA, en nous concentrant sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits IA.

Nouveaux produits IA Cliquez pour en savoir plus :https://top.aibase.com/

1、Tables et graphiques maîtrisés ! Alibaba DAMO Academy publie en open source DocOwl 1.5, une solution efficace pour « lire » les documents sans OCR !

Alibaba DAMO Academy et l’Université du Peuple chinois ont publié en open source le modèle de traitement de documents mPLUG-DocOwl 1.5, capable de comprendre le contenu des documents sans recourir à la reconnaissance optique de caractères (OCR). Il a obtenu des résultats de pointe dans plusieurs tests de référence de compréhension visuelle de documents. Ce modèle souligne l’importance des informations structurelles et propose une « apprentissage de structure unifié » pour améliorer les performances des MLLM.

【Résumé AiBase :】
🔍 mPLUG-DocOwl 1.5 comprend le contenu des documents sans OCR et obtient des résultats de pointe dans les tests de référence de compréhension visuelle de documents.
📊 Il souligne l’importance des informations structurelles pour la compréhension des documents et propose un « apprentissage de structure unifié » pour améliorer les performances des MLLM.
🔗 Le code source, les modèles et les jeux de données sont disponibles en open source, offrant des performances de pointe dans plusieurs tâches en aval.
Lien détaillé : https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2、Nouvelle fonctionnalité de l’éditeur d’images Midjourney disponible la semaine prochaine

David Holz, le fondateur de Midjourney, a annoncé le lancement imminent d’un nouvel éditeur d’images. Cet éditeur utilise les informations de profondeur des images téléchargées pour générer de nouvelles images, en conservant la composition et le contenu d’origine tout en modifiant radicalement les textures, les couleurs et les détails. Cette innovation améliore la liberté de création des utilisateurs et offre un outil puissant aux designers et aux artistes. Midjourney optimise constamment la qualité de génération d’images grâce à l’IA, le dernier modèle v6.1 améliorant encore la netteté et la précision des images. L’ajout du nouvel éditeur d’images élargira les applications de l’IA dans le domaine créatif, marquant une avancée majeure de Midjourney dans les outils d’édition d’images.

【Résumé AiBase :】
✨ Utilise les informations de profondeur des images téléchargées pour générer de nouvelles images, en conservant la composition et le contenu d’origine, tout en modifiant radicalement les textures, les couleurs et les détails.
🎨 Midjourney s’engage à améliorer la qualité de génération d’images grâce à l’IA, le dernier modèle v6.1 optimisant encore la netteté et la précision des images.
💡 Le nouvel éditeur élargira les applications de l’IA dans le domaine créatif, offrant aux designers et aux artistes une manipulation et une modification plus flexible des images.

3、Viggle AI lance une nouvelle fonctionnalité : donner la parole aux personnages en enregistrant sa voix

Viggle AI a lancé une nouvelle fonctionnalité passionnante : les utilisateurs peuvent enregistrer leur voix pour faire parler les personnages et synchroniser les mouvements de lèvres. Cette technologie innovante permet aux utilisateurs de contrôler totalement la façon dont les personnages s’expriment, qu’il s’agisse de chanter ou de danser. L’application Viggle, grâce à son caractère innovant, a suscité un vif intérêt sur les réseaux sociaux. Utilisant le modèle 3D vidéo JST-1 avancé, les utilisateurs peuvent facilement créer et mixer du contenu vidéo.

【Résumé AiBase :】
🎤 Fonctionnalité de parole des personnages : les utilisateurs peuvent enregistrer leur voix pour faire parler les personnages et synchroniser les mouvements de lèvres.
🎭 Fonctionnalité de remplacement des personnages : les utilisateurs peuvent placer n’importe quel personnage dans une scène vidéo, créant une expérience immersive personnalisée.
🔄 Animation d’images statiques : les utilisateurs peuvent transformer des photos statiques en images dynamiques, augmentant l’intérêt et l’interactivité des vidéos.
Lien détaillé : https://viggle.ai/home

4、Même les modèles IA de pointe ont du mal à gérer la planification de voyages complexes, OpenAI o1-preview également en difficulté

De récentes études montrent que même les modèles linguistiques IA avancés, tels que le dernier o1-preview d’OpenAI, rencontrent des difficultés dans les tâches de planification complexes. L’étude a révélé que les modèles ont de mauvaises performances dans l’intégration des règles et des conditions, et perdent progressivement de vue le problème au fur et à mesure que la durée de la planification augmente. Bien que certains modèles obtiennent des résultats acceptables dans BlocksWorld, leurs performances sont médiocres dans la tâche plus complexe de TravelPlanner.

【Résumé AiBase :】
🌍 Les modèles IA comme o1-preview d’OpenAI ont de mauvaises performances dans la planification de voyages complexes, le taux de réussite de GPT-4o étant seulement de 7,8 %.
📉 La plupart des modèles obtiennent des résultats acceptables dans BlocksWorld, mais peinent à atteindre des résultats satisfaisants dans TravelPlanner.
🧠 Les modèles ont des difficultés à intégrer les règles et perdent leur concentration au fil du temps.
Lien détaillé : https://github.com/hsaest/Agent-Planning-Analysis

5、L’outil open source Vulnhuntr permet de détecter les failles zero-day Python, en utilisant intelligemment Claude AI

L’outil Vulnhuntr, développé par Protect AI, utilise Claude AI pour aider les développeurs à détecter les failles zero-day dans le code Python. Contrairement à l’analyse statique traditionnelle, cet outil peut suivre la chaîne d’appels complète, des entrées utilisateur aux sorties serveur, améliorant ainsi la précision de la détection des failles. Vulnhuntr a déjà détecté des failles zero-day dans plusieurs grands projets open source et sera bientôt disponible sur GitHub pour les développeurs.

【Résumé AiBase :】
🌟 Vulnhuntr est un outil open source qui utilise Claude AI pour détecter les failles zero-day Python.
🛠️ Le fonctionnement de l’outil diffère de l’analyse statique, car il permet de suivre la chaîne d’appels complète.
🚀 Vulnhuntr a déjà détecté plusieurs failles zero-day dans de grands projets open source et sera bientôt disponible sur GitHub.

6、ByteDance répond aux rumeurs de « destruction de l’entraînement des grands modèles par un stagiaire » : aucun impact sur les projets commerciaux officiels

ByteDance a récemment répondu officiellement aux rumeurs concernant un stagiaire ayant perturbé l’entraînement des grands modèles, confirmant que le stagiaire a intentionnellement perturbé l’entraînement du modèle de projet de recherche, sans toutefois affecter les projets commerciaux officiels ni les activités en ligne. L’entreprise a indiqué que les rumeurs étaient grandement exagérées, a licencié le stagiaire et a informé les organismes concernés. L’incident a mis en lumière des problèmes de gestion de la sécurité, et l’entreprise prévoit d’investir massivement dans les technologies IA.

【Résumé AiBase :】
🔍 Un stagiaire a intentionnellement perturbé l’entraînement des grands modèles, sans impact sur les projets commerciaux et les activités en ligne.
🔒 L’entreprise confirme que les rumeurs sont exagérées, a licencié le stagiaire et a informé les organismes concernés.
💡 L’incident a mis en lumière des problèmes de gestion de la sécurité, et l’entreprise prévoit d’investir massivement dans les technologies IA.

7、La dernière technologie révolutionnaire de Meta, SPIRIT-LM : capable de parler, d’écrire et de comprendre vos émotions, ce modèle linguistique IA est impressionnant !

SPIRIT-LM est un modèle linguistique de base multimodale révolutionnaire capable de mélanger librement texte et parole, et de comprendre et d’exprimer des émotions. Il combine les capacités sémantiques des modèles textuels et les capacités d’expression des modèles vocaux pour accomplir des tâches multimodales, et n’a besoin que de quelques exemples pour apprendre de nouvelles tâches. SPIRIT-LM-EXPRESSIVE surpasse la version de base en matière d’expression émotionnelle, ouvrant de nouvelles possibilités pour la compréhension et la génération de langage multimodale.

【Résumé AiBase :】
⚙️ SPIRIT-LM est un modèle linguistique de base multimodale capable de mélanger texte et parole et de comprendre les émotions.
🔑 SPIRIT-LM combine les capacités sémantiques des modèles textuels et les capacités d’expression des modèles vocaux pour accomplir des tâches multimodales.
💡 SPIRIT-LM-EXPRESSIVE surpasse la version de base en matière d’expression émotionnelle, ouvrant de nouvelles possibilités pour la compréhension et la génération de langage multimodale.
Lien détaillé : https://arxiv.org/pdf/2402.05755

8、Emu3, révolutionnant Stable Diffusion ! 智源 lance un modèle révolutionnaire capable de gérer les images, le texte et la vidéo !

L’équipe Emu3 a publié Emu3, une nouvelle suite de modèles multimodaux qui révolutionne l’architecture des modèles de diffusion et des modèles combinés traditionnels, obtenant des performances de pointe dans les tâches de génération et de perception. Ce modèle est entraîné sur la prédiction du jeton suivant, réalisant une unification des tâches multimodales, surpassant les modèles de tâches spécifiques, voire les modèles phares. Le succès d’Emu3 ouvre la voie à l’avenir des modèles multimodaux et offre de nouveaux espoirs pour la réalisation de l’AGI.

【Résumé AiBase :】
🚀 Emu3 est entraîné sur la prédiction du jeton suivant, révolutionnant l’architecture des modèles traditionnels et obtenant des performances de pointe.
💡 Emu3 réalise une unification des tâches multimodales, sans avoir besoin d’architectures de diffusion ou combinées, surpassant les modèles de tâches spécifiques et les modèles phares.
🔗 L’équipe Emu3 a publié en open source les technologies et les modèles clés, soutenant ainsi la recherche dans le domaine de l’intelligence multimodale.
Lien détaillé : https://github.com/baaivision/Emu3

9、Perplexity AI vise une valorisation de 9 milliards de dollars

Perplexity AI a annoncé qu’il espérait porter sa valorisation à 9 milliards de dollars lors d’un nouveau tour de financement, sa valorisation actuelle étant de 3 milliards de dollars. L’entreprise fait face à des accusations de plagiat, mais les réfute catégoriquement. Elle s’efforce d’améliorer ses technologies et ses services dans un contexte de concurrence acharnée sur le marché.

【Résumé AiBase :】
🌟 Perplexity AI prévoit d’augmenter sa valorisation à 9 milliards de dollars, attirant l’attention de nombreux investisseurs.
💰 L’entreprise a réalisé trois tours de financement depuis le début de l’année, connaissant une croissance rapide.
📰 Face à des accusations de plagiat, l’entreprise les réfute catégoriquement et protège ses droits de propriété intellectuelle.

10、L’ancienne CTO d’OpenAI crée une nouvelle entreprise IA, avec un objectif de financement de 100 millions de dollars

Mira Murati est en train de lever plus de 100 millions de dollars d’investissements à risque pour créer une nouvelle start-up dans le domaine de l’IA. Elle a quitté OpenAI pour se consacrer à des projets personnels, tandis qu’OpenAI a levé 6,6 milliards de dollars d’investissements à risque après son départ, un record. Nous attendons avec impatience le développement futur de la nouvelle entreprise de Murati.

【Résumé AiBase :】
✨ Mira Murati est en train de lever plus de 100 millions de dollars d’investissements à risque pour créer une nouvelle entreprise IA.
🚀 Murati a quitté OpenAI pour se consacrer à des projets personnels, sans dévoiler de détails.
📈 OpenAI a levé 6,6 milliards de dollars d’investissements à risque après le départ de Murati, un record.

11、Le développement de l’IA d’Apple accuse un retard de deux ans, et prévoit d’intégrer Apple Intelligence sur tous ses appareils dans les deux prochaines années

Lors de la conférence WWDC de cette année, Apple a présenté de nouvelles fonctionnalités IA, mais les analystes estiment qu’Apple a un retard d’environ deux ans sur ses concurrents en matière de développement de technologies IA. Apple prévoit de lancer la fonctionnalité « Apple Intelligence » sur tous ses appareils dotés d’un écran dans les deux prochaines années. Malgré un départ tardif, Apple est confiante de pouvoir rattraper son retard.

【Résumé AiBase :】
📅 Apple accuse un retard d’environ deux ans sur ses concurrents en matière de développement de l’IA, et s’efforce de rattraper son retard.
💡 Apple prévoit de lancer la fonctionnalité « Apple Intelligence » sur tous ses appareils dotés d’un écran dans les deux prochaines années.
📱 Les nouveaux iPad et les prochains iPhone seront équipés du matériel compatible avec « Apple Intelligence ».

12、Pékin enregistre 12 nouveaux services d’IA générative, portant le total à 94

Pékin a récemment enregistré 12 nouveaux services d’intelligence artificielle générative, portant le nombre total de services enregistrés à 94, offrant ainsi aux utilisateurs plus de choix et de commodité. Les applications IA déjà lancées doivent publier leurs informations d’enregistrement, notamment le nom du modèle et le numéro d’enregistrement. Parmi les nouveaux services enregistrés figurent Kuaishou Technology’s Keling AI et Kunlun Wanwei Technology’s Tiangong Image.

【Résumé AiBase :】

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

Bulletin IA : Alibaba open-source le modèle de document DocOwl 1.5 ; Nouvelles fonctionnalités de l'éditeur d'images Midjourney disponibles la semaine prochaine ; Viggle IA lance une fonctionnalité de synchronisation labiale

站长之家

Cet article provient d'AIbase Daily