Bienvenue sur la rubrique 【AI日报】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités phares du domaine de l'IA, en mettant l'accent sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits IA.

Nouveaux produits IA Cliquez ici pour en savoir plus :https://top.aibase.com/

1、OpenAI annonce une mise à jour de la recherche ChatGPT : prise en charge des cartes, de la voix avancée, etc.

Lors de sa dernière diffusion en direct, OpenAI a annoncé d'importantes mises à jour techniques de la plateforme ChatGPT, notamment la recherche en temps réel et un mode d'interaction vocale avancé, améliorant considérablement l'expérience utilisateur. Grâce à un algorithme de recherche optimisé, les utilisateurs peuvent accéder rapidement aux informations en temps réel et consulter directement les liens sources, améliorant ainsi la facilité d'accès à l'information. De plus, les nouvelles fonctions de lecture vidéo et d'intégration de cartes offrent aux utilisateurs une expérience de recherche plus intuitive et améliorent l'efficacité de la recherche sur mobile.

微信截图_20241217081801.png

【Résumé AiBase :】

📈 La version mise à jour de ChatGPT intègre une fonction de recherche en temps réel et un algorithme de recherche optimisé permettant aux utilisateurs d'accéder rapidement aux informations en temps réel, telles que les actions et les actualités.

🗣️ Le nouveau mode d'interaction vocale avancé permet aux utilisateurs d'effectuer des recherches à plusieurs tours de parole par la voix, offrant une expérience d'assistant vocal personnalisée.

🗺️ ChatGPT prend désormais en charge l'intégration de cartes, permettant aux utilisateurs de consulter directement les informations de localisation géographique, de planifier des itinéraires et d'explorer des lieux.

2、Google améliore son modèle de génération de vidéos IA Veo2 : résolution 4K, score de préférence humaine supérieur à Sora

Google a récemment publié Veo2, sa nouvelle génération de modèle de génération de vidéos, visant à concurrencer Sora d'OpenAI. Veo2 offre un réalisme et une finesse accrus dans la génération de vidéos. Les utilisateurs peuvent demander à utiliser Veo2 via la plateforme VideoFX de Google Labs. Google a également mis à jour son modèle de génération d'images Imagen3, améliorant encore le réalisme et la qualité des couleurs des images générées.

image.png

【Résumé AiBase :】

🎥 Le modèle de génération de vidéos Veo2 surpasse Sora d'OpenAI en termes de qualité. Les utilisateurs peuvent en faire la demande.

🚀 Les utilisateurs peuvent choisir le style et les effets vidéo et générer des vidéos jusqu'à une résolution 4K.

🎨 Le modèle de génération d'images Imagen3 mis à jour offre un meilleur style artistique et une meilleure expérience utilisateur.

Lien détaillé :https://labs.google/fx/tools/video-fx

3、Midjourney lance des modèles personnalisés et des mood boards : possibilité de télécharger des images pour entraîner les modèles

Le 16 décembre 2024, Midjourney a lancé la fonction très attendue de « mood board », permettant aux utilisateurs de télécharger des ensembles d'images inspirantes pour générer de nouvelles œuvres d'art. Couplé au dernier modèle d'IA, cela permet aux utilisateurs de créer plus facilement des profils personnalisés, simplifiant le processus de création de modèles et abaissant le seuil d'entrée pour les nouveaux utilisateurs. De plus, les fonctions d'organisation améliorées permettent aux utilisateurs de mieux gérer plusieurs projets.

image.png

【Résumé AiBase :】

🌟 Midjourney lance la fonction mood board, permettant aux utilisateurs de télécharger des ensembles d'images inspirantes.

🚀 La création de profils personnalisés est simplifiée : il suffit de 40 notes pour commencer.

🛠️ Les fonctions d'organisation sont améliorées : les utilisateurs peuvent nommer les profils et suivre les images associées.

Lien détaillé :https://www.midjourney.com/personalize

4、Google lance un nouvel outil IA Whisk : pas besoin d'invite, mélange de plusieurs images pour générer des images de nouveaux styles

Le nouvel outil IA Whisk de Google révolutionne la manière traditionnelle de générer des images en permettant aux utilisateurs de générer de nouvelles images en téléchargeant plusieurs images, sans avoir recours à de longues descriptions textuelles. Whisk est conçu pour permettre une exploration visuelle rapide. Les utilisateurs peuvent facilement fusionner des images de styles et de thèmes différents pour créer des œuvres visuelles uniques. Bien que le processus de génération d'images puisse prendre quelques secondes et que les résultats soient parfois un peu étranges, l'expérience globale est très amusante.

image.png

【Résumé AiBase :】

🎨 Whisk permet aux utilisateurs de générer des images de nouveaux styles à partir de plusieurs images, révolutionnant la méthode traditionnelle d'invite textuelle.

✨ Les utilisateurs peuvent télécharger des images de thèmes différents, qui sont automatiquement fusionnées pour créer des effets visuels intéressants.

🚀 Google a également publié les modèles Imagen3 et Veo2, améliorant encore les capacités de génération d'images et de vidéos.

Lien détaillé :https://top.aibase.com/tool/whisk

5、Nouvelle fonction YouTube : les créateurs peuvent autoriser les tiers à utiliser leurs vidéos pour entraîner l'IA

YouTube a récemment lancé une nouvelle fonction permettant aux créateurs de choisir d'autoriser ou non les sociétés tierces à utiliser leurs vidéos pour entraîner des modèles d'intelligence artificielle. Cette fonction est désactivée par défaut. Les créateurs qui ne souhaitent pas que des tiers utilisent leurs vidéos n'ont rien à faire.

【Résumé AiBase :】

🔒 La fonction est désactivée par défaut. Les créateurs doivent activement choisir d'autoriser les tiers à utiliser leurs vidéos pour l'entraînement de l'IA.

🤝 Les sociétés tierces autorisées comprennent des entreprises d'IA de renom, telles qu'OpenAI, Apple et Microsoft.

📈 Cette fonction vise à aider les créateurs à créer de nouvelles valeurs pour leur contenu à l'ère de l'IA.

6、TuSimple lance le modèle de génération de vidéos à partir d'images « Ruyi » et publie en open source Ruyi-Mini-7B

Le 17 décembre 2024, TuSimple (Beijing) Future Technology Co., Ltd. a lancé son premier grand modèle de « génération de vidéos à partir d'images » « Ruyi » et a publié en open source la version Ruyi-Mini-7B, disponible au téléchargement sur la plateforme Hugging Face. Ce modèle est conçu pour les cartes graphiques grand public et possède de nombreuses capacités de génération, notamment dans les domaines de l'animation et des jeux vidéo, où il présente un fort potentiel de narration visuelle. Malgré les progrès technologiques, certains défauts doivent encore être corrigés.

微信截图_20241217140324.png

【Résumé AiBase :】

🚀 Le grand modèle Ruyi est conçu pour les cartes graphiques grand public, prend en charge la génération de vidéos à plusieurs résolutions et durées, et peut traiter des résolutions de 384×384 à 1024×1024.

🎨 Le modèle excelle en termes de cohérence inter-images, de fluidité des mouvements et de rendu des couleurs, ce qui en fait le partenaire créatif idéal pour les amateurs d'ACG.

🔧 Malgré les progrès technologiques, Ruyi présente encore quelques défauts, tels que des déformations des mains et des détails faciaux flous. TuSimple s'efforce d'améliorer ces points.

Lien détaillé :https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

7、Zhipu AI boucle un financement de 3 milliards de yuans pour faire progresser la recherche et la commercialisation des grands modèles

Zhipu a récemment bouclé un nouveau tour de financement de 3 milliards de yuans, attirant de nombreux investisseurs stratégiques et institutions publiques. Ces fonds serviront à améliorer le grand modèle de base Zhipu, afin d'améliorer encore ses capacités de raisonnement complexe et de résolution de tâches multimodales. Malgré la concurrence sur le marché et le ralentissement des progrès technologiques, Zhipu reste un leader de l'industrie de l'IA et exerce une influence significative à l'échelle mondiale. 【Résumé AiBase :】

🚀 Zhipu a bouclé un financement de 3 milliards de yuans, qui seront utilisés pour la recherche et la mise à niveau du grand modèle de base, afin de stimuler l'innovation du secteur.

📈 Cette année, Zhipu a connu une croissance inverse sur le marché B, avec une augmentation de plus de 30 fois des revenus des API et une augmentation de 20 fois du nombre de clients payants.

🌍 Le produit grand public de Zhipu, « Zhipu Qingyan », attire plus de 25 millions d'utilisateurs, et les fonctions payantes devraient générer des revenus de plusieurs dizaines de millions.

8、Meta lance le modèle d'essayage virtuel IA open source Leffa : préservation de plus de détails

Meta a récemment lancé Leffa, un framework d'essayage virtuel IA open source visant à améliorer l'expérience d'essayage des utilisateurs grâce à la génération de nouvelles images. Les utilisateurs n'ont qu'à télécharger une image de référence, et le système peut générer de nouveaux effets de style, réduisant ainsi les retours et les échanges dus à un mauvais ajustement. Leffa excelle dans la préservation des détails et la réduction des distorsions d'image, offrant une expérience d'essayage plus naturelle.

image.png

【Résumé AiBase :】

🌟 Leffa est un framework d'essayage virtuel open source lancé par Meta, capable de générer de nouvelles images à partir d'images de référence.

👗 Ce framework réduit efficacement les distorsions d'image, préserve davantage de détails et améliore l'expérience d'essayage virtuel.

💻 Les utilisateurs peuvent essayer Leffa sur la plateforme Hugging Face, et Meta fournit le code source complet du projet.

Lien détaillé :https://github.com/franciszzj/Leffa

9、Diffusion-Vas : suivi des cibles vidéo, possibilité de compléter les parties occultées

Dans le domaine de l'analyse vidéo, la persistance des objets est un indice important pour comprendre l'existence des objets. La méthode Diffusion-Vas, proposée par les chercheurs, s'appuie sur une approche a priori de diffusion pour améliorer l'effet de segmentation et de complétion de contenu vidéo sans mode. Cette méthode se déroule en deux étapes : la génération d'un masque sans mode, puis l'utilisation d'un modèle de génération conditionnelle pour compléter les zones occultées. Après plusieurs tests de référence, cette méthode a montré d'excellents résultats dans des scénarios complexes, avec une amélioration de la précision de 13 %.

image.png

【Résumé AiBase :】

🌟 Une nouvelle méthode est proposée, utilisant une approche a priori de diffusion pour réaliser la segmentation et la complétion de contenu vidéo sans mode.

🖼️ La méthode se déroule en deux étapes : génération d'un masque sans mode, puis complétion des zones occultées.

📊 Lors de plusieurs tests de référence, cette méthode a considérablement amélioré la précision de la segmentation sans mode, notamment dans les scénarios complexes.

Lien détaillé :https://diffusion-vas.github.io/

10、Mise à jour des lunettes intelligentes Ray-Ban Meta de Meta : fonctions de vidéo et de traduction IA en temps réel

Meta a apporté d'importantes mises à jour à ses lunettes intelligentes Ray-Ban Meta, en lançant plusieurs nouvelles fonctions basées sur l'intelligence artificielle, notamment la conversation en temps réel et la traduction linguistique. Ces fonctions permettent aux utilisateurs de communiquer plus naturellement avec l'assistant IA, sans avoir à l'activer fréquemment, et prennent également en charge la traduction instantanée de plusieurs langues, améliorant considérablement la commodité de communication des utilisateurs. De plus, les lunettes intègrent désormais la fonction Shazam, permettant aux utilisateurs d'identifier la musique par reconnaissance vocale.

image.png

【Résumé AiBase :】

🌟 Les lunettes intelligentes Ray-Ban Meta intègrent des fonctions de vidéo et de traduction IA en temps réel, permettant aux utilisateurs de converser à tout moment avec l'assistant IA.

🌍 La nouvelle fonction de traduction en temps réel prend en charge la traduction instantanée entre plusieurs langues, améliorant ainsi la commodité de communication des utilisateurs.

🎵 Les lunettes prennent également en charge la fonction Shazam, permettant aux utilisateurs d'identifier la musique en cours de lecture par reconnaissance vocale.

11、Le PDG de Broadcom prévoit une forte croissance du marché de l'IA : la capitalisation boursière de l'entreprise dépasse les 1 000 milliards de dollars

Lors de la récente conférence téléphonique sur les résultats, Hock Tan, PDG de Broadcom, s'est montré optimiste quant au marché des puces IA, prévoyant une croissance significative des revenus de Broadcom dans ce domaine d'ici 2027, avec un marché adressable estimé entre 60 et 90 milliards de dollars. La capitalisation boursière de l'entreprise a dépassé pour la première fois les 1 000 milliards de dollars en raison de la forte demande de puces IA.

【Résumé AiBase :】

🌟 Broadcom prévoit que le marché adressable de l'IA atteindra 60 à 90 milliards de dollars d'ici 2027.

📈 La capitalisation boursière de Broadcom a dépassé pour la première fois les 1 000 milliards de dollars en raison de la forte demande de puces IA.

💰 Grâce à l'acquisition de VMware, le chiffre d'affaires global de Broadcom a augmenté de 51 %, et les coûts d'exploitation ont considérablement diminué.

12、Kingsoft Office : WPS AI débloquera gratuitement quatre fonctions de génération de PPT IA, etc.

Kingsoft Office a annoncé que WPS AI offrira gratuitement quatre fonctions aux utilisateurs pendant la période de fin d'année, afin d'améliorer l'efficacité et la créativité au travail. Les utilisateurs peuvent utiliser les fonctions de génération de PPT IA, de clonage de style, de filtres, etc., pour créer rapidement des présentations professionnelles de fin d'année. De plus, WPS propose une variété de modèles de PPT pour répondre aux besoins des différents utilisateurs.