Bulletin IA : Intégration complète de DeepSeek-R1 dans Kuaishou KeLing AI ; Baidu lance les grands modèles Wenxin 4.5 et X1 ; l'équipe de grands modèles de Xiaomi arrive en tête du classement MMAU d'inférence audio

Bienvenue à la rubrique 【AI日报】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l'IA, en mettant l'accent sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits d'IA.

Nouveaux produits IA Cliquez pour en savoir plus : https://top.aibase.com/

1. Intégration complète de DeepSeek-R1 dans Kuaishou Keling AI, version Inspiration de DeepSeek lancée

Keling AI, filiale de Kuaishou, a récemment intégré DeepSeek-R1, offrant aux utilisateurs une commodité significative pour la génération de vidéos et d'images. Grâce à DeepSeek-R1, les utilisateurs peuvent facilement transformer leur inspiration en invites professionnelles, réduisant ainsi le seuil de création et améliorant l'efficacité. De plus, la version Inspiration de DeepSeek fonctionne en synergie avec la fonction de banque de mots clés inspirants de Keling AI, aidant les utilisateurs à mieux maîtriser les détails des vidéos, permettant même aux utilisateurs ordinaires de créer du contenu de haute qualité. Ces innovations permettent à Keling AI de maintenir sa position de leader sur le marché.

【Résumé AiBase :】
🌟 L'intégration complète de DeepSeek-R1 dans Kuaishou Keling AI aide les utilisateurs à transformer leur inspiration en invites professionnelles.
🔥 Keling AI continue de s'améliorer, et l'intégration de DeepSeek-R1 réduit encore le seuil de création.
🎬 La version Inspiration de DeepSeek et la « banque de mots clés inspirants » fonctionnent ensemble pour améliorer la maîtrise des détails vidéo par les utilisateurs.

2. Baidu lance les grands modèles Wenxin 4.5 et X1, une baisse significative des prix attire l'attention

Les derniers grands modèles linguistiques Wenxin 4.5 et X1 de Baidu marquent des progrès importants dans la compréhension multimodale et le raisonnement logique. Wenxin 4.5, avec son avantage de prix significatif et ses performances exceptionnelles, surpasse GPT-4.5, attirant l'attention de nombreux développeurs. Quant à X1, il se concentre sur les questions-réponses basées sur les connaissances chinoises et la création littéraire, possédant de puissantes capacités de raisonnement et des fonctionnalités multimodales.

【Résumé AiBase :】
💡 Wenxin 4.5 est le premier grand modèle multimodale natif de Baidu, surpassant GPT-4.5 en performances, avec un prix d'appel API représentant seulement 1 % de celui de son concurrent.
🧠 Le grand modèle linguistique Wenxin X1 se concentre sur les questions-réponses basées sur les connaissances chinoises et le raisonnement logique, possédant une longue chaîne de pensée et des capacités multimodales, capable de comprendre et de générer des images.
💰 Les prix d'entrée et de sortie de Wenxin 4.5 et X1 sont très compétitifs, marquant une forte présence de Baidu dans le domaine des grands modèles linguistiques.

3. L'équipe de grands modèles de Xiaomi arrive en tête du classement MMAU pour le raisonnement audio, inspirée par DeepSeek-R1

L'équipe de grands modèles de Xiaomi a réalisé des progrès significatifs dans le domaine du raisonnement audio, utilisant des algorithmes d'apprentissage par renforcement pour améliorer la précision du modèle à 64,5 %, se classant parmi les meilleurs du classement MMAU, un benchmark international de référence. L'étude de l'équipe montre que le mécanisme de rétroaction en temps réel de l'apprentissage par renforcement est plus efficace dans l'entraînement du modèle. Les technologies associées ont été rendues open source, stimulant ainsi la recherche dans les milieux académiques et industriels.

【Résumé AiBase :】
🔍 L'équipe de grands modèles de Xiaomi a fait une percée dans le domaine du raisonnement audio grâce à des algorithmes d'apprentissage par renforcement, atteignant une précision de 64,5 %.
📈 Le jeu de données d'évaluation MMAU est une norme importante pour les capacités de raisonnement audio. La précision actuelle des experts humains est de 82,23 %.
💡 Les résultats de la recherche montrent que le mécanisme de rétroaction en temps réel de l'apprentissage par renforcement est plus efficace pour l'entraînement du modèle. Des recherches plus approfondies sont nécessaires.
Lien détaillé : https://github.com/xiaomi-research/r1-aqa

4. DingTalk lance un assistant de service client IA, intégrable automatiquement aux sites Web et comptes officiels des entreprises

DingTalk a lancé le 17 mars 2025 son assistant de service client IA, visant à améliorer l'efficacité du service client des entreprises. Cette fonctionnalité peut s'intégrer automatiquement au site Web et au compte officiel de l'entreprise, prendre en charge les conversations à plusieurs tours, comprendre précisément les besoins des utilisateurs et fournir des réponses professionnelles. Depuis son lancement, plus de 700 entreprises l'ont adopté. Il offre un service en ligne 7j/7 et 24h/24, une réponse rapide et un déploiement multiplateforme, facilitant grandement la communication entre les entreprises et les utilisateurs.

【Résumé AiBase :】
💡 L'assistant de service client IA peut s'intégrer automatiquement aux sites Web et aux comptes officiels, améliorant les capacités de service des entreprises.
🛠️ En seulement trois étapes de configuration, les entreprises peuvent rapidement mettre en ligne l'assistant IA, simplifiant la création de systèmes de connaissances.
🌐 Il prend en charge le déploiement multiplateforme, permettant aux entreprises de fournir des services aux utilisateurs via plusieurs canaux.

5. Technologie de conversion d'effets d'image LBM : suppression en un clic des passants et réglage de l'éclairage

LBM (appariement de ponts latents) est un outil de traitement d'image développé par l'équipe gojasper, capable de réaliser efficacement la conversion d'effets d'image. Il possède non seulement de puissantes capacités de suppression d'objets, permettant aux utilisateurs de supprimer facilement les éléments inutiles des photos, mais il permet également de régler la lumière de manière flexible pour créer l'ambiance souhaitée. Le concept innovant de LBM réside dans l'opération de l'espace latent, rendant l'édition d'images plus simple et plus efficace, adaptée aux amateurs de photographie et aux professionnels.

【Résumé AiBase :】
🖌️ LBM possède de puissantes capacités de suppression d'objets, les utilisateurs peuvent supprimer les éléments gênants des photos en un simple clic, simplifiant le processus d'édition d'images.
☀️ Cet outil prend en charge le réglage de l'éclairage, les utilisateurs peuvent créer un effet ensoleillé sur des photos prises par temps nuageux, améliorant l'attrait visuel des photos.
🔧 LBM excelle dans diverses tâches de conversion d'images telles que l'estimation des normales et de la profondeur, démontrant son potentiel d'application et son extensibilité.
Lien détaillé : https://top.aibase.com/tool/lbm

6. Anthropic va lancer la fonctionnalité Harmony : intégration transparente des assistants IA aux fichiers locaux

Anthropic développe une nouvelle fonctionnalité appelée Harmony, visant à intégrer les répertoires de fichiers locaux à l'environnement de travail de Claude. Cette innovation permettra aux utilisateurs d'interagir plus facilement avec les fichiers, l'assistant IA pouvant directement lire, indexer et analyser le contenu des répertoires. Harmony prend non seulement en charge l'analyse et la modification des fichiers, mais propose également une fonction de recherche par mots clés, démontrant le fort potentiel d'assistant de codage IA.

【Résumé AiBase :】
✅ La fonctionnalité Harmony permettra aux utilisateurs d'accéder de manière transparente aux fichiers locaux, améliorant les capacités d'interaction de l'IA.
🔍 Claude a réussi à identifier plusieurs failles de sécurité dans les codes lors des tests, démontrant ses puissantes capacités d'analyse.
🧭 Anthropic développe également la fonctionnalité Compass, qui pourrait prendre en charge la recherche approfondie et l'intégration d'informations.

7. Modèle de sur-résolution d'images open source Thera : améliore la netteté des images, rendant le flou obsolète

Thera est un modèle de sur-résolution open source développé par l'École polytechnique fédérale de Zurich et l'Université de Zurich, capable d'améliorer la netteté des images à n'importe quel facteur d'agrandissement. Il permet non seulement de redonner vie aux photos floues, mais aussi, grâce à un modèle d'observation physique intégré, de réduire les distorsions d'image et de présenter des détails plus naturels.

【Résumé AiBase :】
✨ Thera prend en charge le sur-échantillonnage à n'importe quelle échelle, les utilisateurs peuvent personnaliser le facteur d'agrandissement pour répondre à divers besoins.
🔍 Un modèle d'observation physique intégré simule le processus de formation d'images réelles, réduisant les distorsions et présentant des détails plus réalistes.
🌍 En tant que projet open source, Thera est fourni sous licence Apache-2.0, favorisant le partage et le développement technologiques. Un modèle pré-entraîné est fourni pour faciliter son utilisation par les utilisateurs.
Lien détaillé : https://top.aibase.com/tool/thera

8. La fonctionnalité de suppression de filigrane des images de Google Gemini 2.0 Flash suscite des inquiétudes quant aux droits d'auteur

Le nouveau modèle Gemini 2.0 Flash de Google a suscité une controverse concernant la suppression des filigranes des images, notamment celles provenant de bibliothèques d'images renommées telles que Getty Images. Bien que le modèle soit performant en matière de génération et d'édition d'images, l'absence de restrictions d'utilisation soulève des inquiétudes quant aux droits d'auteur. Les fonctionnalités de Gemini 2.0 Flash semblent plus puissantes, mais en vertu du droit d'auteur américain, la suppression de filigranes sans autorisation peut toujours être considérée comme illégale.

【Résumé AiBase :】
🚫 Gemini 2.0 Flash peut supprimer les filigranes des images, une fonctionnalité puissante mais qui suscite des controverses sur les droits d'auteur.
💬 D'autres modèles d'IA tels que Claude 3.7 Sonnet et GPT-4o refusent de supprimer les filigranes, considérant cette action comme immorale et potentiellement illégale.
⚖️ En vertu du droit d'auteur américain, la suppression de filigranes sans le consentement du propriétaire est généralement considérée comme illégale. Google n'a pas répondu aux questions soulevées.

9. Cohere publie le modèle IA Command A, fonctionnant efficacement avec deux GPU, réduisant de 50 % les coûts de déploiement pour les entreprises

Le modèle Command A de Cohere, avec ses faibles besoins matériels (seulement deux GPU) et ses économies de coûts pouvant atteindre 50 %, révolutionne les modèles d'IA haute performance. Sa conception à 1110 milliards de paramètres, combinée à une architecture Transformer optimisée, permet aux entreprises de bénéficier d'une fenêtre contextuelle très longue et d'une prise en charge multilingue lors du traitement de tâches complexes.

【Résumé AiBase :】
💻 Le modèle Command A fonctionne efficacement avec seulement deux GPU, réduisant considérablement les besoins matériels des entreprises.
🌍 Il prend en charge jusqu'à 23 langues et dialectes régionaux, aidant les entreprises à étendre leurs marchés à l'échelle mondiale.
💰 Les coûts de déploiement privé sont réduits jusqu'à 50 %, offrant aux entreprises des avantages financiers significatifs.
Lien détaillé : https://huggingface.co/CohereForAI/c4ai-command-a-03-2025

10. Premier framework de développement d'agents nationaux ! Cangjie Community publie Cangjie Magic, compatible nativement avec toutes les plateformes, y compris Harmony !

Cangjie Magic est un framework de développement d'agents innovant, basé sur le langage de programmation Cangjie développé par Huawei, visant à repenser la manière dont les agents sont développés. Ce framework, grâce à son architecture unique Agent DSL, à la prise en charge native du protocole de communication MCP et à son moteur d'ordonnancement intelligent, offre une gestion complète du cycle de vie des agents.

【Résumé AiBase :】
🛠️ L'architecture Agent DSL unique permet une programmation déclarative de la modélisation des agents, améliorant l'efficacité du développement.
🌐 Prise en charge native du protocole de communication MCP, garantissant une communication et une collaboration efficaces entre les agents.
📱 Le support des appels d'agents sur Android et iOS est prévu pour le troisième trimestre, étendant les scénarios d'application aux appareils mobiles.
Lien détaillé : https://gitcode.com/Cangjie-TPC/CangjieMagic

11. Prédiction d'un dirigeant d'OpenAI : l'IA dépassera les programmeurs humains d'ici fin 2025

Actualités IA

IA Quotidien

Chronologie de l'IA

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

Bulletin IA : Intégration complète de DeepSeek-R1 dans Kuaishou KeLing AI ; Baidu lance les grands modèles Wenxin 4.5 et X1 ; l'équipe de grands modèles de Xiaomi arrive en tête du classement MMAU d'inférence audio

站长之家

Cet article provient d'AIbase Daily