Page de recherche d'actualités et de produits IA

Type :

Actualités
Applications de produits
Études de monétisation
Tutoriels IA

2025-03-10 16:04:04.AIbase

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Récemment, la communauté Modelers a officiellement lancé Step-Video et Step-Audio, deux grands modèles multimodaux open source développés par Step-Video. Ces deux modèles sont respectivement utilisés pour la génération de vidéo et l'interaction vocale, visant à fournir aux développeurs et aux entreprises des outils IA plus performants. Step-Video, dont le nom complet est Step-Video-T2V, est un modèle de génération de vidéo open source parmi les plus grands au monde, avec un nombre de paramètres atteignant 30 milliards. Ce modèle est capable de générer directement des vidéos de 20...

2025-03-09 11:04:41.AIbase

Percée dans les avatars numériques IA ! Hedra lance Character-3 et Hedra Studio : inférence conjointe d'images, de texte et d'audio

Hedra révolutionne le domaine des avatars numériques IA avec le lancement de Character-3, un nouveau modèle capable d'inférence conjointe sur des données images, texte et audio, et de Hedra Studio, une plateforme innovante pour créer et interagir avec ces avatars.

2025-03-07 11:08:17.AIbase

Lancement d'un site Web indépendant pour Tongyi Wanxiang, le modèle vidéo IA d'Alibaba

Alibaba a lancé un site Web indépendant pour son modèle vidéo IA, Tongyi Wanxiang, offrant ainsi un accès plus facile à cette technologie de pointe.

2025-03-06 14:54:02.AIbase

Cohere lance Aya Vision, un nouveau modèle d'IA multimodale, en versions 32B et 8B

Cohere a dévoilé Aya Vision, son nouveau modèle d'IA multimodale puissant, disponible en deux versions : 32 milliards et 8 milliards de paramètres. Ce modèle offre des capacités avancées de traitement d'images et de texte.

2025-03-06 14:46:43.AIbase

Percée dans la recherche multimodale ! Modèle de vecteur multimodal BGE-VL open source par l'Institut de recherche sur l'IA de Beijing

Le 6 mars, l’Institut de recherche sur l’intelligence artificielle de Beijing a annoncé la publication en open source du modèle de vecteur multimodal BGE-VL. Cette réalisation marque une percée majeure dans le domaine de la recherche multimodale. Le modèle BGE-VL a obtenu les meilleurs résultats dans les tâches de recherche multimodale telles que la recherche d’images et de texte et la recherche d’images combinées, améliorant considérablement les performances de la recherche multimodale.

2025-03-04 09:41:14.AIbase

Huake Byte lance Liquid : Redéfinir la génération et la compréhension des modèles multimodaux

2025-02-28 14:00:59.AIbase

Le modèle linguistique de grande taille Wenxin 4.5 de Baidu sera lancé le 16 mars, doté de capacités multimodales natives et de réflexion approfondie

Baidu a annoncé que son dernier modèle linguistique de grande taille Wenxin 4.5 sera officiellement lancé le 16 mars. Il est entendu que le modèle linguistique de grande taille Wenxin est un élément important du déploiement de Baidu dans le domaine de l'intelligence artificielle. Depuis son lancement initial il y a deux ans, il a eu un impact profond à l'échelle mondiale.

2025-02-28 09:25:57.AIbase

Les robots Figure accélèrent leur entrée sur le marché domestique : tests Alpha prévus pour 2025, repoussant les limites du secteur

2025-02-27 15:56:53.AIbase

Wenxin 4.5 de Baidu devrait sortir mi-mars, améliorant l'inférence et les capacités multimodales

Baidu prépare activement le lancement de son modèle d'intelligence artificielle nouvelle génération, prévu pour mi-mars avec la sortie officielle de la version 4.5 de Wenxin. Selon des sources internes, cette nouvelle version apportera des améliorations significatives dans plusieurs domaines clés, notamment l'inférence, marquant une avancée majeure dans la technologie de l'IA chez Baidu.

2025-02-27 09:38:31.AIbase

Microsoft lance Phi-4, un modèle multimodal et miniature améliorant le traitement de la voix, de la vision et du texte

2025-02-26 11:11:32.AIbase

Magma : L'agent IA multimodale open source de Microsoft révolutionne le shopping et la robotique

Microsoft a publié Magma, un agent IA multimodale open source qui promet de transformer l'expérience utilisateur dans le domaine du shopping et de la robotique. Il offre de nouvelles possibilités d'interaction et d'automatisation.

2025-02-26 09:13:48.AIbase

Microsoft open-source un nouvel agent IA multi-modal « Magma » : passation de commandes automatique et prédiction comportementale

Microsoft a récemment publié en open-source sur son site officiel un nouveau modèle d'agent IA multi-modal appelé « Magma ». Ce nouvel agent d'intelligence artificielle possède des capacités qui transcendent les mondes numérique et physique, capable de traiter simultanément plusieurs types de données, telles que des images, des vidéos et du texte. Contrairement aux assistants IA traditionnels, Magma se distingue par sa fonction de prédiction comportementale, lui permettant de comprendre plus précisément les intentions et les comportements futurs des personnes ou des objets dans une vidéo. Les applications de Magma sont vastes ; les utilisateurs peuvent exploiter cette IA pour…

2025-02-25 11:15:31.AIbase

Família de Guaxinins da SenseTime totalmente atualizada: Fusão multimodal, replicação de páginas da web em 10 segundos

Em 25 de fevereiro, na Conferência Global de Desenvolvedores de 2025 da SenseTime, a SenseTime anunciou uma atualização completa de sua ferramenta de produtividade de IA, a família de guaxinins da SenseTime. Essa atualização reforça ainda mais suas capacidades multimodais, acelerando a implementação de aplicativos de IA e evoluindo para um agente de IA. Esta atualização não apenas melhora o desempenho da ferramenta, mas também retorna a IA à sua missão mais básica: ser uma ferramenta de produtividade poderosa.

2025-02-24 16:35:32.AIbase

Tencent Yuanbao dépasse Doubao pour atteindre la deuxième place du classement des applications gratuites d'Apple en Chine, DeepSeek restant en tête

2025-02-21 17:23:48.AIbase

Ovis2 : Six versions du modèle linguistique multimodal open source d'Alibaba International

Ovis2 est la dernière version de la série de modèles Ovis, développée par l'équipe internationale d'Alibaba. Par rapport à la version précédente 1.6, Ovis2 présente des améliorations significatives dans la construction des données et les méthodes d'entraînement. Il renforce non seulement la densité des capacités des modèles à petite échelle, mais améliore également considérablement les capacités de raisonnement par chaîne de pensée (CoT) grâce à l'ajustement des instructions et à l'apprentissage des préférences. De plus, Ovis2 intègre des capacités de traitement vidéo et multi-images, et améliore les capacités multilingues et la reconnaissance optique de caractères (OCR) dans des scénarios complexes, améliorant ainsi considérablement l'utilité du modèle.

2025-02-21 10:31:23.AIbase

Le moteur Tencent Yuanbao intègre les modèles « HunYuan + DeepSeek » pour lancer une compétence de « compréhension d'image »

Selon les informations disponibles, l'amélioration principale de Tencent Yuanbao réside dans l'application de la technologie d'intégration bimodale « HunYuan + DeepSeek ». Auparavant, DeepSeek jouait principalement le rôle d'extraction d'informations, comparable à un « scanner ». Grâce à la technologie multimodale HunYuan de Tencent, DeepSeek est désormais capable de comprendre véritablement les détails, l'atmosphère et même les significations cachées d'une image. Cette évolution permet à Tencent Yuanbao de « comprendre » les images et de fournir ses propres analyses et interprétations.

2025-02-20 16:44:24.AIbase

VLM-R1 : Une nouvelle ère pour les modèles linguistiques visuels - Une percée majeure pour l'IA multimodale

Le lancement récent du projet VLM-R1 a apporté un nouvel espoir dans ce domaine. Ce projet représente le transfert réussi de la méthode R1 de l'équipe DeepSeek aux modèles linguistiques visuels, marquant une nouvelle étape dans la compréhension du contenu visuel par l'IA. L'inspiration de VLM-R1 provient de la méthode R1, open-source par DeepSeek l'année dernière, qui utilise l'optimisation du traitement de récompense générative (GRPO).

2025-02-20 09:30:11.AIbase

Magma : Microsoft présente un modèle d'IA multimodale intégrant la vision, le langage et les capacités de prise de décision

L'équipe de recherche Microsoft, en collaboration avec des chercheurs de plusieurs universités, a récemment publié un modèle d'IA multimodale appelé "Magma". Ce modèle est conçu pour traiter et intégrer plusieurs types de données, telles que les images, le texte et la vidéo, afin d'exécuter des tâches complexes dans des environnements numériques et physiques. Avec les progrès technologiques, les agents d'IA multimodale sont de plus en plus utilisés dans des domaines tels que la robotique, les assistants virtuels et l'automatisation des interfaces utilisateur. Les systèmes d'IA précédents se concentraient généralement sur la compréhension vision-langage ou la manipulation robotique, ayant du mal à combiner les deux.

2025-02-18 08:55:51.AIbase

Performances optimales ! Modèle de génération vidéo open source Step-Video-T2V de JieYue XingChen

Aujourd'hui, JieYue XingChen et le groupe automobile Geely ont annoncé la publication en open source de deux modèles multimodaux de grande taille de la série Step : le modèle de génération vidéo Step-Video-T2V et le modèle audio Step-Audio. Le modèle de génération vidéo Step-Video-T2V se situe au premier plan mondial en termes de quantité de paramètres et de performances. Ce modèle, doté de 30 milliards de paramètres, peut générer directement des vidéos de haute qualité de 204 images et d'une résolution de 540 p, garantissant une forte densité d'informations et une grande cohérence du contenu généré. Les résultats des évaluations montrent que...

2025-02-13 16:48:41.AIbase

Baidu Wenxin Yiyan devient entièrement gratuit ; plan de remboursement pour les membres publié officiellement

Récemment, Baidu Wenxin Yiyan a officiellement annoncé que ses services seraient entièrement gratuits pour tous les utilisateurs de PC et d'applications à partir du 1er avril 2024 à minuit. Cela signifie que les utilisateurs pourront profiter des fonctionnalités des derniers modèles de la série Wenxin sans aucun frais. Simultanément, Baidu Wenxin Yiyan lance officiellement aujourd'hui une fonction de recherche approfondie. Cette fonction vise à fournir aux utilisateurs des réponses expertes grâce à des capacités de planification et d'utilisation d'outils externes plus puissantes. Elle est capable de gérer des tâches dans de multiples scénarios et permet une entrée et une sortie multimodales.

Recherchez la dynamique mondiale des produits IA

Recherchez des informations sur l'IA mondiale et découvrez de nouvelles opportunités d'IA

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Percée dans les avatars numériques IA ! Hedra lance Character-3 et Hedra Studio : inférence conjointe d'images, de texte et d'audio

Lancement d'un site Web indépendant pour Tongyi Wanxiang, le modèle vidéo IA d'Alibaba

Cohere lance Aya Vision, un nouveau modèle d'IA multimodale, en versions 32B et 8B

Percée dans la recherche multimodale ! Modèle de vecteur multimodal BGE-VL open source par l'Institut de recherche sur l'IA de Beijing

Huake Byte lance Liquid : Redéfinir la génération et la compréhension des modèles multimodaux

Le modèle linguistique de grande taille Wenxin 4.5 de Baidu sera lancé le 16 mars, doté de capacités multimodales natives et de réflexion approfondie

Les robots Figure accélèrent leur entrée sur le marché domestique : tests Alpha prévus pour 2025, repoussant les limites du secteur

Wenxin 4.5 de Baidu devrait sortir mi-mars, améliorant l'inférence et les capacités multimodales

Microsoft lance Phi-4, un modèle multimodal et miniature améliorant le traitement de la voix, de la vision et du texte

Magma : L'agent IA multimodale open source de Microsoft révolutionne le shopping et la robotique

Microsoft open-source un nouvel agent IA multi-modal « Magma » : passation de commandes automatique et prédiction comportementale

Família de Guaxinins da SenseTime totalmente atualizada: Fusão multimodal, replicação de páginas da web em 10 segundos

Tencent Yuanbao dépasse Doubao pour atteindre la deuxième place du classement des applications gratuites d'Apple en Chine, DeepSeek restant en tête

Ovis2 : Six versions du modèle linguistique multimodal open source d'Alibaba International

Le moteur Tencent Yuanbao intègre les modèles « HunYuan + DeepSeek » pour lancer une compétence de « compréhension d'image »

VLM-R1 : Une nouvelle ère pour les modèles linguistiques visuels - Une percée majeure pour l'IA multimodale

Magma : Microsoft présente un modèle d'IA multimodale intégrant la vision, le langage et les capacités de prise de décision

Performances optimales ! Modèle de génération vidéo open source Step-Video-T2V de JieYue XingChen

Baidu Wenxin Yiyan devient entièrement gratuit ; plan de remboursement pour les membres publié officiellement