Page de recherche d'actualités et de produits IA

Type :

Actualités
Applications de produits
Études de monétisation
Tutoriels IA

2025-03-07 11:46:52.AIbase

智源推出 BGE-VL 多模态向量模型，开启检索新纪元

L'institut d'intelligence artificielle de Beijing (BAAI) a lancé le modèle vectoriel multi-modal BGE-VL, marquant une nouvelle ère dans la recherche d'informations. Ce modèle révolutionnaire permet une recherche plus efficace et précise grâce à sa capacité à traiter simultanément des données textuelles et visuelles.

2025-03-06 14:46:43.AIbase

Percée dans la recherche multimodale ! Modèle de vecteur multimodal BGE-VL open source par l'Institut de recherche sur l'IA de Beijing

Le 6 mars, l’Institut de recherche sur l’intelligence artificielle de Beijing a annoncé la publication en open source du modèle de vecteur multimodal BGE-VL. Cette réalisation marque une percée majeure dans le domaine de la recherche multimodale. Le modèle BGE-VL a obtenu les meilleurs résultats dans les tâches de recherche multimodale telles que la recherche d’images et de texte et la recherche d’images combinées, améliorant considérablement les performances de la recherche multimodale.

2025-02-28 17:16:20.AIbase

Netflix recrute des scientifiques et ingénieurs en apprentissage automatique pour stimuler l'intelligence du contenu

2025-02-26 09:13:48.AIbase

Microsoft open-source un nouvel agent IA multi-modal « Magma » : passation de commandes automatique et prédiction comportementale

Microsoft a récemment publié en open-source sur son site officiel un nouveau modèle d'agent IA multi-modal appelé « Magma ». Ce nouvel agent d'intelligence artificielle possède des capacités qui transcendent les mondes numérique et physique, capable de traiter simultanément plusieurs types de données, telles que des images, des vidéos et du texte. Contrairement aux assistants IA traditionnels, Magma se distingue par sa fonction de prédiction comportementale, lui permettant de comprendre plus précisément les intentions et les comportements futurs des personnes ou des objets dans une vidéo. Les applications de Magma sont vastes ; les utilisateurs peuvent exploiter cette IA pour…

2025-02-21 15:58:33.AIbase

Lancement sur ModelScope d'Alibaba Cloud des deux nouveaux modèles multimodaux open source de Step-by-Step

Les regards des développeurs du monde entier se tournent à nouveau vers la Chine ! Lors de la Conférence mondiale des développeurs (GDC), très attendue, la communauté ModelScope d'Alibaba Cloud a annoncé le lancement de deux nouveaux modèles multimodaux open source de Step-by-Step : Step-Video-T2V, le modèle de génération vidéo open source au plus grand nombre de paramètres au monde, et Step-Audio, le premier modèle d'interaction vocale open source de niveau production du secteur. Cette annonce a immédiatement suscité l'enthousiasme de la communauté open source mondiale de l'IA, soulignant une fois de plus la forte capacité d'innovation de la Chine dans le domaine de l'intelligence artificielle. En tant que plus grand acteur chinois de l'IA...

2025-02-20 08:55:26.AIbase

Partenariat multi-modal entre ZhiShu QingYing et la plateforme de création de personnages IA "Nie Ta" pour une meilleure cohérence des propriétés intellectuelles

Le 19 février, ZhiShu HuaZhang Technology Co., Ltd. a annoncé un partenariat stratégique entre sa plateforme de création multimodale "QingYing" et la plateforme de création de personnages IA "Nie Ta". Ce partenariat vise à explorer la voie complète de la conception de personnages IA à la création d'animations, et à promouvoir la mise en œuvre technique de la cohérence des propriétés intellectuelles. L'objectif est de répondre aux besoins des utilisateurs du marché des mangas et des animés et d'explorer les applications de l'IA dans ce domaine, offrant ainsi des résultats de génération de meilleure qualité et une vitesse d'inférence plus rapide.

2025-02-10 11:04:17.AIbase

Meta AI lance MILS, un système permettant aux LLMs de traiter les données multimédias sans formation spécifique

Les chercheurs de Meta AI et leurs partenaires universitaires ont développé un système innovant, MILS (Solveur itératif LLM multi-modal), qui permet aux grands modèles de langage de traiter des images, des vidéos et de l'audio sans formation spécifique. MILS s'appuie sur la capacité naturelle de résolution de problèmes des modèles linguistiques, plutôt que sur un entraînement massif de données, ce qui représente un avantage unique. MILS fonctionne en associant deux modèles d'IA pour résoudre les tâches : un « générateur » qui propose des solutions et un « évaluateur » qui les juge.

2025-02-10 09:46:56.AIbase

Petit mais puissant ! Microsoft lance LLaVA-Rad, un modèle miniature pour la génération précise de rapports de radiologie

Récemment, des chercheurs de Microsoft Research, en collaboration avec l'Université de Washington, l'Université de Stanford, l'Université de Californie du Sud, l'Université de Californie à Davis et l'Université de Californie à San Francisco, ont présenté LLaVA-Rad, un nouveau modèle multi-modal miniature (SMM) visant à améliorer l'efficacité de la génération de rapports de radiologie clinique. Le lancement de ce modèle marque non seulement une avancée majeure dans le traitement d'images médicales, mais ouvre également de nouvelles perspectives pour les applications cliniques en radiologie. Dans le domaine biomédical, la recherche basée sur des modèles de base à grande échelle est déjà en cours

2025-01-15 11:43:52.AIbase

OpenBMB publie le modèle multi-modal MiniCPM-o2.6 : traitement visuel et vocal possible même sur téléphone portable

Ces dernières années, l'intelligence artificielle a connu des progrès remarquables, mais des défis persistent quant à l'efficacité du calcul et à la polyvalence. De nombreux modèles multimodaux avancés, tels que GPT-4, nécessitent généralement d'importantes ressources de calcul, ce qui limite leur utilisation aux serveurs haut de gamme et empêche une utilisation efficace des technologies intelligentes sur les appareils périphériques tels que les smartphones et les tablettes. De plus, le traitement en temps réel de tâches telles que l'analyse vidéo ou la transcription vocale pose encore des obstacles techniques, soulignant le besoin de modèles IA efficaces et flexibles pour une utilisation transparente avec des ressources matérielles limitées.

2025-01-08 17:12:51.AIbase

Hu Han, ancien expert en vision chez Microsoft, rejoint Tencent pour diriger la recherche sur les grands modèles multimodaux

Récemment, Hu Han, ancien chercheur principal du groupe de calcul visuel du Microsoft Research Asia, a officiellement rejoint Tencent pour diriger la recherche et le développement du grand modèle multi-modal HunYuan. Cette nouvelle a suscité un vif intérêt dans l'industrie, l'arrivée de Hu Han étant considérée comme une injection de dynamisme pour les activités d'intelligence artificielle de Tencent. Hu Han a obtenu son diplôme de Bachelor à l'Université Tsinghua en 2008 et son doctorat en 2014 sous la supervision du professeur Zhou Jie. Sa thèse de doctorat a reçu le prix de la meilleure thèse de doctorat de la Chinese Association for Artificial Intelligence en 2016, témoignant de ses compétences académiques. En 2012, Hu Han...

2025-01-06 09:18:36.AIbase

ScreenSpot-Pro : outil de référence LLM multi-modal conçu pour les environnements haute résolution !

Dans les environnements professionnels, les agents d'interface graphique utilisateur (GUI) sont confrontés à trois défis majeurs. Premièrement, la complexité des applications professionnelles est bien supérieure à celle des logiciels grand public, exigeant une compréhension approfondie des mises en page complexes ; deuxièmement, les outils professionnels fonctionnent généralement à des résolutions plus élevées, ce qui entraîne une taille de cible plus petite et réduit la précision du positionnement ; enfin, les flux de travail dépendent souvent d'outils et de documents supplémentaires, augmentant la complexité des opérations. Ces défis soulignent la nécessité de développer des outils de référence et des solutions plus avancés pour améliorer les performances des agents GUI dans ces scénarios exigeants. Actuellement

2024-12-10 08:03:30.AIbase

GLM-4V-Flash : Modèle multi-modal gratuit de pointe lancé par Zhihu AI, améliorant la précision du traitement d'image

Zhihu, une société technologique basée à Pékin, a annoncé le lancement de son premier API multimodale gratuit, GLM-4V-Flash, sur sa plateforme BigModel. Ce nouveau modèle, basé sur les capacités supérieures de la série 4V, améliore la précision du traitement d'image et simplifie l'accès aux grands modèles pour les développeurs dans divers domaines.

2024-11-22 15:28:38.AIbase

SPIRIT LM, le nouveau modèle linguistique audio de Meta : une IA qui ne se contente pas de parler, mais qui exprime aussi des émotions !

Meta AI a récemment publié en open source SPIRIT LM, un modèle linguistique multi-modal de base. Ce modèle permet de mélanger librement texte et parole, ouvrant de nouvelles possibilités pour les tâches multi-modales audio et textuelles. SPIRIT LM est basé sur un modèle linguistique de texte pré-entraîné de 7 milliards de paramètres, étendu à la modalité vocale grâce à un entraînement continu sur des unités textuelles et vocales. Il peut comprendre et générer du texte comme un grand modèle linguistique textuel, mais aussi comprendre et générer de la parole, et même mélanger texte et parole pour créer diverses expressions.

2024-11-19 13:51:41.AIbase

L'équipe de l'Université de Pékin publie LLaVA-o1, un modèle multi-modal avec des capacités de raisonnement comparables à GPT-o1 !

Récemment, une équipe de recherche de l'Université de Pékin et d'autres institutions a annoncé la publication de LLaVA-o1, un modèle multi-modal open source. Il s'agirait du premier modèle langue-vision capable de raisonnement spontané et systématique, comparable à GPT-o1. Ce modèle a excellé dans six benchmarks multimodaux exigeants. Sa version à 11 milliards de paramètres a surpassé des concurrents tels que Gemini-1.5-pro, GPT-4o-mini et Llama-3.2-90B-Vision-Instruct. L

2024-10-25 11:16:59.AIbase

Salesforce AI Research présente le nouveau modèle multi-modal BLIP-3-Video : une solution économique pour la compréhension vidéo

Récemment, l'équipe de recherche Salesforce AI a lancé un nouveau modèle linguistique multi-modal : BLIP-3-Video. Avec l'augmentation rapide du contenu vidéo, la gestion efficace des données vidéo est devenue un problème urgent. Ce modèle vise à améliorer l'efficacité et les performances de la compréhension vidéo, et s'applique à divers secteurs, de la conduite autonome aux divertissements. Les modèles traditionnels de compréhension vidéo traitent généralement les vidéos image par image, générant une grande quantité d'informations visuelles. Ce processus non seulement consomme d'énormes ressources de calcul, mais limite également considérablement...

2024-10-21 14:55:38.AIbase

智源发布原生多模态世界模型Emu3：仅靠预测下一个token即可实现文本、图像和视频的理解和生成

L'Institut de recherche sur l'intelligence artificielle de Beijing (Baidu) a officiellement lancé son nouveau modèle mondial multi-modal Emu3. Le point fort de ce modèle réside dans sa capacité à comprendre et à générer du texte, des images et des vidéos à partir de la seule prédiction du jeton suivant. Pour la génération d'images, Emu3 peut produire des images de haute qualité en se basant sur la prédiction des jetons visuels. Cela signifie que les utilisateurs peuvent s'attendre à une résolution flexible et à une variété de styles. Quant à la génération de vidéos, Emu3 fonctionne d'une manière totalement nouvelle, différente des autres modèles.

2024-10-21 11:25:14.AIbase

Percée dans l'IA médicale ! Le nouveau système multi-modal RAG MMed-RAG améliore significativement la précision du diagnostic de 43,8 %

Ces dernières années, l'impact de l'intelligence artificielle (IA) dans le secteur médical est devenu de plus en plus important, notamment en matière de diagnostic des maladies et de planification des traitements. Le développement de grands modèles de langage visuel médical (Med-LVLMs) a ouvert de nouvelles perspectives pour la création d'outils de diagnostic médical plus intelligents. Cependant, ces modèles sont souvent confrontés, dans leurs applications pratiques, à un problème majeur : les hallucinations factuelles. Ce phénomène peut non seulement conduire à des erreurs de diagnostic, mais aussi avoir de graves conséquences sur la santé des patients. Pour résoudre ce problème qui afflige l'IA médicale, des recherches...

2024-10-15 14:52:31.AIbase

Robin3D : une percée majeure dans les modèles linguistiques de grande taille pour les scènes 3D grâce à un entraînement sur des données robustes à l'échelle du million !

Une équipe de recherche de l'Illinois Institute of Technology, de l'Université de Zhejiang, de l'Université de Floride centrale et de l'Université de l'Illinois à Chicago a récemment publié Robin3D, un nouveau modèle linguistique de grande taille pour les scènes 3D. Entraîné sur un ensemble de données à grande échelle contenant un million de données d'instructions, ce modèle a atteint les meilleures performances actuelles sur cinq benchmarks d'apprentissage multi-modal 3D couramment utilisés. Ceci représente un progrès significatif dans la construction d'agents 3D universels. Le succès de Robin3D est dû à son moteur de données innovant RIG (Robu...

2024-10-14 10:56:21.AIbase

Le « fourneau alchimique » multi-modal d'Apple fait peau neuve ! MM1.5 améliore la compréhension de textes denses et d'images multiples

Apple a récemment publié une mise à jour majeure pour son modèle d'intelligence artificielle multimodale MM1, le faisant passer à la version MM1.5. Cette mise à niveau ne se résume pas à un simple changement de numéro de version, mais représente une amélioration globale des capacités, conférant au modèle des performances accrues dans divers domaines. L'amélioration principale de MM1.5 réside dans sa méthode innovante de traitement des données. Ce modèle utilise une méthode d'apprentissage centrée sur les données, sélectionnant et optimisant méticuleusement l'ensemble de données d'apprentissage. Plus précisément, MM1.5 utilise des données OCR haute résolution et des descriptions d'images synthétiques, ainsi qu'une optimisation...

2024-09-26 14:34:11.AIbase

Le modèle multi-modal open source Molmo identifie les objets sur les images et génère des descriptions précises

Récemment, un modèle d'intelligence artificielle multimodale open source nommé Molmo a suscité un vif intérêt dans l'industrie. Ce système d'IA, basé sur Qwen2-72B et utilisant le moteur de traitement visuel CLIP d'OpenAI, défie la domination des modèles commerciaux traditionnels grâce à ses performances exceptionnelles et ses fonctionnalités innovantes. La caractéristique la plus remarquable de Molmo est son efficacité. Bien que relativement petit, il rivalise en termes de capacité de traitement avec des concurrents dix fois plus volumineux. Ce concept de conception « petit mais puissant » améliore non seulement les performances du modèle, mais...

Recherchez la dynamique mondiale des produits IA

Recherchez des informations sur l'IA mondiale et découvrez de nouvelles opportunités d'IA

智源推出 BGE-VL 多模态向量模型，开启检索新纪元

Percée dans la recherche multimodale ! Modèle de vecteur multimodal BGE-VL open source par l'Institut de recherche sur l'IA de Beijing

Netflix recrute des scientifiques et ingénieurs en apprentissage automatique pour stimuler l'intelligence du contenu

Microsoft open-source un nouvel agent IA multi-modal « Magma » : passation de commandes automatique et prédiction comportementale

Lancement sur ModelScope d'Alibaba Cloud des deux nouveaux modèles multimodaux open source de Step-by-Step

Partenariat multi-modal entre ZhiShu QingYing et la plateforme de création de personnages IA "Nie Ta" pour une meilleure cohérence des propriétés intellectuelles

Meta AI lance MILS, un système permettant aux LLMs de traiter les données multimédias sans formation spécifique

Petit mais puissant ! Microsoft lance LLaVA-Rad, un modèle miniature pour la génération précise de rapports de radiologie

OpenBMB publie le modèle multi-modal MiniCPM-o2.6 : traitement visuel et vocal possible même sur téléphone portable

Hu Han, ancien expert en vision chez Microsoft, rejoint Tencent pour diriger la recherche sur les grands modèles multimodaux

ScreenSpot-Pro : outil de référence LLM multi-modal conçu pour les environnements haute résolution !

GLM-4V-Flash : Modèle multi-modal gratuit de pointe lancé par Zhihu AI, améliorant la précision du traitement d'image

SPIRIT LM, le nouveau modèle linguistique audio de Meta : une IA qui ne se contente pas de parler, mais qui exprime aussi des émotions !

L'équipe de l'Université de Pékin publie LLaVA-o1, un modèle multi-modal avec des capacités de raisonnement comparables à GPT-o1 !

Salesforce AI Research présente le nouveau modèle multi-modal BLIP-3-Video : une solution économique pour la compréhension vidéo

智源发布原生多模态世界模型Emu3：仅靠预测下一个token即可实现文本、图像和视频的理解和生成

Percée dans l'IA médicale ! Le nouveau système multi-modal RAG MMed-RAG améliore significativement la précision du diagnostic de 43,8 %

Robin3D : une percée majeure dans les modèles linguistiques de grande taille pour les scènes 3D grâce à un entraînement sur des données robustes à l'échelle du million !

Le « fourneau alchimique » multi-modal d'Apple fait peau neuve ! MM1.5 améliore la compréhension de textes denses et d'images multiples

Le modèle multi-modal open source Molmo identifie les objets sur les images et génère des descriptions précises