Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

Des anciens élèves de l'Université de Zhejiang collaborent avec Microsoft pour lancer le modèle multimodal LLaVA, remettant en question GPT-4V

量子位

Publié leActualités IA · 1 minutes de lecture · Oct 12, 2023

Un ancien élève de l'université de Zhejiang, en collaboration avec les laboratoires de recherche Microsoft, a lancé LLaVA, un modèle multi-modal qui rivalise avec GPT-4V. LLaVA a démontré d'excellentes performances sur 11 ensembles de données de test, obtenant plus de 6000 étoiles. Ses capacités globales surpassent celles de GPT-4V dans 85% des cas. Le code source, le modèle et les données d'entraînement de LLaVA sont désormais accessibles.

GPT-4V Modèle multimodal LLaVA

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

SenseTime lance un nouveau grand modèle multimodal, ouvrant la voie à une nouvelle ère d'interaction

Lors de la journée d'échanges technologiques de SenseTime le 10 avril, SenseTime a lancé son dernier grand modèle multimodal, SenseNova V6, ainsi que le système SenseCore 2.0. Ce nouveau grand modèle vise à intégrer plusieurs formes d'informations, telles que le texte, les images et les vidéos, afin d'offrir aux utilisateurs une expérience d'interaction plus naturelle et plus riche. La série SenseNova V6 lancée cette fois comprend quatre versions, dont la plus remarquable est SenseNova V6Pro.

Apr 10, 2025

Meta lance Llama 4, un grand modèle linguistique révolutionnaire basé sur une architecture d'experts mixtes

Meta a dévoilé son dernier modèle d'intelligence artificielle open source, Llama 4, marquant une avancée majeure dans le domaine de l'IA. Llama 4 est disponible en deux versions, Scout et Maverick, conçues pour améliorer les fonctionnalités et les performances des modèles d'IA. Meta affirme que Llama 4 est un grand modèle multimodale capable de traiter divers types de données, notamment du texte, des images, des vidéos et de l'audio, et de convertir librement entre ces formats. Il est à noter que la série Llama 4 est la première...

Apr 7, 2025

Meta annonce Llama 4, un modèle multimodal open source puissant

Le géant technologique américain Meta a lancé Llama 4, son modèle d'intelligence artificielle open source le plus puissant à ce jour. Ce premier lancement comprend deux modèles : Llama4Scout et Llama4Maverick. Llama4Scout possède 109 milliards de paramètres, 17 milliards de paramètres actifs, 16 experts, et son principal atout est la prise en charge d'un contexte de 10 millions de jetons, ce qui équivaut à pouvoir traiter plus de 20 heures de vidéo, le tout fonctionnant sur un seul GPU H100 (après quantification Int4).

Apr 6, 2025

AI Quotidien : Taobao lance une campagne de lutte contre les fausses images IA ; OpenAI annonce la prise en charge du protocole MCP ; Alibaba open source le modèle multimodal Qwen2.5-Omni

Bienvenue à la rubrique 【AI Quotidien】 ! Votre guide quotidien pour explorer le monde de l’intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l’IA, en nous concentrant sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits IA. Découvrez les nouveaux produits IA : https://top.aibase.com/1、Alibaba lance Qwen2.5-Omni, un nouveau modèle multi-modal de bout en bout. L’équipe d’Alibaba Cloud Tongyi Qianwen a lancé Qwen2.5-Omni, un nouveau modèle multi-modal de bout en bout…

Mar 27, 2025

Alibaba lance Qwen2.5-Omni, son premier grand modèle multimodal, et défie les géants mondiaux de la technologie

Le 27 mars, à l'aube, Alibaba a officiellement lancé son premier grand modèle multimodal : Tongyi Qianwen Qwen2.5-Omni-7B. Ce modèle possède de puissantes capacités, capable de traiter simultanément plusieurs types d'entrées, notamment du texte, des images, de l'audio et de la vidéo, et de générer du texte et de la parole naturelle en temps réel. Cette percée technologique innovante marque une nouvelle avancée d'Alibaba dans le domaine de l'intelligence artificielle. Lors des évaluations OmniBench, un benchmark d'autorité pour les tâches de fusion multimodales, Qwen2.5-Omni a obtenu

Mar 27, 2025

130

Publication en open source d'Alibaba Tongyi Qianwen : le nouveau modèle multimodal de bout en bout Qwen2.5-Omni

L'équipe Qwen d'Alibaba Cloud Tongyi Qianwen a annoncé le lancement de Qwen2.5-Omni, le nouveau modèle phare multimodal de bout en bout de la famille de modèles Qwen. Ce nouveau modèle est spécialement conçu pour la perception multimodale complète et peut traiter de manière transparente plusieurs formes d'entrée telles que le texte, les images, l'audio et la vidéo, tout en générant simultanément du texte et une sortie de synthèse vocale en streaming en temps réel.

Mar 27, 2025

Gemma-3 : Google open-source un nouveau modèle multimodal performant et 10 fois moins coûteux

Lors d'une conférence de presse, Sundar Pichai, PDG de Google, a annoncé la publication en open-source de Gemma-3, le dernier modèle multimodal de Google. Ce modèle se distingue par ses performances élevées et son faible coût, suscitant un vif intérêt. Gemma-3 est proposé en quatre tailles de paramètres : 1 milliard, 4 milliards, 12 milliards et 27 milliards de paramètres. De manière surprenante, le modèle le plus grand (27 milliards de paramètres) ne nécessite qu'une seule carte graphique H100 pour une inférence efficace, alors que des modèles similaires exigent généralement dix fois plus de puissance de calcul.

Mar 13, 2025

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Récemment, la communauté Modelers a officiellement lancé Step-Video et Step-Audio, deux grands modèles multimodaux open source développés par Step-Video. Ces deux modèles sont respectivement utilisés pour la génération de vidéo et l'interaction vocale, visant à fournir aux développeurs et aux entreprises des outils IA plus performants. Step-Video, dont le nom complet est Step-Video-T2V, est un modèle de génération de vidéo open source parmi les plus grands au monde, avec un nombre de paramètres atteignant 30 milliards. Ce modèle est capable de générer directement des vidéos de 20...

Mar 10, 2025

270

Microsoft lance Phi-4, un modèle multimodal et miniature améliorant le traitement de la voix, de la vision et du texte

Feb 27, 2025

DeepSeek lance Janus-Pro, un nouveau modèle multimodal révolutionnaire

Le développeur chinois de modèles de langage DeepSeek a lancé Janus-Pro, un nouveau modèle d'IA multimodal qui marque son entrée dans le domaine de la génération d'images à partir de texte. Cette avancée représente une percée majeure pour DeepSeek dans le domaine de l'IA multimodale. Dans les benchmarks GenEval et DPG-Bench, Janus-Pro-7B a non seulement surpassé DALL-E3 d'OpenAI, mais a également dépassé des modèles populaires tels que Stable Diffusion et Emu3-Gen. Janus-Pro utilise une licence MIT.

Jan 28, 2025

9.3k