Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Al hardware

liste tous les produits de matériel AI.

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

Kosmos-2

Modèle linguistique de grande taille multimodale, orienté vers le monde entier

Produit OrdinaireProductivitéTraitement du langage naturelMultimodal

Ouvrir le site Web

Kosmos-2 est un grand modèle linguistique multimodale capable de corréler le langage naturel avec des entrées de plusieurs formats, tels que les images et les vidéos. Il peut être utilisé pour des tâches telles que la localisation de phrases, la compréhension et la génération d'expressions référentielles, la description d'images et la question-réponse visuelle. Kosmos-2 utilise l'ensemble de données GRIT, qui contient un grand nombre de paires image-texte, utilisables pour l'entraînement et l'évaluation du modèle. L'avantage de Kosmos-2 réside dans sa capacité à corréler le langage naturel et les informations visuelles, améliorant ainsi les performances du modèle.

Ouvrir le site Web

Kosmos-2 Dernière situation du trafic

Nombre total de visites mensuelles

521149929

Taux de rebond

35.96%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:29

Kosmos-2 Tendance des visites

Kosmos-2 Distribution géographique des visites

Kosmos-2 Sources de trafic

Kosmos-2 Alternatives

InternVL2_5-8B-MPO — Modèle linguistique large multi-modal, affichant des performances globales exceptionnelles.

Image

•Multimodal•Grand modèle linguistique

342

InternVL2_5-4B-MPO — Modèle linguistique multimodal de grande taille, affichant des performances globales exceptionnelles.

Image

•Multimodal•Grand modèle linguistique

228

pixtral-12b-240910 — Modèle linguistique large multimodal, prenant en charge la compréhension d'images et de texte.

Image

•Multimodal•Traitement d'images

276

Kosmos-2 — Modèle linguistique de grande taille multimodale, orienté vers le monde entier

Productivité

•Traitement du langage naturel•Multimodal

402

InternVL3 — InternVL3 open source : 7 tailles couvrant le traitement de texte, d'images et de vidéos, capacités multimodales étendues à l'analyse d'images industrielles

Productivité

•IA•Multimodal

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

Image

•Intelligence artificielle•Génération d'images

156

ViDoRAG — ViDoRAG est un framework d'agents d'inférence itérative dynamique qui combine la recherche de documents visuels et l'amélioration de la génération.

Programmation

•Multimodal•Génération améliorée par la recherche

108

Migician — Migician est un grand modèle linguistique multimodale axé sur la localisation multi-images, capable de réaliser une localisation précise multi-images de forme libre.

Image

•Multimodal•Localisation d'images

162

Janus-Pro-1B — Janus-Pro-1B est un framework autorégressif unifié de compréhension et de génération multimodale.

Image

•Multimodal•Génération d'images

738

VideoLLaMA3 — VideoLLaMA3 est un modèle de base multimodal de pointe, spécialisé dans la compréhension des images et des vidéos.

Vidéo

•Multimodal•Compréhension vidéo

216

InternVL2_5-38B-MPO — Série de modèles InternVL2.5-MPO, basée sur InternVL2.5 et l'optimisation des préférences mixtes, démontrant des performances exceptionnelles.

Chat

•Multimodal•Grand modèle linguistique

324

InternVL2_5-26B-MPO-AWQ — Modèle linguistique multimodal de grande taille avancé, doté de capacités exceptionnelles de raisonnement multimodal.

Programmation

•Multimodal•Grand modèle linguistique

204

Valley — Modèle multimodal de grande taille, traitant les données textuelles, images et vidéos.

Image

•Multimodal•Grand modèle

342

FlagAI — Projet open source tout-en-un d'algorithmes, de modèles et d'outils d'optimisation de grands modèles.

Programmation

•Intelligence artificielle•Grands modèles

210

InternVL2_5-2B-MPO — Modèle linguistique large multimodal avancé

Image

•Multimodal•Grand modèle linguistique

144

InternVL2_5-1B-MPO — Modèle linguistique de grande taille multi-modal améliorant la compréhension globale de la vision et du langage.

Productivité

•Multimodal•Grand modèle linguistique

288

WePOINTS — Le projet WePOINTS fournit un cadre unifié pour les modèles multimodaux.

Programmation

•Multimodal•Intelligence artificielle

216

InternVL2_5-38B — Série de modèles linguistiques de grande taille multimodaux de pointe

Image

•Multimodal•Grand modèle linguistique

318

Pixtral-Large-Instruct-2411 — Modèle linguistique multimodal de grande taille de 124 milliards de paramètres

Productivité

•Multimodal•Grand modèle linguistique

294

EMOVA — Modèle linguistique multimodale riche en émotions

Autre

•Multimodal•Reconnaissance vocale

276

Molmo — Famille de modèles IA multimodaux de pointe

Sélection Internationale

•Multimodal•IA

474

Llama-3.2-11B-Vision — Modèle linguistique de grande taille multimodale, prenant en charge le traitement d'images et de texte.

Productivité

•Multimodal•Traitement d'images

936

Modèle de langage étendu Xi Hu — Un modèle multimodal de grande envergure doté d'une intelligence émotionnelle et intellectuelle exceptionnelles

Sélection Nationale

•Intelligence artificielle•Multimodal

582

MedTrinity-25M — Ensemble de données médicales multimodales à grande échelle

Autre

•Imagerie médicale•Multimodal

894

Série GLM-4 — Modèle conversationnel multimodal multilingue open source

Programmation

•Multilingue•Multimodal

528

Gemini 1.5 Flash — Modèle d'IA léger et performant de Google, conçu pour les tâches à haute fréquence et grande échelle.

Productivité

•IA•Machine Learning

648

Meta Llama 3 — Modèle linguistique de grande taille (LLM) nouvelle génération open source de Meta, aux performances exceptionnelles.

Tendance Mondiale

•Grand modèle•Open source

5178

Mini-Gemini — Modèle IA multimodal, capable à la fois de comprendre et de générer des images.

Productivité

•Modèle IA•Traitement d'images

2784

Aperçu de Grok-1.5 Vision — Le premier modèle multi-modal connectant le monde numérique et physique

Productivité

•Multimodal•IA

1206

MovieLLM — MovieLLM est un cadre de création de films IA conçu pour améliorer la compréhension des longues vidéos.

Vidéo

•Traitement d'images•Création vidéo

2256