Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Al hardware

liste tous les produits de matériel AI.

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

CogVLM2

Modèle de dialogue pré-entraîné multi-modal de deuxième génération

Produit OrdinaireProductivitéMultimodalModèle pré-entraîné

Ouvrir le site Web

CogVLM2 est un modèle de dialogue pré-entraîné multi-modal de deuxième génération développé par l'équipe de l'Université Tsinghua. Il a montré des améliorations significatives dans plusieurs tests de référence, prenant en charge une longueur de contenu de 8K et une résolution d'image de 1344*1344. Les modèles de la série CogVLM2 offrent des versions open source en chinois et en anglais, atteignant des performances comparables à certains modèles non open source.

Ouvrir le site Web

CogVLM2 Dernière situation du trafic

Nombre total de visites mensuelles

521149929

Taux de rebond

35.96%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:29

CogVLM2 Tendance des visites

CogVLM2 Distribution géographique des visites

CogVLM2 Sources de trafic

CogVLM2 Alternatives

CogVLM2 — Modèle de dialogue pré-entraîné multi-modal de deuxième génération

Productivité

•Multimodal•Modèle pré-entraîné

636

Magma — Magma est un modèle fondamental capable de comprendre et d'exécuter des entrées multimodales, utilisable pour des tâches et des environnements complexes.

Productivité

•Multimodal•IA

180

OpenEMMA — Modèle multimodal de conduite autonome de bout en bout, open source

Productivité

•Conduite autonome•Modèle de bout en bout

228

POINTS-Yi-1.5-9B-Chat — Les dernières avancées en matière de modèles linguistiques visuels, intégrant les nouvelles technologies de WeChat AI.

Productivité

•Modèle linguistique visuel•WeChat AI

174

POINTS-Qwen-2-5-7B-Chat — Les dernières avancées en matière de modèles linguistiques visuels

Productivité

•Modèle linguistique visuel•Multimodal

198

Meta Llama 3.3 — Modèle linguistique large multilingue pré-entraîné de 70 milliards de paramètres

Programmation

•Multilingue•Modèle pré-entraîné

180

Aria-Base-64K — Modèle Mixture-of-Experts multi-modal natif

Productivité

•Multimodal•Traitement de longs textes

156

Ferret-UI-Llama8b — Modèle linguistique de grande taille multimodale basé sur Llama-3-8B, spécialisé dans les tâches liées à l'interface utilisateur.

Programmation

•Multimodal•Grand modèle linguistique

330

GLM-4V-9B — Modèle pré-entraîné multi-modal open source, capable de dialogues bilingues chinois-anglais.

Sélection Internationale

•Multimodal•Modèle pré-entraîné

852

Liquid — Un modèle de génération multimodale intégrant la compréhension et la génération d'images.

Productivité

•Multimodal•Modèle génératif

InternVL3 — InternVL3 open source : 7 tailles couvrant le traitement de texte, d'images et de vidéos, capacités multimodales étendues à l'analyse d'images industrielles

Productivité

•IA•Multimodal

Kimi-VL — Modèle linguistique visuel hybride open source et expert, hautement efficace, doté de capacités de raisonnement multimodales.

Sélection Nationale

•Multimodal•Raisonnement

DreamActor-M1 — Un framework d'animation d'images humaines basé sur DiT, permettant un contrôle précis et une cohérence à long terme.

Productivité

•Animation humaine•Génération vidéo

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

Sélection Internationale

•Inteligência Artificial•Programação

DeepSeek-V3-0324 — Un puissant modèle de génération de texte, adapté à diverses applications de dialogue.

Tendance Mondiale

•Génération de texte•Système de dialogue

198

Mistral Small 3.1 — Modèle open source améliorant les capacités de traitement des tâches textuelles et visuelles.

Productivité

•Multimodal•Traitement du texte

300

MistralOCR.net — Mistral OCR est un puissant produit OCR de compréhension de documents, capable d'extraire avec une très grande précision le texte, les images, les tableaux et les équations à partir de PDF et d'images.

Productivité

•Traitement de documents•OCR

186

Gemini Robotics — Modèle robotique basé sur Gemini 2.0, intégrant l'IA dans le monde physique, doté de capacités visuelles, linguistiques et motrices.

Sélection Internationale

•Intelligence artificielle•Robotique

174

R1-Omni — R1-Omni est un modèle de reconnaissance d'émotions multimodales combinant l'apprentissage par renforcement, axé sur l'amélioration de l'interprétabilité de la reconnaissance d'émotions multimodales.

Programmation

•Multimodal•Reconnaissance d'émotions

378

GO-1 — Zhiyuan lance GO-1, son premier grand modèle de base incarné universel, présentant une architecture ViLLA révolutionnaire et stimulant le développement de l'intelligence incarnée.

Sélection Nationale

•Intelligence incarnée•Multimodal

168

OpenAI Agents SDK — OpenAI Agents SDK est une boîte à outils de développement permettant de créer des agents autonomes et de simplifier l'orchestration des workflows multi-agents.

Sélection Internationale

•Intelligence artificielle•Agent

318

SmolVLM2 — SmolVLM2 ist ein leichtgewichtiges Sprachmodell, das sich auf die Analyse und Generierung von Videoinhalten konzentriert.

Vidéo

•Videoanalyse•Textgenerierung

150

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

Sélection Internationale

•Intelligence artificielle•Modèle linguistique

354

EgoLife — EgoLife est un projet d'assistant IA pour la vie quotidienne, à long terme, multimodal et multi-vues, visant à faire progresser la recherche sur la compréhension du contexte à long terme.

Productivité

•IA•Multimodal

132

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

Image

•Intelligence artificielle•Génération d'images

156

ViDoRAG — ViDoRAG est un framework d'agents d'inférence itérative dynamique qui combine la recherche de documents visuels et l'amélioration de la génération.

Programmation

•Multimodal•Génération améliorée par la recherche

108

Migician — Migician est un grand modèle linguistique multimodale axé sur la localisation multi-images, capable de réaliser une localisation précise multi-images de forme libre.

Image

•Multimodal•Localisation d'images

162

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

CogVLM2

CogVLM2 Dernière situation du trafic

CogVLM2 Tendance des visites

CogVLM2 Distribution géographique des visites

CogVLM2 Sources de trafic

CogVLM2 Alternatives

CogVLM2 — Modèle de dialogue pré-entraîné multi-modal de deuxième génération

Magma — Magma est un modèle fondamental capable de comprendre et d'exécuter des entrées multimodales, utilisable pour des tâches et des environnements complexes.

OpenEMMA — Modèle multimodal de conduite autonome de bout en bout, open source

POINTS-Yi-1.5-9B-Chat — Les dernières avancées en matière de modèles linguistiques visuels, intégrant les nouvelles technologies de WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Les dernières avancées en matière de modèles linguistiques visuels

Meta Llama 3.3 — Modèle linguistique large multilingue pré-entraîné de 70 milliards de paramètres

Aria-Base-64K — Modèle Mixture-of-Experts multi-modal natif

Ferret-UI-Llama8b — Modèle linguistique de grande taille multimodale basé sur Llama-3-8B, spécialisé dans les tâches liées à l'interface utilisateur.

GLM-4V-9B — Modèle pré-entraîné multi-modal open source, capable de dialogues bilingues chinois-anglais.

Série GLM-4 — Modèle conversationnel multimodal multilingue open source

TinyGPT-V — Modèle linguistique large multimodal performant

MiniGPT-5 — Modèle multimodal pour la génération d'images et de texte

Liquid — Un modèle de génération multimodale intégrant la compréhension et la génération d'images.

InternVL3 — InternVL3 open source : 7 tailles couvrant le traitement de texte, d'images et de vidéos, capacités multimodales étendues à l'analyse d'images industrielles

Kimi-VL — Modèle linguistique visuel hybride open source et expert, hautement efficace, doté de capacités de raisonnement multimodales.

DreamActor-M1 — Un framework d'animation d'images humaines basé sur DiT, permettant un contrôle précis et une cohérence à long terme.

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

DeepSeek-V3-0324 — Un puissant modèle de génération de texte, adapté à diverses applications de dialogue.

Mistral Small 3.1 — Modèle open source améliorant les capacités de traitement des tâches textuelles et visuelles.

MistralOCR.net — Mistral OCR est un puissant produit OCR de compréhension de documents, capable d'extraire avec une très grande précision le texte, les images, les tableaux et les équations à partir de PDF et d'images.

Gemini Robotics — Modèle robotique basé sur Gemini 2.0, intégrant l'IA dans le monde physique, doté de capacités visuelles, linguistiques et motrices.

R1-Omni — R1-Omni est un modèle de reconnaissance d'émotions multimodales combinant l'apprentissage par renforcement, axé sur l'amélioration de l'interprétabilité de la reconnaissance d'émotions multimodales.

GO-1 — Zhiyuan lance GO-1, son premier grand modèle de base incarné universel, présentant une architecture ViLLA révolutionnaire et stimulant le développement de l'intelligence incarnée.

OpenAI Agents SDK — OpenAI Agents SDK est une boîte à outils de développement permettant de créer des agents autonomes et de simplifier l'orchestration des workflows multi-agents.

SmolVLM2 — SmolVLM2 ist ein leichtgewichtiges Sprachmodell, das sich auf die Analyse und Generierung von Videoinhalten konzentriert.

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

EgoLife — EgoLife est un projet d'assistant IA pour la vie quotidienne, à long terme, multimodal et multi-vues, visant à faire progresser la recherche sur la compréhension du contexte à long terme.

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

ViDoRAG — ViDoRAG est un framework d'agents d'inférence itérative dynamique qui combine la recherche de documents visuels et l'amélioration de la génération.

Migician — Migician est un grand modèle linguistique multimodale axé sur la localisation multi-images, capable de réaliser une localisation précise multi-images de forme libre.