MiniCPM-o

MiniCPM-o 2.6 : un MLLM (Modèle Linguistique Multimodal) de niveau GPT-4o, capable de réaliser des diffusions en direct visuelles, vocales et multimodales sur un téléphone portable.

Nouveau Produit PremiumAutreMultimodalModèle linguistique

Ouvrir le site Web

MiniCPM-o 2.6 est le dernier modèle linguistique multimodal (MLLM) à grande échelle développé par l'équipe OpenBMB. Avec 8 milliards de paramètres, il permet de réaliser des diffusions en direct visuelles, vocales et multimodales de haute qualité sur des appareils mobiles tels que les téléphones. Ce modèle, construit sur SigLip-400M, Whisper-medium-300M, ChatTTS-200M et Qwen2.5-7B, est entraîné de manière bout en bout et offre des performances comparables à GPT-4o-202405. Ses principaux avantages incluent des capacités visuelles de pointe, des capacités vocales avancées, de puissantes capacités de diffusion multimodale en direct, une puissante capacité OCR et une efficacité supérieure. Ce modèle est open source et gratuit, utilisable à des fins de recherche académique et commerciales.

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

MiniCPM-o

MiniCPM-o Dernière situation du trafic

MiniCPM-o Tendance des visites

MiniCPM-o Distribution géographique des visites

MiniCPM-o Sources de trafic

MiniCPM-o Alternatives

MiniCPM-o — MiniCPM-o 2.6 : un MLLM (Modèle Linguistique Multimodal) de niveau GPT-4o, capable de réaliser des diffusions en direct visuelles, vocales et multimodales sur un téléphone portable.

Qwen-VL — Modèle linguistique visuel polyvalent

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite est un modèle linguistique efficace, optimisé pour le traitement de longs textes et de nombreux scénarios d'application.

DeepSeek Japonais — DeepSeek est un modèle linguistique IA avancé, maîtrisant le raisonnement logique, les mathématiques et la programmation, et disponible gratuitement.

Le Langage du Mouvement — Modèle unifié de langage verbal et non verbal pour les mouvements corporels 3D

Modèle linguistique Spirit LM — Modèle linguistique multi-modal intégrant texte et voix

ell — Bibliothèque de programmation de modèle linguistique léger, traitant les invites comme des fonctions.

Enchanted — Application iOS/macOS pour dialoguer avec des modèles linguistiques privés et auto-hébergés.

VideoLLaMA2-7B — Grand modèle linguistique vidéo, offrant des fonctionnalités de question-réponse visuelle et de génération de sous-titres vidéo.

imp-v1-3b — Un puissant modèle linguistique multimodal de petite taille

SpeechGPT — Modèle linguistique multimodal

moondream — Un puissant petit modèle linguistique visuel, partout accessible.

Honeybee — Prédicteur d'amélioration locale pour les modèles linguistiques multimodaux

TinyGPT-V — Modèle linguistique large multimodal performant

InternVL — Modèle visuel de base open source

ml-ferret — Modèle linguistique de machine (MLLM) de bout en bout, permettant une citation et une localisation précises.

CLoT — Découvrez le potentiel créatif et humoristique des LLM

DreamLLM — Compréhension et création multimodales intégrées

JinaChat — Multimodalités, mémoire étendue, coût réduit

Liquid — Un modèle de génération multimodale intégrant la compréhension et la génération d'images.

InternVL3 — InternVL3 open source : 7 tailles couvrant le traitement de texte, d'images et de vidéos, capacités multimodales étendues à l'analyse d'images industrielles

Kimi-VL — Modèle linguistique visuel hybride open source et expert, hautement efficace, doté de capacités de raisonnement multimodales.

Llama 3.1 Nemotron Ultra 253B — Un modèle linguistique large efficace pour le raisonnement et la conversation.

DreamActor-M1 — Un framework d'animation d'images humaines basé sur DiT, permettant un contrôle précis et une cohérence à long terme.

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

Fin-R1 — Grand modèle de raisonnement financier piloté par l'apprentissage par renforcement.

Mistral Small 3.1 — Modèle open source améliorant les capacités de traitement des tâches textuelles et visuelles.

MistralOCR.net — Mistral OCR est un puissant produit OCR de compréhension de documents, capable d'extraire avec une très grande précision le texte, les images, les tableaux et les équations à partir de PDF et d'images.

Gemini Robotics — Modèle robotique basé sur Gemini 2.0, intégrant l'IA dans le monde physique, doté de capacités visuelles, linguistiques et motrices.