Chronologie des Événements IA 2025
Une chronique complète des étapes clés, des avancées technologiques, des lancements de produits et des développements de l'industrie de l'Intelligence Artificielle en 2025
March
🔥 gpt-4o-transcribe
Nouveau modèle de reconnaissance vocale développé en interne par OpenAI. Il peut être considéré comme une version améliorée de Whisper, le modèle de transcription vocale open source publié par OpenAI il y a deux ans, visant à offrir un taux d'erreur de transcription plus faible et des performances supérieures. Lors de tests sur 33 langues standardisées du secteur, gpt-4o-transcribe a affiché une réduction significative du taux d'erreur par rapport à Whisper, atteignant même 2,46 % pour l'anglais ! OpenAI propose un site de démonstration, OpenAI.fm, permettant aux utilisateurs individuels de faire une première expérience.
🔥 Step-Video-TI2V
Step-Video-TI2V est un modèle avancé de génération de vidéo à partir d'images développé par Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd. Entraîné sur le modèle Step-Video-T2V de 30 milliards de paramètres, il est capable de générer des vidéos jusqu'à 102 images à partir d'entrées textuelles et d'images. Les principaux avantages de ce modèle résident dans le contrôle de l'amplitude des mouvements et le contrôle des mouvements de caméra, permettant d'équilibrer la dynamique et la stabilité des résultats de génération vidéo. De plus, il excelle dans la génération de vidéos de style animé, ce qui le rend particulièrement adapté à la création d'animations, à la production de courtes vidéos et à d'autres applications similaires.
🔥 Mistral Small 3. 1
La startup française d'intelligence artificielle Mistral AI a publié son dernier modèle open source, Mistral Small 3.1. Mistral-Small-3.1-24B-Base-2503 est un modèle open source avancé de 24 milliards de paramètres, prenant en charge le multilinguisme et le traitement de longs contextes, adapté aux tâches textuelles et visuelles. Il s'agit du modèle de base de Mistral Small 3.1, doté de solides capacités multimodales, répondant aux besoins des entreprises.
🔥 文心4.5与X1
Baidu a publié les grands modèles Wenxin 4.5 et X1, avec une réduction significative des prix
🔥 Gemma 3
Gemma 3 est une série de modèles ouverts légers et de pointe, développés à partir de la technologie Gemini 2.0 et conçus pour fonctionner sur les appareils. Il surpasse les modèles de même taille, prend en charge plus de 140 langues et possède des capacités avancées de raisonnement textuel et visuel. Gemma 3 offre une fenêtre contextuelle de 128 000 jetons, prend en charge les appels de fonctions pour gérer les tâches complexes et existe en version quantifiée pour améliorer les performances et réduire les besoins de calcul. Son développement a mis l'accent sur la sécurité, avec une gouvernance des données et des politiques de sécurité strictes pour garantir un développement et une utilisation responsables. Le lancement de Gemma 3 contribue à accélérer l'adoption et l'application de la technologie de l'IA, en fournissant aux développeurs des outils puissants pour créer diverses applications d'IA.
🔥 Gemini Robotics
Gemini Robotics est un modèle avancé vision-langage-action (VLA) basé sur Gemini 2.0, spécialement conçu pour la robotique. Il introduit l'IA dans le monde physique grâce à un raisonnement multi-modal, permettant aux robots d'exécuter un plus large éventail de tâches du monde réel. Ce modèle est polyvalent, capable de s'adapter à différentes situations et de résoudre plusieurs tâches ; il est interactif, capable de comprendre et de répondre rapidement aux instructions en langage courant ; il est également agile, capable d'effectuer des manipulations précises, telles que plier du papier ou emballer des collations.
🔥 OpenAI Agents SDK
Le SDK OpenAI Agents est une boîte à outils légère et facile à utiliser pour construire des applications d'IA basées sur des agents. Il s'agit d'une version de production améliorée du projet expérimental d'agents Swarm d'OpenAI. Ce SDK fournit un petit nombre de composants de base, notamment des agents (LLM équipés d'instructions et d'outils), une fonctionnalité de transfert pour la délégation de tâches entre les agents et des garde-fous pour valider les entrées des agents. Combinés à Python, ces composants permettent d'exprimer des relations complexes entre les outils et les agents, et de construire des applications concrètes sans courbe d'apprentissage abrupte. De plus, le SDK intègre un suivi qui aide les utilisateurs à visualiser et à déboguer les processus des agents, et à évaluer les processus voire à affiner les modèles pour l'application. Ses principaux avantages sont sa fonctionnalité suffisamment pratique et ses composants suffisamment peu nombreux pour faciliter un apprentissage rapide ; il est prêt à l'emploi et permet en même temps de personnaliser les comportements spécifiques. Il s'agit d'une réalisation importante d'OpenAI dans le domaine de la technologie des agents, offrant aux développeurs un outil efficace et flexible pour construire des applications d'IA basées sur des agents.
Mistral OCR
Mistral OCR est une API de reconnaissance optique de caractères (OCR) axée sur la compréhension de documents. Elle est capable de comprendre chaque élément d'un document avec une précision et une capacité cognitive inégalées, y compris le texte, les images, les tableaux, les équations, etc. Cette technologie extrait le contenu textuel et imagé ordonné à partir d'images et de PDF en entrée, prend en charge le traitement de documents multimodaux et est à la pointe de l'industrie en matière de compréhension de documents complexes. Son importance réside dans sa capacité à déverrouiller l'intelligence collective de l'information numérique, à transformer les grandes quantités de données organisationnelles stockées sous forme de documents en connaissances exploitables et à stimuler l'innovation.
🔥 QwQ-32B
QwQ-32B est un modèle d'inférence disposant de 32 milliards de paramètres. Ses performances ont été améliorées par un apprentissage par renforcement à grande échelle (RL), lui permettant une réflexion approfondie et un raisonnement complexe. Il intègre des capacités liées à l'Agent, lui permettant de penser de manière critique tout en utilisant des outils et d'adapter son processus de raisonnement en fonction des retours de l'environnement. Ce modèle excelle en raisonnement mathématique, en programmation et en capacités générales. Ses performances sont comparables à celles de DeepSeek-R1, un modèle doté de 671 milliards de paramètres, démontrant ainsi le potentiel de l'apprentissage par renforcement pour améliorer l'intelligence des grands modèles de langage et offrant une voie potentielle vers une intelligence artificielle générale.
🔥 Manus
Manus est un agent d'intelligence artificielle polyvalent qui relie la pensée et l'action : il ne se contente pas de réfléchir, il fournit des résultats. Manus excelle dans la gestion de diverses tâches professionnelles et personnelles, capable de tout accomplir pendant votre temps libre. Il offre aux utilisateurs un service efficace et pratique en intégrant des informations et en générant des solutions personnalisées. L'importance de Manus réside dans sa capacité à aider les utilisateurs à gagner du temps et de l'énergie grâce à l'automatisation et à l'intelligence, tout en fournissant des analyses et un soutien à la décision de haute qualité.
CogView4
CogView4 est un système de génération d'images à partir de texte basé sur un modèle de diffusion, prenant en charge l'entrée en chinois et la génération d'images à partir de texte chinois. Il utilise un framework de diffusion en cascade et la technologie Diffusion Transformer, permettant de générer des images de haute qualité. Ce modèle a obtenu d'excellents résultats dans plusieurs tests de référence, notamment un avantage unique dans la génération de texte chinois.
February
🔥 GPT-4.5
GPT-4.5 est le dernier modèle linguistique développé par OpenAI, représentant des progrès majeurs en apprentissage non supervisé et en échelle de modèle. Ce modèle, grâce à l'extension du calcul et des données, ainsi qu'à des innovations d'architecture et d'optimisation, améliore considérablement la compréhension du monde et l'étendue des connaissances, réduit les phénomènes d'hallucinations, et augmente la naturalité de l'interaction en langage naturel et la compréhension des intentions de l'utilisateur. Il excelle dans l'écriture, la programmation, la résolution de problèmes concrets, et possède une intelligence émotionnelle (EQ) et une créativité accrues. L'importance de GPT-4.5 réside dans son rôle de modèle de pointe en apprentissage non supervisé, jetant les bases de modèles plus puissants à venir.
🔥 Claude 3.7 Sonnet
Claude 3.7 Sonnet est le dernier modèle d'inférence hybride lancé par Anthropic. Il se caractérise par sa rapidité de réponse et sa capacité de réflexion approfondie. Les utilisateurs peuvent contrôler finement le temps de réflexion du modèle via l'API. Claude 3.7 Sonnet excelle en codage et en développement front-end, et son mode de réflexion étendu améliore considérablement ses performances dans des tâches telles que les mathématiques, la physique, le respect des instructions et la programmation. Claude 3.7 Sonnet offre d'excellentes performances aussi bien en mode de réflexion standard qu'étendu, permettant aux utilisateurs de choisir un équilibre entre vitesse et qualité de réponse en fonction de leurs besoins. Anthropic vise à offrir une expérience utilisateur plus transparente grâce à un modèle d'inférence unifié, et Claude 3.7 Sonnet incarne cette philosophie en optimisant les fonctionnalités des LLM couramment utilisées dans les scénarios d'affaires réels, plutôt que de se concentrer uniquement sur les problèmes de compétition.
🔥 Claude Code
Claude Code est un outil de programmation intelligent intégré au terminal, capable de comprendre les bases de code et d'aider les développeurs à écrire du code plus rapidement grâce à des commandes en langage naturel. Il s'intègre directement à l'environnement de développement, sans nécessiter de serveur supplémentaire ou de configuration complexe. Il prend en charge les fonctions d'édition de fichiers, de correction d'erreurs dans le code, de réponse aux questions sur l'architecture et la logique du code, d'exécution de tests et d'examen du code. L'importance de Claude Code réside dans sa capacité à améliorer considérablement l'efficacité du développement, tout en abaissant le seuil d'entrée de la programmation grâce à une interaction en langage naturel. Le produit est basé sur le modèle Claude-3-7-sonnet-20250219 d'Anthropic, et possède de puissantes capacités de compréhension et de génération de code.
🔥 QwQ-Max-Preview
QwQ-Max-Preview est une version préliminaire basée sur Qwen2.5-Max, appartenant à la série Tongyi Qianwen. Il excelle dans le raisonnement approfondi, les mathématiques, la programmation et les tâches liées aux agents. Ce produit devrait être publié sous licence Apache 2.0 dans un avenir proche, dans le but de promouvoir le développement des technologies de raisonnement intelligent et de favoriser l'innovation communautaire grâce à l'open source. À l'avenir, nous lancerons également l'application Qwen Chat et des modèles d'inférence plus petits (tels que QwQ-32B) afin de répondre aux besoins des différents utilisateurs.
🔥 Wan AI
Wan AI est un modèle de génération d'images avancé et puissant développé par le laboratoire Tongyi d'Alibaba Group. Il est capable de générer des vidéos à partir de texte, d'images et d'autres signaux de contrôle. La série de modèles Wan 2.1 est désormais entièrement open source. Ce produit représente la technologie de pointe de l'intelligence artificielle dans le domaine de la génération de contenu visuel, présentant une innovation et une valeur applicative importantes. Ses principaux avantages incluent une puissante capacité de génération d'images, la prise en charge de multiples signaux d'entrée et sa nature open source, permettant aux développeurs et aux créateurs d'utiliser cette plateforme de manière flexible pour le développement créatif et la création de contenu.
🔥 PaliGemma 2 mix
PaliGemma 2 mix est un modèle de langage visuel multitâche développé par Google, appartenant à la famille Gemma et constituant une version améliorée. Ce modèle est capable de traiter diverses tâches de langage visuel, notamment la segmentation d'images, la génération de sous-titres vidéo, la réponse à des questions scientifiques, et d'autres tâches liées au texte. Il fournit des points de contrôle pré-entraînés de différentes tailles (3B, 10B et 28B paramètres) et prend en charge plusieurs résolutions (224px et 448px), permettant aux développeurs de choisir le modèle le plus adapté à leurs besoins. De plus, PaliGemma 2 mix est compatible avec plusieurs frameworks, tels que Hugging Face Transformers, Keras, PyTorch, JAX et Gemma.cpp. Sa polyvalence et sa facilité d'utilisation en font un outil puissant pour les tâches de langage visuel.
🔥 Mistral Saba
Mistral Saba est le premier modèle linguistique régional de Mistral AI, spécialement conçu pour les langues du Moyen-Orient et de l'Asie du Sud. Avec ses 24 milliards de paramètres, il a été entraîné sur un jeu de données soigneusement sélectionné du Moyen-Orient et de l'Asie du Sud. Il fournit des réponses plus précises et pertinentes que des modèles cinq fois plus grands, tout en étant plus rapide et moins coûteux. Ce modèle prend en charge l'arabe et plusieurs langues d'origine indienne, et excelle particulièrement dans les langues du sud de l'Inde (comme le tamoul). Il est accessible via une API et peut également être déployé localement dans l'environnement sécurisé du client, fonctionnant sur un système à GPU unique et offrant une vitesse de réponse supérieure à 150 jetons par seconde.
🔥 Grok 3
Grok 3 est le dernier modèle d'IA phare développé par xAI, conçu pour analyser des images et répondre à des questions, prenant en charge plusieurs fonctionnalités du réseau social X de xAI. Il s'agit d'une famille de modèles, incluant des versions telles que Grok 3 mini, Grok 3 Reasoning et Grok 3 mini Reasoning. Grok 3 a excellé dans plusieurs tests de référence, surpassant même GPT-4o dans des benchmarks comme AIME (problèmes de mathématiques) et GPQA (problèmes de physique, biologie et chimie de niveau doctorat). Son modèle de raisonnement est capable de vérifier les faits, à la manière d'o3-mini d'OpenAI et de R1 de DeepSeek, évitant ainsi les erreurs courantes. De plus, Grok 3 prend en charge la recherche pilotée par l'IA via la fonction DeepSearch de l'application Grok, scannant Internet et le réseau social X pour fournir des résumés d'informations. Le développement de Grok 3 a nécessité d'importantes ressources de calcul, notamment environ 200 000 GPU dans le centre de données de Memphis, et son ensemble de données d'entraînement comprenait des documents judiciaires, entre autres.
Goku
Goku est un modèle de base de génération de vidéo basé sur le flux, axé sur la tâche de génération de vidéo à partir de texte. Grâce à des techniques de génération avancées, ce modèle peut produire du contenu vidéo de haute qualité à partir d'invites textuelles, prenant en charge la génération de vidéos dans divers scénarios et styles. Son importance réside dans sa capacité à fournir des solutions de génération de contenu efficaces pour la création vidéo et la production publicitaire, réduisant ainsi les coûts de création et améliorant la diversité du contenu. Goku+ est une version dérivée optimisée spécifiquement pour les scénarios publicitaires, capable de générer du contenu vidéo mieux adapté aux besoins publicitaires.
🔥 Gemini 2.0
Gemini 2.0 représente une avancée majeure de Google dans le domaine de l'IA générative, incarnant les technologies d'intelligence artificielle les plus récentes. Grâce à ses puissantes capacités de génération de langage, il offre aux développeurs des solutions efficaces et flexibles, adaptées à de nombreux scénarios complexes.
🔥 OpenAI Deep Research
Deep Research est une fonctionnalité d'agent intelligent développée par OpenAI, capable d'effectuer des tâches de recherche complexes et multi-étapes en peu de temps. Il recherche et analyse de grandes quantités d'informations sur Internet pour fournir aux utilisateurs des rapports complets, comparables à ceux d'un analyste professionnel. Cet outil est optimisé grâce au modèle OpenAI o3 prochainement disponible et peut traiter du texte, des images et des fichiers PDF. Il est adapté aux utilisateurs ayant besoin de recherches approfondies, tels que les professionnels de la finance, des sciences, des politiques et de l'ingénierie, ainsi qu'aux consommateurs souhaitant des conseils personnalisés.
January
🔥 OpenAI o3-mini
OpenAI o3-mini est le dernier modèle d'inférence lancé par OpenAI, optimisé pour les domaines scientifiques, technologiques, d'ingénierie et mathématiques (STEM). Il offre de puissantes capacités d'inférence, particulièrement excellentes en mathématiques, sciences et programmation, tout en maintenant un faible coût et une faible latence. Ce modèle prend en charge plusieurs fonctionnalités pour les développeurs, telles que les appels de fonctions et les sorties structurées, et permet de choisir différentes intensités d'inférence selon les besoins.
🔥 Mistral Small 3
Mistral Small 3 est un modèle linguistique open source développé par Mistral AI, doté de 24 milliards de paramètres et distribué sous licence Apache 2.0. Ce modèle est conçu pour une faible latence et des performances élevées, idéal pour les tâches d'IA générative nécessitant une réponse rapide. Il atteint un taux de précision de 81 % sur le benchmark MMLU (Multitask Language Understanding) et est capable de générer du texte à une vitesse de 150 jetons par seconde.
🔥 ChatGPT Gov
ChatGPT Gov est une version du modèle d'IA d'OpenAI spécialement conçue pour les organismes gouvernementaux américains. Son objectif est d'aider ces organismes à utiliser efficacement l'IA pour résoudre des problèmes complexes. Il repose sur les technologies de pointe d'OpenAI et soutient le travail du gouvernement dans des domaines tels que la santé publique, les infrastructures et la sécurité nationale, tout en respectant des exigences strictes en matière de cybersécurité et de conformité.
🔥 Janus-Pro
Janus-Pro est un modèle multi-modal avancé développé par l'équipe DeepSeek, axé sur l'unification des tâches de compréhension et de génération multi-modales. Il résout les conflits entre les tâches de compréhension et de génération dans les modèles traditionnels grâce au découplage des chemins de codage visuel. Ce modèle, basé sur la puissante architecture Transformer, est capable de gérer des tâches multi-modales complexes, telles que la question-réponse visuelle et la génération d'images.
Anthropic API Citations
La fonctionnalité Citations de l'API Anthropic est une technologie puissante qui permet au modèle Claude de citer des phrases et des paragraphes précis du document source lors de la génération de réponses. Cette fonctionnalité améliore non seulement la vérifiabilité et la crédibilité des réponses, mais réduit également les risques d'hallucinations potentielles du modèle.
FireRedASR
FireRedASR est une famille de modèles de reconnaissance automatique de la parole (ASR) en mandarin standard, open source et de niveau industriel, conçue pour répondre aux besoins variés en termes de performances exceptionnelles et d'efficacité optimale dans différentes applications. Elle comprend deux variantes : FireRedASR-LLM et FireRedASR-AED. L'importance de cette technologie réside dans sa contribution à l'avancement de la reconnaissance vocale, offrant des solutions efficaces et précises pour les applications industrielles.
🔥 Operator
Operator est un produit d'agent intelligent lancé par OpenAI. Il combine les capacités visuelles de GPT-4o et les capacités de raisonnement avancées de l'apprentissage par renforcement pour interagir avec les interfaces graphiques utilisateur comme un humain. Il peut gérer diverses tâches répétitives de navigation, telles que remplir des formulaires et commander des épiceries, aidant ainsi les utilisateurs à gagner du temps.
🔥 CUA
Agent utilisant un ordinateur (CUA) est un modèle d'intelligence artificielle avancé développé par OpenAI, combinant les capacités visuelles de GPT-4o et les capacités de raisonnement de pointe via l'apprentissage par renforcement. Il est capable d'interagir avec les interfaces graphiques utilisateur (GUI) comme un humain, sans dépendre des API de systèmes d'exploitation spécifiques ou des interfaces réseau. La flexibilité de CUA lui permet d'exécuter des tâches dans divers environnements numériques, tels que le remplissage de formulaires et la navigation sur le Web.
🔥 Doubao-1.5-pro
Doubao-1.5-pro est un grand modèle linguistique MoE (Mixture of Experts) hautes performances développé par l'équipe Doubao. Grâce à une conception intégrée entraînement-inférence, il réalise un équilibre optimal entre performances du modèle et performances d'inférence. Il offre d'excellents résultats sur plusieurs benchmarks d'évaluation publics, notamment en termes d'efficacité d'inférence et de capacités multimodales. Ce modèle convient aux scénarios nécessitant une inférence efficace et une interaction multimodale, tels que le traitement du langage naturel, la reconnaissance d'images et l'interaction vocale.
UI-TARS
UI-TARS est un nouveau modèle d'agent GUI développé par ByteDance, qui se concentre sur l'interaction transparente avec les interfaces utilisateur graphiques grâce à des capacités de perception, de raisonnement et d'action similaires à celles des humains. Ce modèle intègre des composants clés tels que la perception, le raisonnement, la localisation et la mémoire dans un seul modèle de langage visuel, permettant l'automatisation de tâches de bout en bout sans nécessiter de workflows prédéfinis ou de règles manuelles.
Hunyuan3D 2.0
Hunyuan3D 2.0 est un système avancé de synthèse 3D à grande échelle développé par Tencent, spécialisé dans la génération d'actifs 3D haute résolution et texturés. Ce système comprend deux composants fondamentaux : le modèle de génération de formes à grande échelle Hunyuan3D-DiT et le modèle de synthèse de textures à grande échelle Hunyuan3D-Paint. En dissociant les problèmes de génération de formes et de textures, il offre aux utilisateurs une plateforme flexible de création d'actifs 3D.
🔥 DeepSeek-R1
DeepSeek-R1 est le premier modèle d'inférence lancé par l'équipe DeepSeek. Entraîné par apprentissage par renforcement à grande échelle, il affiche d'excellentes capacités d'inférence sans nécessiter d'ajustement fin supervisé. Ce modèle excelle dans les tâches mathématiques, de codage et de raisonnement, et se situe au même niveau que le modèle OpenAI-o1. DeepSeek-R1 propose également plusieurs modèles distillés, adaptés à des scénarios aux besoins d'échelle et de performance variés.
🔥 Kimi k1.5
Kimi k1.5 est un modèle linguistique multimodal développé par MoonshotAI. Grâce à l'apprentissage par renforcement et aux techniques d'extension de contexte long, il améliore considérablement les performances du modèle dans les tâches d'inférence complexes. Ce modèle a atteint des niveaux de performance de pointe dans plusieurs tests de référence, surpassant GPT-4o et Claude Sonnet 3.5 dans des tâches de raisonnement mathématique telles que AIME et MATH-500.
🔥 Trae
Trae est un environnement de développement intégré (IDE) basé sur l'IA destiné aux développeurs. Il aide les développeurs à coder plus efficacement grâce à la complétion intelligente du code, l'interaction multimodale et l'analyse contextuelle de l'ensemble de la base de code.
🔥 Ray2
Luma AI lance Ray2, un modèle de génération de vidéos offrant des effets de mouvement plus rapides et plus naturels. Il prend principalement en charge la fonction de génération de vidéos à partir de texte ; les utilisateurs peuvent saisir une description pour générer une courte vidéo de 5 à 10 secondes.
FLUX Pro Finetuning API
L'API FLUX Pro Finetuning, lancée par Black Forest Labs, est un outil de personnalisation de modèles génératifs texte-vers-image. Elle permet aux utilisateurs d'affiner le modèle FLUX Pro à l'aide d'un petit nombre d'images d'exemple (1 à 5) pour générer un contenu d'images de haute qualité répondant à des besoins spécifiques de marque, de style ou de visuel.
🔥 moonshot-v1-vision-preview
Le modèle visuel Kimi est une technologie d'analyse d'image avancée fournie par la plateforme ouverte Moonshot AI. Il peut identifier et comprendre avec précision le texte, les couleurs et les formes d'objets contenus dans les images, offrant ainsi aux utilisateurs de puissantes capacités d'analyse visuelle.
🔥 MiniMax-01 series
La série MiniMax-01 est un modèle open source publié par MiniMax, comprenant MiniMax-Text-01 et MiniMax-VL-01. Cette série met en œuvre pour la première fois à grande échelle le mécanisme innovant d'attention éclair, offrant des performances comparables à celles des meilleurs modèles mondiaux. Elle permet de traiter efficacement des contextes extrêmement longs allant jusqu'à 4 millions de jetons, faisant d'elle un précurseur de l'ère des agents IA.
ReaderLM v2
ReaderLM v2 est un petit modèle linguistique de 1,5 milliard de paramètres, lancé par Jina AI, spécialement conçu pour la conversion HTML en Markdown et l'extraction HTML en JSON, avec une précision remarquable. Ce modèle prend en charge 29 langues et peut traiter des combinaisons d'entrée et de sortie allant jusqu'à 512 000 jetons.
🔥 Codestral 25.01
Codestral 25.01 est un modèle d'assistance à la programmation avancé lancé par Mistral AI, représentant la pointe de la technologie actuelle dans ce domaine. Ce modèle léger et rapide maîtrise plus de 80 langages de programmation. Il est optimisé pour une utilisation à faible latence et à haute fréquence, et prend en charge des tâches telles que le remplissage de code (FIM), la correction de code et la génération de tests.
🔥 万相营造
Wanxiang Yingzao est un outil de conception créative IA lancé par Alibaba Mama, visant à aider les commerçants à générer rapidement des supports créatifs de haute qualité et à améliorer l'efficacité du marketing. Il utilise une technologie IA de pointe pour réaliser la conversion d'images en vidéos, l'essayage intelligent, la génération de textes et bien d'autres fonctions, répondant ainsi aux besoins des commerçants en e-commerce dans différents scénarios marketing.
🔥 DeepSeek APP
L'application DeepSeek est officiellement lancée, les versions iOS et Android sont disponibles.
🔥 日日新融合大模型
SenseTime lance le modèle fusionné « Rìrìxīn », qui améliore considérablement les capacités de raisonnement approfondi et de traitement multimodale.
🔥 通义万相2.1模型
La nouvelle version 2.1 du modèle de génération de vidéos Tongyi Wanxiang d'Alibaba est lancée.
🔥 Moondream2
Moondream est un petit modèle linguistique visuel, conçu pour fonctionner efficacement sur les appareils périphériques.
🔥 OpenBMB PRIME
Eurus-2-7B-PRIME, similaire à o1, est entraîné à l'aide de la méthode PRIME (Process Reward by Implicit REward), une solution open source d'apprentissage par renforcement (RL) en ligne avec récompenses procédurales, visant à améliorer les capacités de raisonnement ou de distillation des modèles linguistiques au-delà de l'imitation. Il est initialisé à partir d'Eurus-2-7B-SFT et entraîné sur Eurus-2-RL-Data.
🔥 Nvidia Cosmos
NVIDIA Cosmos™ est une plateforme composée de modèles fondamentaux de génération de mondes (WFM) de pointe, de tokeniseurs avancés, de garde-fous et de pipelines accélérés de traitement et de gestion des données, conçue pour accélérer le développement de systèmes d'IA physique tels que les véhicules autonomes (VA) et les robots.
🔥 J1 Assistant
Le projet de startup d'intelligence artificielle Jarvis, appartenant à Luo Yonghao, a discrètement lancé une application d'assistant IA appelée « J1Assistant ». Actuellement, cette application n'est disponible qu'à l'international en version Android.