IBM améliore watsonx.ai : Lancement du modèle Llama distillé DeepSeek-R1

AIbase基地

Publié leActualités IA · 2 minutes de lecture · Feb 11, 2025

202

IBM a récemment annoncé que sa plateforme de développement d'IA watsonx.ai prend désormais en charge les modèles Llama 3.18B et Llama 3.370B distillés par DeepSeek-R1. DeepSeek, grâce à la technique de distillation de connaissances, a optimisé plusieurs variantes de Llama et de Qwen en utilisant les données générées par le modèle R1, améliorant ainsi les performances du modèle.

Sur la plateforme watsonx.ai, les utilisateurs peuvent accéder aux modèles distillés DeepSeek de deux manières. Premièrement, IBM fournit des versions distillées de Llama dans le répertoire « Déploiement à la demande », permettant aux utilisateurs de déployer des instances dédiées pour garantir une inférence sécurisée. Deuxièmement, les utilisateurs peuvent également importer d'autres variantes de DeepSeek-R1, telles que les modèles distillés Qwen, via la fonction « Importation de modèles de base personnalisés », afin de répondre à des besoins applicatifs variés.

DeepSeek

DeepSeek-R1 possède de puissantes capacités d'inférence, applicables à un large éventail de domaines, offrant aux entreprises et aux développeurs une solution IA efficace et flexible. Cette mise à jour enrichit davantage l'écosystème de modèles de watsonx.ai, aidant les utilisateurs à développer et déployer plus facilement des applications d'IA.

Aperçu de QwQ-Max, le modèle d'inférence d'Alibaba Tongyi Qianwen, disponible sur qwen.ai

Le 25 février, Alibaba a annoncé le lancement de QwQ-Max-Preview, un modèle d'inférence basé sur Qwen2.5-Max, et prévoit d'open-sourcer complètement ses derniers modèles d'inférence QwQ-Max et Qwen2.5-Max. QwQ-Max-Preview est une version préliminaire. Alibaba a indiqué que la version officielle sera bientôt disponible et sera open-sourcée sous licence Apache2.0. Contrairement aux précédentes versions, l'open-source inclut non seulement le modèle lui-même, mais aussi des versions plus légères, telles que Q...

智谱 AI 宣布 GLM-4-9B 和 CodeGeeX4-ALL-9B 支持 Ollama 部署

智谱 AI vient d'annoncer la prise en charge de ses modèles open source GLM-4-9B et CodeGeeX4-ALL-9B par Ollama. GLM-4-9B est un modèle polyvalent à plusieurs domaines, qui offre des performances exceptionnelles et est accessible au partage ouvert. CodeGeeX4-ALL-9B, basé sur ce modèle, est spécialisé dans la génération de code multilingue, et améliore considérablement les capacités de génération. Ollama est un outil qui permet de déployer facilement des grands modèles linguistiques en environnement local, compatible avec Windows, macOS et Li...

Ollama 0.2 publié : la concurrence activée par défaut pour traiter plusieurs requêtes et charger plusieurs modèles simultanément

La version 0.2 d'Ollama est sortie, avec une nouvelle fonctionnalité : la concurrence activée par défaut. Cela permet de traiter plusieurs requêtes simultanément, améliorant ainsi l'expérience utilisateur. Cette mise à jour ajoute la capacité de gérer des requêtes parallèles et de charger des modèles différents en parallèle, optimisant ainsi l'efficacité du traitement des tâches et permettant le traitement multitâche, notamment pour les conversations, la complétion de code et le traitement de documents. De plus, le système intègre désormais une fonctionnalité d'chargement et de déchargement automatique des modèles, ajustée dynamiquement en fonction de l'utilisation de la mémoire GPU pour garantir une exécution stable et efficace. Cette mise à jour rend Ollama plus puissant et intelligent, offrant une meilleure expérience utilisateur.

Actualités IA

IBM améliore watsonx.ai : Lancement du modèle Llama distillé DeepSeek-R1

AIbase基地

Recommandations d'actualités IA connexes

Alerte concernant les failles de sécurité ! L’outil de modèle linguistique Ollama présente des vulnérabilités critiques

Aperçu de QwQ-Max, le modèle d'inférence d'Alibaba Tongyi Qianwen, disponible sur qwen.ai

智谱 AI 宣布 GLM-4-9B 和 CodeGeeX4-ALL-9B 支持 Ollama 部署

Ollama 0.2 publié : la concurrence activée par défaut pour traiter plusieurs requêtes et charger plusieurs modèles simultanément