Type :
- Actualités
- Applications de produits
- Études de monétisation
- Tutoriels IA
2025-03-06 16:34:57.AIbase.16.0k
腾讯开源全新图像转视频模型HunyuanVideo-I2V
Tencent annonce la publication en open source de son nouveau framework de génération de vidéos à partir d'images : HunyuanVideo-I2V. Cette publication fait suite au succès de la mise en open source de HunyuanVideo et vise à encourager l'exploration approfondie au sein de la communauté open source. HunyuanVideo-I2V intègre des techniques de pointe de génération vidéo, permettant de transformer des images statiques en contenu vidéo dynamique, offrant ainsi de nouvelles possibilités aux créateurs. HunyuanVideo-I2V utilise un modèle pré-entraîné...

2025-02-25 08:35:54.AIbase.15.7k
Aperçu de QwQ-Max, le modèle d'inférence d'Alibaba Tongyi Qianwen, disponible sur qwen.ai
Le 25 février, Alibaba a annoncé le lancement de QwQ-Max-Preview, un modèle d'inférence basé sur Qwen2.5-Max, et prévoit d'open-sourcer complètement ses derniers modèles d'inférence QwQ-Max et Qwen2.5-Max. QwQ-Max-Preview est une version préliminaire. Alibaba a indiqué que la version officielle sera bientôt disponible et sera open-sourcée sous licence Apache2.0. Contrairement aux précédentes versions, l'open-source inclut non seulement le modèle lui-même, mais aussi des versions plus légères, telles que Q...

2025-01-29 10:15:10.AIbase.15.0k
阿里云开源通义Qwen2.5-VL,视觉AI超越Claude 3.5
阿里云通义千问开源了其全新的视觉模型Qwen2.5-VL,提供3B、7B和72B三个尺寸版本。Le modèle phare, Qwen2.5-VL-72B, a remporté le championnat de compréhension visuelle dans 13 évaluations de référence, surpassant GPT-4o et Claude 3.5. Selon阿里云,le nouveau Qwen2.5-VL analyse le contenu des images avec plus de précision et prend en charge de manière révolutionnaire la compréhension de vidéos de plus d'une heure. Ce modèle peut rechercher des événements spécifiques dans les vidéos et analyser des vidéos incomplètes.

2025-01-14 15:11:46.AIbase.14.7k
清华大学、复旦大学和斯坦福大学联合开源“Eko”框架,实现电脑Agent自动化操作
Les équipes de recherche des universités de Tsinghua, Fudan et Stanford ont récemment publié un framework de développement d'Agent appelé "Eko", visant à aider les développeurs à créer rapidement des "employés virtuels" utilisables en production à l'aide de code simple et de langage naturel. Eko peut prendre le contrôle de l'ordinateur et du navigateur de l'utilisateur pour effectuer diverses tâches fastidieuses à la place des humains. Avec Eko, les utilisateurs peuvent automatiser la collecte de données, les tests et la gestion de fichiers. Par exemple, les utilisateurs peuvent configurer Eko pour collecter automatiquement des données sur Yahoo Finance...
2024-12-31 09:21:19.AIbase.14.4k
智元机器人开源全球首个百万真机数据集 AgiBot World
Récemment, la start-up robotique shanghaienne, 智元机器人, en collaboration avec le Laboratoire d'intelligence artificielle de Shanghai, le Centre d'innovation en robotique humanoïde national et local, et Shanghai Kupas, a officiellement publié en open source le jeu de données AgiBot World, un million de données réelles, visant à soutenir l'entraînement de grands modèles robotiques généralisés et universels. Il s'agit, selon les informations disponibles, du premier jeu de données au monde basé sur des scénarios réels omniprésents, une plateforme matérielle polyvalente et un contrôle de qualité complet. Le jeu de données AgiBot World est né de l'usine d'acquisition de données à grande échelle et de la base d'expérimentation d'applications auto-construites par 智元, dont la superficie totale est de …

2024-08-28 10:20:20.AIbase.11.3k
智谱AI开源新型模型,即使旧显卡也能开启视频生成新时代
智谱AI公司开源了其视频生成模型CogVideoX-5B,显著提高了视频生成的质量、视觉效果和推理性能。此新模型兼容较低配置的GPU,例如早期的GTX1080Ti和台式RTX3060。这款基于大型DiT模型的工具,采用3D因果变分自编码器和专家变换器技术,通过3D-RoPE位置编码和3D全注意力机制,实现高效的文本到视频生成。更多详情和代码,请访问指定链接。

2024-08-14 14:05:00.AIbase.11.0k
腾讯发布VITA,首个开源多模态大型语言模型,实现无障碍沟通
Le laboratoire Tencent YouTu et d'autres institutions ont publié VITA, le premier modèle linguistique multimodal de grande taille open source, visant à combler le manque de modèles linguistiques de grande taille capables de traiter les dialectes chinois. Basé sur le modèle Mixtral8×7B, VITA a étendu son vocabulaire chinois et a été finement ajusté pour les instructions bilingues, maîtrisant ainsi l'anglais et le chinois. Ses caractéristiques clés incluent : 1. **Compréhension multimodale** : VITA peut traiter les vidéos, les images, le texte et l'audio, une première pour les modèles open source. 2. **Interaction naturelle** : Aucune phrase d'activation spécifique n'est nécessaire, il répond instantanément, de manière courtoise et sans interruption.

2024-08-06 09:55:50.AIbase.10.8k
智谱AI开源其同源视频生成模型「清影」——CogVideoX
智谱AI a annoncé la publication en open source de son modèle de génération de vidéos CogVideoX, visant à accélérer le développement et l'application de la technologie de génération de vidéos. CogVideoX, basé sur une technologie de modèle large avancée, répond aux besoins des applications commerciales. La version CogVideoX-2B actuellement open source nécessite seulement 18 Go de mémoire vidéo pour l'inférence en précision FP-16 et 40 Go pour le réglage fin, permettant l'inférence sur une seule carte graphique 4090 et le réglage fin sur une seule carte graphique A6000.

2024-07-12 13:55:07.AIbase.10.2k
智谱AI开源视频理解模型CogVLM2-Video
智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。

2024-07-08 08:34:46.AIbase.10.1k
Shusheng·Puyu 2.5——InternLM 2.5-7B 模型开源,支持百万字长文本处理
Le laboratoire d'intelligence artificielle de Shanghai et SenseTime, en collaboration avec les universités chinoises de Hong Kong et Fudan, ont conjointement publié le 3 juillet un nouveau grand modèle de langage appelé « Shusheng·Puyu 2.5 ». La version 7B de ce modèle est désormais open source, et les autres versions suivront prochainement. Le laboratoire IA de Shanghai fournit aux développeurs une licence commerciale gratuite pour soutenir la recherche et l'innovation de modèles open source de haute qualité. Les récentes mises à jour du modèle ont considérablement amélioré ses capacités de raisonnement, surpassant notamment le modèle Llama3-70B sur l'ensemble de tests mathématiques MATH, avec un taux de précision de...

2024-06-07 14:16:19.AIbase.9.5k
Lancement de Qwen2 : le plus puissant modèle linguistique open source d'Alibaba
Dans la nuit, l'équipe d'Alibaba Cloud derrière Tongyi Qianwen a publié la série de modèles open source Qwen2. Cette série comprend cinq modèles pré-entraînés et finement ajustés pour les instructions : Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B et Qwen2-72B. Les informations clés indiquent que ces modèles présentent une augmentation significative du nombre de paramètres et des performances par rapport à la génération précédente, Qwen1.5.

2023-11-10 14:01:01.AIbase.3.1k
网易有道开源语音合成引擎「易魔声」,支持 2000 多种音色
网易有道推出「易魔声」开源语音合成引擎,支持中英文双语,包含 2000 多种不同的音色。Ce moteur dispose d'une fonction de synthèse émotionnelle unique, permettant de générer des voix exprimant un large éventail d'émotions telles que la joie, l'excitation, la tristesse et la colère. Il est téléchargeable gratuitement sur GitHub et offre une interface et des interfaces de script pour la synthèse et l'application d'émotions vocales. Ce projet vise à aider les développeurs et les créateurs de contenu à étendre l'utilisation de la synthèse vocale (TTS) de haute qualité. NetEase Youdao a également lancé...
2023-09-25 10:45:59.AIbase.1.6k
LLaMA-2 中文版开源:性能媲美主流大模型,可商用!
L'équipe Colossal-AI a construit un modèle LLaMA-2 chinois hautes performances à faible coût. Le LLaMA-2 chinois a obtenu d'excellents résultats dans plusieurs classements d'évaluation. Colossal-AI a rendu public le processus d'entraînement complet, le code et les poids. Colossal-AI fournit le cadre d'évaluation ColossalEval. La solution Colossal-AI peut être utilisée pour construire des grands modèles pour n'importe quel secteur d'activité.