Bulletin IA : OpenAI lance l'API o1-pro la plus chère de son histoire ; Tencent dévoile son nouveau modèle d'inférence T1 ; le modèle vidéo Step-Video-TI2V de Jieyue Xingchen est open source

Bienvenue à la rubrique 【AI日报】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l'IA, en nous concentrant sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits d'IA.

Nouveaux produits IA Cliquez pour en savoir plus : https://top.aibase.com/

1. Le plus cher ! OpenAI lance le modèle d'IA amélioré o1-pro, dix fois plus cher que o1

OpenAI a récemment lancé sa nouvelle génération de modèles d'IA, o1-pro, visant à fournir des capacités de raisonnement supérieures. Cependant, son prix élevé a suscité un vif intérêt. Les prix d'entrée et de génération de o1-pro sont respectivement deux et dix fois supérieurs à ceux de GPT-4.5 et de o1 standard. Malgré cela, OpenAI a de grands espoirs quant à ses performances, estimant qu'il pourra répondre aux besoins des développeurs en matière de tâches complexes.

【Résumé AiBase :】
💡 OpenAI lance le nouveau modèle d'IA o1-pro pour améliorer les capacités de raisonnement.
💰 Le prix de o1-pro est extrêmement élevé : les frais d'entrée sont deux fois plus élevés que ceux de GPT-4.5, et les frais de génération sont dix fois plus élevés que ceux de o1 standard.
🤔 Les retours des premiers utilisateurs sur o1-pro sont mitigés, mais il se montre plus fiable pour le codage et les problèmes mathématiques.

2. Contrôle du mouvement ! Le modèle de génération de vidéo à partir d'images Step-Video-TI2V de Jieyue Xingchen est open source

Le modèle Step-Video-TI2V, développé par Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd., représente une innovation significative dans le domaine de la génération de vidéos à partir d'images. Basé sur Step-Video-T2V avec 30 milliards de paramètres, ce modèle permet de générer des vidéos de haute qualité, avec un contrôle de l'amplitude du mouvement et du mouvement de la caméra, idéal pour la création d'animations et la production de courtes vidéos. Grâce à l'optimisation de la cohérence et du dynamisme de la génération, ce modèle offre aux créateurs une plus grande flexibilité pour répondre à diverses exigences de taille et d'effets.

【Résumé AiBase :】
🚀 Le modèle Step-Video-TI2V, basé sur 30 milliards de paramètres, peut générer des vidéos de 5 secondes à une résolution de 540P, avec un contrôle de l'amplitude du mouvement et du mouvement de la caméra.
🎨 Ce modèle excelle dans les effets d'animation et convient à la création d'animations et à la production de courtes vidéos, prenant en charge la génération de plusieurs tailles.
🔧 L'introduction de conditions d'image et du module AdaLN a amélioré la cohérence et le contrôle dynamique de la génération de vidéos par rapport à l'image d'origine.
Lien détaillé : https://yuewen.cn/videos

3. Tencent HunYuan dévoile une nouvelle initiative ! Le nouveau modèle d'inférence T1 sera lancé le 21 mars au soir

Tencent HunYuan a annoncé que son nouveau modèle d'inférence T1 sera officiellement lancé le 21 mars. Cela marque une nouvelle étape dans l'évolution technologique et la mise à niveau des produits dans le domaine des grands modèles d'intelligence artificielle. Simultanément, le grand modèle Tencent HunYuan a fait son entrée pour la première fois au classement mondial Top 15 de Chatbot Arena, démontrant que ses capacités technologiques sont au niveau international. Le monde attend avec impatience les améliorations du modèle T1 en matière de capacité d'inférence, afin de consolider la position de Tencent dans la compétition mondiale des grands modèles.

【Résumé AiBase :】
🚀 Tencent HunYuan lancera le nouveau modèle d'inférence T1 le 21 mars, marquant une mise à niveau technologique.
🏆 Le grand modèle Tencent HunYuan a fait son entrée pour la première fois au classement mondial Top 15 de Chatbot Arena, démontrant ses capacités technologiques.
🌍 Le monde attend avec impatience les améliorations du modèle T1 en matière de capacité d'inférence, pour consolider la position de Tencent dans la compétition mondiale.

4. Coût divisé par dix ! Open-Sora 2.0, l'IA vidéo open source, atteint une qualité professionnelle

Open-Sora 2.0, récemment lancé par HPC-AI Tech, est un système d'IA vidéo révolutionnaire. Son coût de formation est dix fois inférieur à celui des systèmes traditionnels, tout en offrant une qualité de sortie comparable aux produits professionnels. Ce système a réussi à améliorer considérablement la vitesse de formation grâce à un processus de formation en trois étapes et à un encodeur automatique efficace, bien que des limitations subsistent en termes de résolution et de durée de la vidéo. Le lancement d'Open-Sora 2.0 pourrait avoir un impact profond sur la structure des coûts dans le domaine de l'IA vidéo, stimulant la concurrence entre les systèmes open source et commerciaux.

【Résumé AiBase :】
💡 Le coût de formation d'Open-Sora 2.0 est de seulement 200 000 $, soit bien moins que les plusieurs millions de dollars nécessaires aux systèmes de génération de vidéos de haute qualité existants.
⚙️ Ce système utilise un processus de formation en trois étapes et un encodeur automatique vidéo DC-AE, offrant une vitesse de formation 5,2 fois plus rapide et une vitesse de génération de vidéos plus de dix fois supérieure.
📈 Le score VBench d'Open-Sora 2.0 n'est inférieur que de 0,69 % à celui de Sora d'OpenAI, affichant d'excellentes performances en termes de qualité visuelle et de précision des invites.

5. Le robot Atlas de Boston Dynamics franchit une nouvelle étape : des capacités motrices proches de celles des humains

Boston Dynamics a récemment présenté les dernières capacités motrices de son robot humanoïde Atlas. En combinant l'apprentissage par renforcement et la capture de mouvement, Atlas est capable d'apprendre par lui-même et d'exécuter des mouvements plus naturels et plus souples, semblables à ceux des humains. Cette percée technologique devrait rapprocher les robots humanoïdes des applications réelles, notamment dans les domaines de l'industrie, de la médecine et des secours.

【Résumé AiBase :】
🤖 Atlas, grâce à l'apprentissage par renforcement et à la capture de mouvement, réalise des mouvements plus naturels et semblables à ceux des humains.
🚀 Cette percée technologique améliore l'adaptabilité et la coordination du robot dans des environnements complexes.
🌐 La collaboration entre Boston Dynamics et le RAI Institute ouvre de nouvelles perspectives pour la commercialisation de la technologie des robots humanoïdes.

6. Incroyable ! Un robot humanoïde réalise un mouvement « humain de haut niveau », le premier saut périlleux arrière réussi par l'Unitree G1, osant défier les humains !

Le robot humanoïde G1 d'Unitree Robotics a réussi un saut périlleux arrière de haut niveau, atterrissant en toute sécurité, marquant une avancée majeure dans les capacités motrices des robots. Cet exploit témoigne non seulement de la fiabilité et du taux de réussite élevé du G1, mais a également suscité un vif intérêt parmi les passionnés de technologie du monde entier. Pour tester davantage ses capacités, Unitree Robotics a lancé le « défi du saut périlleux arrière pour robots et humains », encourageant les humains à relever ce défi difficile. Le gagnant recevra un robot G1 ou un prix équivalent.

【Résumé AiBase :】
🤸‍♂️ Le robot G1 d'Unitree Robotics a réussi un saut périlleux arrière, devenant le premier robot humanoïde au monde à réaliser cet exploit.
🏆 Unitree Robotics lance le « défi du saut périlleux arrière pour robots et humains », encourageant les humains à relever ce défi difficile.
🌍 La compétition a attiré l'attention des passionnés de technologie du monde entier, attendant de voir le premier humain réussir à reproduire le saut périlleux arrière du robot.

7. Adobe lance le projet « Project Slide Wow », transformant les données en présentations PowerPoint attrayantes en un clic

Lors de la conférence annuelle sur l'innovation numérique d'Adobe, le projet « Project Slide Wow » a suscité un grand intérêt. Cet outil basé sur l'IA générative vise à transformer rapidement les données client brutes en présentations PowerPoint captivantes, simplifiant considérablement le travail des analystes de données et des spécialistes du marketing. Grâce à la génération automatique de diapositives de haute qualité et à un assistant intelligent intégré, les utilisateurs peuvent mettre à jour et ajuster le contenu des présentations en temps réel, garantissant l'exactitude et l'actualité des informations.

【Résumé AiBase :】
✨ L'outil d'IA générative permet de transformer rapidement les données brutes en présentations PowerPoint de haute qualité, simplifiant considérablement le processus de création.
🤖 L'assistant intelligent intégré répond aux besoins des utilisateurs en temps réel, offrant une visualisation supplémentaire et une génération de diapositives dynamiques.
📊 La capacité de mise à jour des données en temps réel garantit que les informations présentées sont toujours les plus récentes, améliorant l'efficacité des décisions des entreprises.

8. Orpheus TTS : un modèle TTS nouvelle génération dont l'expression émotionnelle se rapproche de celle des humains

Orpheus TTS est un nouveau modèle open source de synthèse vocale qui a suscité un vif intérêt grâce à sa très faible latence et à sa capacité d'expression émotionnelle élevée. Ce modèle excelle dans les scénarios de conversations en temps réel, offrant une sortie vocale naturelle et fluide, améliorant considérablement l'expérience de l'interaction vocale intelligente. Son caractère open source offre aux développeurs davantage de possibilités de personnalisation, et il devrait devenir une référence dans de nombreux domaines.

【Résumé AiBase :】
⚡ **Très faible latence :** latence par défaut d'environ 200 ms, pouvant être réduite à 25-50 ms après optimisation, répondant aux besoins des conversations en temps réel.
🎭 **Expression émotionnelle :** sortie vocale naturelle et fluide, prenant en charge de nombreuses variations de ton, améliorant l'expérience interactive.
🎙️ **Flux de sortie en temps réel :** prend en charge la génération de flux audio, garantissant la synchronisation de la génération vocale avec l'entrée, adapté à de nombreux scénarios.
Lien détaillé : https://github.com/canopyai/Orpheus-TTS

9. LG open source le modèle EXAONE Deep, présenté comme le premier modèle d'IA d'inférence auto-développé en Corée du Sud

LG AI Research a récemment mis en open source le modèle d'IA d'inférence EXAONE Deep, marquant l'entrée de l'IA dans une nouvelle ère d'IA proactive. Ce modèle, doté de 32 milliards de paramètres, présente des capacités d'inférence exceptionnelles, excellant notamment en raisonnement logique et en mathématiques, obtenant un score de 94,5 aux mathématiques du baccalauréat coréen, comparable à celui d'un élève surdoué.

【Résumé AiBase :】
🧠 EXAONE Deep est le premier modèle d'IA d'inférence auto-développé en Corée du Sud, capable de formuler des hypothèses et de les vérifier de manière indépendante.
📊 EXAONE Deep, avec ses 32 milliards de paramètres, excelle en raisonnement logique et en mathématiques, obtenant notamment 94,5 aux mathématiques du baccalauréat coréen.
📱 LG a également mis en open source des modèles légers et embarqués, conservant respectivement 95 % et 86 % des performances, adaptés aux smartphones, aux voitures et à de nombreux autres secteurs.
Lien détaillé : https://top.aibase.com/tool/exaone-deep

10. L'assistant IA Gemini sera bientôt intégré au navigateur Google Chrome, pour une utilisation plus conviviale !

Dans le contexte du développement rapide des technologies Internet, le navigateur Google Chrome s'apprête à intégrer en profondeur l'assistant IA Gemini. Cette fonctionnalité améliorera considérablement l'expérience utilisateur en ligne, la rendant plus conviviale. Les utilisateurs pourront appeler l'assistant Gemini directement via une icône sur l'interface du navigateur, avec la prise en charge de raccourcis clavier personnalisés et d'une icône dans la zone de notification système, bien que le mode de fixation de la barre latérale ne soit pas encore pris en charge.

【Résumé AiBase :】
✨ L'assistant IA Gemini sera intégré en profondeur au navigateur Chrome, améliorant l'expérience utilisateur en ligne.
🔧 Les utilisateurs peuvent appeler rapidement l'assistant Gemini via une icône sur l'interface du navigateur, avec la prise en charge de raccourcis clavier personnalisés.
🗣️ L'assistant Gemini prend en charge la recherche vocale, mais le mode de fixation de la barre latérale n'est pas encore pris en charge.

AI Quotidien

Bulletin IA : OpenAI lance l'API o1-pro la plus chère de son histoire ; Tencent dévoile son nouveau modèle d'inférence T1 ; le modèle vidéo Step-Video-TI2V de Jieyue Xingchen est open source

站长之家

Cet article provient d'AIbase Daily