L'équipe NovaSky du laboratoire de calcul Sky de l'Université de Californie à Berkeley a publié vendredi le modèle d'inférence Sky-T1-32B-Preview, qui a excellé dans plusieurs benchmarks clés, rivalisant avec les premières versions de o1 d'OpenAI, et ce qui est encore plus remarquable, à un coût de formation extrêmement bas.

Sky-T1-32B-Preview est le premier véritable modèle d'inférence open source. NovaSky a non seulement publié le modèle, mais aussi l'ensemble de données utilisé pour son entraînement et le code d'entraînement nécessaire, ce qui signifie que le modèle peut être reproduit à partir de zéro. Comme l'équipe l'a indiqué dans un article de blog, « le coût d'entraînement de Sky-T1-32B-Preview était inférieur à 450 $, ce qui démontre qu'il est possible de reproduire des capacités d'inférence avancées de manière économique. » Il y a peu de temps encore, l'entraînement de modèles aux performances comparables coûtait souvent des millions de dollars. Cette baisse drastique des coûts est principalement due à l'utilisation de données d'entraînement synthétiques ou générées par d'autres modèles. Par exemple, la société d'intelligence artificielle Writer a récemment publié le modèle Palmyra X004, entraîné presque entièrement sur des données synthétiques, pour un coût de développement de seulement 700 000 $.

1_1693449769614_ai2023_Facial_AI_robots_a_lot_of_cash_on_the_conference_table_i_d531bb02-0ec5-4e0a-9f1c-a65fa11a4c51

Source : L'image a été générée par l'IA, fournisseur de services d'autorisation d'images : Midjourney

Les modèles d'inférence diffèrent des modèles d'intelligence artificielle classiques ; ils peuvent effectuer une vérification des faits de manière efficace, évitant ainsi certains pièges courants. Cependant, les modèles d'inférence prennent généralement plus de temps pour trouver des solutions, de quelques secondes à quelques minutes. Mais leur fiabilité dans des domaines tels que la physique, les sciences et les mathématiques est un avantage considérable.

L'équipe NovaSky a révélé qu'elle avait utilisé le modèle d'inférence QwQ-32B-Preview d'Alibaba pour générer les données d'entraînement initiales de Sky-T1, puis avait « nettoyé » les données et utilisé GPT-4o-mini d'OpenAI pour les restructurer dans un format plus convivial. L'entraînement de Sky-T1, un modèle de 32 milliards de paramètres, sur 8 racks de GPU Nvidia H100 a pris environ 19 heures. Le nombre de paramètres correspond approximativement à la capacité du modèle à résoudre des problèmes.

En termes de performances, Sky-T1 a surpassé les premières versions d'aperçu de o1 sur MATH500 (un ensemble de défis mathématiques de « niveau compétition ») et a également battu la version d'aperçu de o1 sur un ensemble de problèmes difficiles provenant de LiveCodeBench (une évaluation de codage). Cependant, Sky-T1 n'a pas aussi bien performé que la version d'aperçu de o1 sur GPQA-Diamond, qui comprend des problèmes de physique, de biologie et de chimie que les étudiants en doctorat devraient maîtriser. De plus, la version o1GA d'OpenAI est plus puissante que la version d'aperçu, et OpenAI prévoit de publier dans les prochaines semaines le modèle d'inférence o3, aux performances encore meilleures.

Néanmoins, l'équipe NovaSky a déclaré que Sky-T1 n'était que le point de départ de son développement de modèles open source dotés de capacités d'inférence avancées. « À l'avenir, nous nous concentrerons sur le développement de modèles plus efficaces, en maintenant de solides performances d'inférence, et en explorant des technologies de pointe pour améliorer encore l'efficacité et la précision du modèle lors des tests », a écrit l'équipe dans son message. « Restez à l'écoute pour suivre nos progrès sur ces projets passionnants. » L'apparition de ce modèle d'inférence open source offre sans aucun doute de nouvelles opportunités et de nouveaux défis au domaine de l'intelligence artificielle, et son développement futur mérite d'être suivi de près.