ByteDance a récemment annoncé l'open source de son nouveau système d'inférence AIBrix. Ce système, spécialement conçu pour le moteur d'inférence vLLM, vise à fournir une surface de contrôle d'inférence évolutive et économique pour répondre aux besoins croissants en IA des entreprises.

Le lancement d'AIBrix marque une nouvelle étape. L'équipe du projet espère, grâce à ce projet open source, jeter les bases d'une infrastructure d'inférence évolutive. Ce système offre une solution cloud native complète, optimisant le déploiement, la gestion et l'évolutivité des grands modèles linguistiques. Il est particulièrement adapté aux besoins des entreprises, garantissant aux utilisateurs un service plus efficace.

image.png

En termes de fonctionnalités, la première version d'AIBrix se concentre sur plusieurs points clés. Tout d'abord, la gestion haute densité de LoRA (Low-Rank Adaptation), fonctionnalité visant à simplifier la prise en charge de l'adaptation de modèles légers, permettant aux utilisateurs de gérer plus facilement les modèles. Ensuite, AIBrix fournit des fonctionnalités de passerelle et de routage LLM, permettant une gestion et une allocation efficaces du trafic entre plusieurs modèles et copies, garantissant ainsi que les requêtes atteignent rapidement et précisément le modèle cible. De plus, l'extenseur automatique pour les applications LLM permet d'ajuster dynamiquement les ressources d'inférence en fonction des besoins en temps réel, améliorant ainsi la flexibilité et la réactivité du système.

L'équipe AIBrix de ByteDance a indiqué qu'elle prévoit de poursuivre l'évolution et l'optimisation du système en étendant le cache KV distribué, en introduisant des principes de gestion des ressources traditionnels et en améliorant l'efficacité du calcul grâce à l'analyse des performances.