Ant Group, via sa filiale CodeFuse, a rendu open source ModelCache, un cache sémantique pour les grands modèles de langage, afin de réduire les coûts d'inférence et d'améliorer l'expérience utilisateur des applications utilisant ces modèles.
L'architecture de ModelCache comprend les modules suivants : adapter, embedding, similarity et data_manager. Il permet de convertir du texte en représentation vectorielle sémantique, puis de classer et d'évaluer ces vecteurs en fonction de leur similarité.
Les statistiques de performance en ligne de ModelCache montrent qu'une mise en cache réussie permet de réduire le temps de réponse moyen par un facteur de 10, soit une accélération de 14,5%.
À l'avenir, ModelCache continuera à être optimisé en termes de performance et de précision, afin d'améliorer le temps de rappel et la justesse des résultats.