La communauté Apache Cassandra a récemment annoncé la sortie officielle de Cassandra 5.0. Cette mise à jour améliore non seulement l'efficacité des données, mais intègre également des fonctionnalités d'IA générative (GenAI) et des performances optimisées. Cassandra, une base de données NoSQL distribuée et open source, permet de gérer efficacement des données à grande échelle sur plusieurs serveurs, garantissant ainsi une haute disponibilité et une tolérance aux pannes.

image.png

La version Cassandra 5.0 apporte des améliorations significatives, la plus notable étant la nouvelle fonctionnalité d'indexation secondaire attachée au stockage (SAI). Auparavant, les utilisateurs devaient définir strictement les données, mais désormais, les développeurs bénéficient d'une plus grande flexibilité pour les requêtes, sans être limités par des structures de données fixes. Cela signifie que les requêtes sur les données non primaires sont plus efficaces, et l'utilisation d'index secondaires est simplifiée, réduisant ainsi la charge du système.

De plus, Cassandra 5.0 étend les fonctionnalités de la base de données en intégrant la recherche vectorielle (Vector Search) et de nouveaux types de données vectorielles. Ces fonctionnalités sont essentielles pour les projets d'IA et de machine learning, permettant une meilleure recherche de similarité, le stockage et la récupération de vecteurs embarqués, améliorant ainsi les performances des moteurs de recommandation, de la détection de fraude, de la reconnaissance d'images et des chatbots IA.

La mise à jour introduit également une stratégie de compression unifiée, augmentant considérablement la densité des données sur chaque nœud. Alors qu'auparavant chaque nœud supportait un maximum de quatre téraoctets, Cassandra 5.0 supporte désormais dix téraoctets, voire plus. Cette amélioration permet aux entreprises de réduire le nombre de nœuds dans les déploiements à grande échelle, diminuant ainsi les coûts d'exploitation.

Par ailleurs, Cassandra 5.0 introduit une nouvelle paire de structures de données, appelées trie memtables et trie SSTables. Ces structures optimisent l'interaction entre les données saisies par l'utilisateur et le stockage sur disque, réduisant les temps de traitement et de conversion inutiles, ce qui permet une extraction des données de la mémoire ou du disque plus rapide et plus efficace.

Cette publication est la première mise à jour majeure depuis le lancement de Cassandra 4.0 en 2021. Depuis lors, la communauté Apache Cassandra s'est concentrée sur le développement de la version 5.0, introduisant une série de nouvelles fonctionnalités pour améliorer ses performances et son applicabilité. Les utilisateurs peuvent migrer de la version 4.0 à la version 5.0 via une mise à niveau en ligne, minimisant ainsi les temps d'arrêt de l'application. Avec le lancement de Cassandra 5.0, le cycle de vie de la série 3.x prend fin. Les utilisateurs doivent planifier au plus vite leur stratégie de mise à niveau pour continuer à bénéficier du support et des mises à jour de sécurité.

À l'avenir, la communauté Cassandra continuera à développer la version 5.1, qui devrait implémenter des transactions ACID complètes (Atomicité, Cohérence, Isolation, Durabilité) pour étendre l'applicabilité de la base de données à de nouveaux cas d'utilisation.

Points clés :

🔍 Ajout de la fonctionnalité d'indexation secondaire attachée au stockage (SAI), rendant les requêtes plus flexibles et efficaces.

🚀 Intégration de la recherche vectorielle et de nouveaux types de données vectorielles, pour soutenir les projets d'IA et de machine learning.

💾 Capacité de données par nœud augmentée à 10 To, réduisant les coûts d'exploitation des entreprises.