Apache Cassandra 社区近日宣布, Cassandra5.0正式发布。这次更新不仅提升了数据效率,还加入了生成 AI(GenAI)功能和优化的性能。作为一款分布式开源 NoSQL 数据库 Cassandra 可以高管理跨多个服务器的大规模数据,确保高可用性和容错能力。

image.png

版本 Cassandra5.0带来了重大的进步,其中最引人注目的是全新的存储附加索引(SAI)功能。以往,用户需要严格定义数据,而现在,开发者可以更灵活地进行查询,无需再受限于固定的数据结构。这意味着对于非主键的查询变得更加高效,同时二级索引的使用也变得简单,降低了系统负担。

此外,Cassandra5.0还扩展了数据库的功能,加入了向量搜索(Vector Search)和新的向量数据类型。这些功能对于 AI 和机器学习项目至关重要,可以更好地进行相似性,存储和检索嵌入向量,进而提升推荐引擎、欺诈检测、图像识别及 AI 聊天机器人的效果。

更新中还引入了统一的压缩策略,使每个节点的数据密度大幅提升。相较于之前每个节点最大支持四 TB,现在的 Cassandra5.0能支持十 TB 甚至更多。这一改进使得企业用户在大规模部署中可以减少节点数量,从而降低运营成本。

另外,Cassandra5.0推出了一对新的数据结构,称为 trie memtables 和 trie SSTables,这些结构将用户输入的数据与磁盘存储进行了更好的对接,减少了不必要的处理和转换时间,使得从内存或磁盘中提取数据的速度更快、更高效。

这次发布是自2021年 Cassandra4.0推出以来的第一次重大升级。自那时以来,Apache Cassandra 社区集中精力于5.0的开发,推出了一系列新特性和功能,以提升其性能和适用性。用户可以通过在线升级从4.0版本迁移到5.0,尽量减少应用程序的停机时间。随着 Cassandra5.0的推出,3.x 系列的生命周期也宣告结束,用户需要尽快规划升级策略,以确保继续获得支持和安全更新。

未来,Cassandra 社区还将继续推进5.1版本的开发,预计该版本将实现完整的 ACID(原子性、一致性、隔离性、持久性)事务,以扩展数据库在新用例中的适用性。

划重点:  

🔍 新增存储附加索引(SAI)功能,让查询更灵活高效。  

🚀 引入向量搜索和新向量数据类型,助力 AI 和机器学习项目。  

💾 每个节点数据容量提升至10TB,减少了企业的运营成本。