如需最新的快照版本,请使用 Spring AI 1.1.3spring-doc.cadn.net.cn

Apache Cassandra 向量存储

本节将指导您设置 CassandraVectorStore 以存储文档嵌入并执行相似性搜索。spring-doc.cadn.net.cn

什么是 Apache Cassandra?

Apache Cassandra® 是一个真正的开源分布式数据库,以线性可扩展性、经过验证的容错能力和低延迟而闻名,使其成为关键任务事务数据的完美平台。spring-doc.cadn.net.cn

其向量相似性搜索(VSS)基于 JVector 库,确保了卓越的性能和相关性。spring-doc.cadn.net.cn

在 Apache Cassandra 中进行向量搜索非常简单,如下所示:spring-doc.cadn.net.cn

SELECT content FROM table ORDER BY content_vector ANN OF query_embedding;

更多关于此内容的文档可以在这里阅读。spring-doc.cadn.net.cn

这个 Spring AI 向量存储旨在为全新的 RAG 应用程序提供服务,并且能够被适配在现有的数据和表之上。spring-doc.cadn.net.cn

该存储还可以用于现有数据库中的非RAG用例,例如语义搜索、地理位置邻近搜索等。spring-doc.cadn.net.cn

存储库将根据其配置按需自动创建或增强模式。如果您不希望修改模式,请将存储库配置为 initializeSchemaspring-doc.cadn.net.cn

在使用 spring-boot-autoconfigure 时,根据 Spring Boot 的标准,initializeSchema 默认为 false,并且你必须通过在 application.properties 文件中设置 …​initialize-schema=true 来选择启用模式的创建/修改。spring-doc.cadn.net.cn

JVector 是什么?

JVector 是一个纯 Java 嵌入式向量搜索引擎。spring-doc.cadn.net.cn

它在其他 HNSW 向量相似性搜索实现中脱颖而出,因为:spring-doc.cadn.net.cn

  • 算法极速。JVector 采用了受 DiskANN 及相关研究启用的最先进图算法,提供高召回率和低延迟。spring-doc.cadn.net.cn

  • 实现速度快。JVector 使用 Panama SIMD API 来加速索引构建和查询。spring-doc.cadn.net.cn

  • 内存高效。JVector 使用乘积量化压缩向量,使它们在搜索期间可以保留在内存中。spring-doc.cadn.net.cn

  • 磁盘感知。JVector 的磁盘布局旨在在查询时执行最少的必要 IOPS 操作。spring-doc.cadn.net.cn

  • 并发。索引构建可线性扩展至至少 32 个线程。线程数翻倍,构建时间减半。spring-doc.cadn.net.cn

  • 增量式。在构建索引时进行查询。添加向量与在搜索结果中找到它之间没有延迟。spring-doc.cadn.net.cn

  • 易于嵌入。专为易于嵌入而设计的 API,由在生产环境中使用它的人设计。spring-doc.cadn.net.cn

前置条件

  1. 一个用于计算文档嵌入的 EmbeddingModel 实例。这通常配置为 Spring Bean。有多个选项可用:spring-doc.cadn.net.cn

    • Transformers Embedding - 在您的本地环境中计算嵌入。默认是通过 ONNX 和 all-MiniLM-L6-v2 Sentence Transformers 实现的。这直接可用。spring-doc.cadn.net.cn

    • 如果您想使用 OpenAI 的 Embeddings - 使用 OpenAI 嵌入端点。您需要在 OpenAI 注册 创建一个账户,并在 API 密钥 生成 api-key Tokens。spring-doc.cadn.net.cn

    • 还有更多选择,请参阅 Embeddings API 文档。spring-doc.cadn.net.cn

  2. 一个 Apache Cassandra 实例,版本为 5.0-beta1spring-doc.cadn.net.cn

    1. DIY 快速入门spring-doc.cadn.net.cn

    2. 对于托管服务,Astra DB 提供了健康的免费层级服务。spring-doc.cadn.net.cn

依赖项

Spring AI自动配置和starter模块的artifact名称有了重大变化。 请参阅升级说明获取更多信息。spring-doc.cadn.net.cn

对于依赖管理,我们建议使用 Spring AI BOM,如 Dependency Management 部分所述。

将以下依赖项添加到您的项目中:spring-doc.cadn.net.cn

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-cassandra-store</artifactId>
</dependency>
  • 或者,对于 RAG 应用程序所需的一切(使用默认的 ONNX 嵌入模型):spring-doc.cadn.net.cn

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-starter-vector-store-cassandra</artifactId>
</dependency>

配置属性

您可以在 Spring Boot 配置中使用以下属性来自定义 Apache Cassandra 向量存储。spring-doc.cadn.net.cn

<property> </property> 默认值

spring.ai.vectorstore.cassandra.keyspacespring-doc.cadn.net.cn

Spring Frameworkspring-doc.cadn.net.cn

spring.ai.vectorstore.cassandra.tablespring-doc.cadn.net.cn

ai_vector_storespring-doc.cadn.net.cn

spring.ai.vectorstore.cassandra.initialize-schemaspring-doc.cadn.net.cn

falsespring-doc.cadn.net.cn

spring.ai.vectorstore.cassandra.index-namespring-doc.cadn.net.cn

spring.ai.vectorstore.cassandra.content-column-namespring-doc.cadn.net.cn

内容spring-doc.cadn.net.cn

spring.ai.vectorstore.cassandra.embedding-column-namespring-doc.cadn.net.cn

嵌入spring-doc.cadn.net.cn

spring.ai.vectorstore.cassandra.fixed-thread-pool-executor-sizespring-doc.cadn.net.cn

16spring-doc.cadn.net.cn

用法

基本用法

将 CassandraVectorStore 实例创建为 Spring Bean:spring-doc.cadn.net.cn

@Bean
public VectorStore vectorStore(CqlSession session, EmbeddingModel embeddingModel) {
    return CassandraVectorStore.builder(embeddingModel)
        .session(session)
        .keyspace("my_keyspace")
        .table("my_vectors")
        .build();
}

一旦您拥有了向量存储实例,就可以添加文档并执行搜索:spring-doc.cadn.net.cn

// Add documents
vectorStore.add(List.of(
    new Document("1", "content1", Map.of("key1", "value1")),
    new Document("2", "content2", Map.of("key2", "value2"))
));

// Search with filters
List<Document> results = vectorStore.similaritySearch(
    SearchRequest.query("search text")
        .withTopK(5)
        .withSimilarityThreshold(0.7f)
        .withFilterExpression("metadata.key1 == 'value1'")
);

高级配置

对于更复杂的使用场景,您可以在您的 Spring Bean 中配置额外的设置:spring-doc.cadn.net.cn

@Bean
public VectorStore vectorStore(CqlSession session, EmbeddingModel embeddingModel) {
    return CassandraVectorStore.builder(embeddingModel)
        .session(session)
        .keyspace("my_keyspace")
        .table("my_vectors")
        // Configure primary keys
        .partitionKeys(List.of(
            new SchemaColumn("id", DataTypes.TEXT),
            new SchemaColumn("category", DataTypes.TEXT)
        ))
        .clusteringKeys(List.of(
            new SchemaColumn("timestamp", DataTypes.TIMESTAMP)
        ))
        // Add metadata columns with optional indexing
        .addMetadataColumns(
            new SchemaColumn("category", DataTypes.TEXT, SchemaColumnTags.INDEXED),
            new SchemaColumn("score", DataTypes.DOUBLE)
        )
        // Customize column names
        .contentColumnName("text")
        .embeddingColumnName("vector")
        // Performance tuning
        .fixedThreadPoolExecutorSize(32)
        // Schema management
        .initializeSchema(true)
        // Custom batching strategy
        .batchingStrategy(new TokenCountBatchingStrategy())
        .build();
}

连接配置

配置 Cassandra 连接有两种方式:spring-doc.cadn.net.cn

@Bean
public VectorStore vectorStore(CqlSession session, EmbeddingModel embeddingModel) {
    return CassandraVectorStore.builder(embeddingModel)
        .session(session)
        .keyspace("my_keyspace")
        .table("my_vectors")
        .build();
}
@Bean
public VectorStore vectorStore(EmbeddingModel embeddingModel) {
    return CassandraVectorStore.builder(embeddingModel)
        .contactPoint(new InetSocketAddress("localhost", 9042))
        .localDatacenter("datacenter1")
        .keyspace("my_keyspace")
        .build();
}

元数据过滤

您可以在 CassandraVectorStore 中利用通用的、可移植的元数据过滤器。要使元数据列可搜索,它们必须是主键或 SAI 索引。要使非主键列可索引,请使用 SchemaColumnTags.INDEXED 配置元数据列。spring-doc.cadn.net.cn

例如,您可以使用文本表达式语言:spring-doc.cadn.net.cn

vectorStore.similaritySearch(
    SearchRequest.builder().query("The World")
        .topK(5)
        .filterExpression("country in ['UK', 'NL'] && year >= 2020").build());

或以编程方式使用表达式 DSL:spring-doc.cadn.net.cn

Filter.Expression f = new FilterExpressionBuilder()
    .and(
        f.in("country", "UK", "NL"),
        f.gte("year", 2020)
    ).build();

vectorStore.similaritySearch(
    SearchRequest.builder().query("The World")
        .topK(5)
        .filterExpression(f).build());

可移植的过滤器表达式会自动转换为 CQL 查询spring-doc.cadn.net.cn

高级示例:基于 Wikipedia 数据集的向量存储

以下示例演示如何在现有架构上使用存储。这里我们使用来自 github.com/datastax-labs/colbert-wikipedia-data 项目的架构,该项目提供了完整的维基百科数据集,并已为您准备好向量化。spring-doc.cadn.net.cn

首先,在 Cassandra 数据库中创建架构:spring-doc.cadn.net.cn

wget https://s.apache.org/colbert-wikipedia-schema-cql -O colbert-wikipedia-schema.cql
cqlsh -f colbert-wikipedia-schema.cql

然后使用构建器模式配置存储:spring-doc.cadn.net.cn

@Bean
public VectorStore vectorStore(CqlSession session, EmbeddingModel embeddingModel) {
    List<SchemaColumn> partitionColumns = List.of(
        new SchemaColumn("wiki", DataTypes.TEXT),
        new SchemaColumn("language", DataTypes.TEXT),
        new SchemaColumn("title", DataTypes.TEXT)
    );

    List<SchemaColumn> clusteringColumns = List.of(
        new SchemaColumn("chunk_no", DataTypes.INT),
        new SchemaColumn("bert_embedding_no", DataTypes.INT)
    );

    List<SchemaColumn> extraColumns = List.of(
        new SchemaColumn("revision", DataTypes.INT),
        new SchemaColumn("id", DataTypes.INT)
    );

    return CassandraVectorStore.builder()
        .session(session)
        .embeddingModel(embeddingModel)
        .keyspace("wikidata")
        .table("articles")
        .partitionKeys(partitionColumns)
        .clusteringKeys(clusteringColumns)
        .contentColumnName("body")
        .embeddingColumnName("all_minilm_l6_v2_embedding")
        .indexName("all_minilm_l6_v2_ann")
        .initializeSchema(false)
        .addMetadataColumns(extraColumns)
        .primaryKeyTranslator((List<Object> primaryKeys) -> {
            if (primaryKeys.isEmpty()) {
                return "test§¶0";
            }
            return String.format("%s§¶%s", primaryKeys.get(2), primaryKeys.get(3));
        })
        .documentIdTranslator((id) -> {
            String[] parts = id.split("§¶");
            String title = parts[0];
            int chunk_no = parts.length > 1 ? Integer.parseInt(parts[1]) : 0;
            return List.of("simplewiki", "en", title, chunk_no, 0);
        })
        .build();
}

@Bean
public EmbeddingModel embeddingModel() {
    // default is ONNX all-MiniLM-L6-v2 which is what we want
    return new TransformersEmbeddingModel();
}

正在加载完整的维基百科数据集

要加载完整的维基百科数据集:spring-doc.cadn.net.cn

  1. s.apache.org/simplewiki-sstable-tar 下载 simplewiki-sstable.tar(这将需要一段时间,文件大小为几十GB)spring-doc.cadn.net.cn

  2. 加载数据:spring-doc.cadn.net.cn

tar -xf simplewiki-sstable.tar -C ${CASSANDRA_DATA}/data/wikidata/articles-*/
nodetool import wikidata articles ${CASSANDRA_DATA}/data/wikidata/articles-*/

访问原生客户端

Cassandra 向量存储实现通过 getNativeClient() 方法提供对底层原生 Cassandra 客户端 (CqlSession) 的访问:spring-doc.cadn.net.cn

CassandraVectorStore vectorStore = context.getBean(CassandraVectorStore.class);
Optional<CqlSession> nativeClient = vectorStore.getNativeClient();

if (nativeClient.isPresent()) {
    CqlSession session = nativeClient.get();
    // Use the native client for Cassandra-specific operations
}

原生客户端使您能够访问 Cassandra 特有的功能和操作,这些功能和操作可能无法通过 VectorStore 接口公开。spring-doc.cadn.net.cn