CocoIndex

CocoIndex 是一个高性能 ETL 框架,用于转换 AI 数据,具有实时增量处理能力。

Qdrant 可作为原生内置向量数据库,用于存储和检索嵌入。

安装 CocoIndex

pip install -U cocoindex

使用 Docker Compose 安装 Postgres

docker compose -f <(curl -L https://raw.githubusercontent.com/cocoindex-io/cocoindex/refs/heads/main/dev/postgres.yaml) up -d

CocoIndex 是一个有状态的 ETL 框架,只处理已更改的数据。它使用 Postgres 作为元数据存储来跟踪数据的状态。

import cocoindex

doc_embeddings.export(
    "doc_embeddings",
    cocoindex.storages.Qdrant(
        collection_name="cocoindex",
        grpc_url="https://xyz-example.cloud-region.cloud-provider.cloud.qdrant.io:6334/",
        api_key="<your-api-key-here>",
    ),
    primary_key_fields=["id_field"],
    setup_by_user=True,
)

规范包含以下字段

  • collection_name (类型: str, 必填): 导出数据到的集合名称。
  • grpc_url (类型: str, 可选): Qdrant 实例的 gRPC URL。默认为 https://:6334/。
  • api_key (类型: str, 可选)。用于验证请求的 API 密钥。

在导出之前,您必须创建一个集合,其向量名称与 CocoIndex 中的向量字段名称匹配,并在导出期间设置 setup_by_user=True

延伸阅读

此页面有用吗?

感谢您的反馈!🙏

听到这个消息我们很抱歉。😔 您可以在 GitHub 上编辑此页面,或创建一个 GitHub issue。