CocoIndex

CocoIndex 是一个高性能的 ETL 框架,用于转换 AI 数据,并具备实时增量处理能力。

Qdrant 作为原生的内置向量数据库,可用于存储和检索嵌入。

安装 CocoIndex

pip install -U cocoindex

使用 Docker Compose 安装 Postgres

docker compose -f <(curl -L https://raw.githubusercontent.com/cocoindex-io/cocoindex/refs/heads/main/dev/postgres.yaml) up -d

CocoIndex 是一个有状态的 ETL 框架,仅处理已更改的数据。它使用 Postgres 作为元数据存储来跟踪数据的状态。

import cocoindex

doc_embeddings.export(
    "doc_embeddings",
    cocoindex.storages.Qdrant(
        collection_name="cocoindex",
        grpc_url="https://xyz-example.cloud-region.cloud-provider.cloud.qdrant.io:6334/",
        api_key="<your-api-key-here>",
    ),
    primary_key_fields=["id_field"],
    setup_by_user=True,
)

规范包含以下字段

  • collection_name (类型: str, 必需): 导出数据到的 collection 名称。
  • grpc_url (类型: str, 可选): Qdrant 实例的 gRPC URL。默认为 http://localhost:6334/。
  • api_key (类型: str, 可选). 用于认证请求的 API 密钥。

导出前,必须创建一个 collection,其向量名称与 CocoIndex 中的向量字段名称匹配,并在导出期间设置 setup_by_user=True

进一步阅读

本页是否有用?

感谢您的反馈!🙏

得知此讯我们感到抱歉。😔 您可以在 GitHub 上编辑此页面,或创建一个 GitHub issue。