CocoIndex
CocoIndex 是一个高性能的 ETL 框架,用于转换 AI 数据,并具备实时增量处理能力。
Qdrant 作为原生的内置向量数据库,可用于存储和检索嵌入。
安装 CocoIndex
pip install -U cocoindex
使用 Docker Compose 安装 Postgres
docker compose -f <(curl -L https://raw.githubusercontent.com/cocoindex-io/cocoindex/refs/heads/main/dev/postgres.yaml) up -d
CocoIndex 是一个有状态的 ETL 框架,仅处理已更改的数据。它使用 Postgres 作为元数据存储来跟踪数据的状态。
import cocoindex
doc_embeddings.export(
"doc_embeddings",
cocoindex.storages.Qdrant(
collection_name="cocoindex",
grpc_url="https://xyz-example.cloud-region.cloud-provider.cloud.qdrant.io:6334/",
api_key="<your-api-key-here>",
),
primary_key_fields=["id_field"],
setup_by_user=True,
)
规范包含以下字段
collection_name
(类型: str, 必需): 导出数据到的 collection 名称。grpc_url
(类型: str, 可选): Qdrant 实例的 gRPC URL。默认为 http://localhost:6334/。api_key
(类型: str, 可选). 用于认证请求的 API 密钥。
导出前,必须创建一个 collection,其向量名称与 CocoIndex 中的向量字段名称匹配,并在导出期间设置 setup_by_user=True
。