CocoIndex
CocoIndex 是一个高性能 ETL 框架,用于转换 AI 数据,具有实时增量处理能力。
Qdrant 可作为原生内置向量数据库,用于存储和检索嵌入。
安装 CocoIndex
pip install -U cocoindex
使用 Docker Compose 安装 Postgres
docker compose -f <(curl -L https://raw.githubusercontent.com/cocoindex-io/cocoindex/refs/heads/main/dev/postgres.yaml) up -d
CocoIndex 是一个有状态的 ETL 框架,只处理已更改的数据。它使用 Postgres 作为元数据存储来跟踪数据的状态。
import cocoindex
doc_embeddings.export(
"doc_embeddings",
cocoindex.storages.Qdrant(
collection_name="cocoindex",
grpc_url="https://xyz-example.cloud-region.cloud-provider.cloud.qdrant.io:6334/",
api_key="<your-api-key-here>",
),
primary_key_fields=["id_field"],
setup_by_user=True,
)
规范包含以下字段
collection_name(类型: str, 必填): 导出数据到的集合名称。grpc_url(类型: str, 可选): Qdrant 实例的 gRPC URL。默认为 https://:6334/。api_key(类型: str, 可选)。用于验证请求的 API 密钥。
在导出之前,您必须创建一个集合,其向量名称与 CocoIndex 中的向量字段名称匹配,并在导出期间设置 setup_by_user=True。