监控与遥测
Qdrant 以 Prometheus/OpenMetrics 格式公开其指标,因此你可以轻松地将其与兼容的工具集成,并使用自己的监控系统监控 Qdrant。你可以使用 /metrics
端点并将其配置为抓取目标。
指标端点:http://localhost:6333/metrics
使用 Prometheus 和 Grafana 配置与 Qdrant 的集成非常简单,请参考这里。
监控多节点集群
从多节点 Qdrant 集群抓取指标时,从每个节点单独抓取非常重要,而不是使用负载均衡的 URL。否则,你的指标在每次抓取后可能会出现不一致。
在 Qdrant Cloud 中监控
Qdrant Cloud 提供了开源版本中没有的额外指标和遥测。更多信息请参见 Qdrant Cloud 监控。
公开的指标
有两个可用的端点
/metrics
是底层 Qdrant 数据库节点的直接端点。/sys_metrics
是 Qdrant 云服务专属的端点,提供关于集群的额外操作和基础设施指标,如 CPU、内存和磁盘利用率、集合指标以及负载均衡器遥测。更多信息请参见 Qdrant Cloud 监控。
节点指标 /metrics
每个 Qdrant 服务器将公开以下指标。
名称 | 类型 | 含义 |
---|---|---|
app_info | gauge | 关于 Qdrant 服务器的信息 |
app_status_recovery_mode | gauge | Qdrant 当前是否在恢复模式下启动 |
collections_total | gauge | 集合总数 |
collections_vector_total | gauge | 所有集合中的向量总数 |
collections_full_total | gauge | 完整集合的数量 |
collections_aggregated_total | gauge | 聚合集合的数量 |
rest_responses_total | counter | 通过 REST API 的响应总数 |
rest_responses_fail_total | counter | 通过 REST API 失败的响应总数 |
rest_responses_avg_duration_seconds | gauge | REST API 的平均响应时长(秒) |
rest_responses_min_duration_seconds | gauge | REST API 的最小响应时长(秒) |
rest_responses_max_duration_seconds | gauge | REST API 的最大响应时长(秒) |
grpc_responses_total | counter | 通过 gRPC API 的响应总数 |
grpc_responses_fail_total | counter | 通过 REST API 失败的响应总数 |
grpc_responses_avg_duration_seconds | gauge | gRPC API 的平均响应时长(秒) |
grpc_responses_min_duration_seconds | gauge | gRPC API 的最小响应时长(秒) |
grpc_responses_max_duration_seconds | gauge | gRPC API 的最大响应时长(秒) |
cluster_enabled | gauge | 是否启用集群支持。1 - 是 |
memory_active_bytes | gauge | 应用程序分配的活跃页面总字节数。参考 |
memory_allocated_bytes | gauge | 应用程序分配的总字节数。参考 |
memory_metadata_bytes | gauge | 分配器元数据占用的总字节数。参考 |
memory_resident_bytes | gauge | 物理驻留数据页面映射的最大字节数。参考 |
memory_retained_bytes | gauge | 虚拟内存映射的总字节数。参考 |
collection_hardware_metric_cpu | gauge | 集合的 CPU 测量 |
集群相关指标
还有一些指标仅在分布式模式下公开。
名称 | 类型 | 含义 |
---|---|---|
cluster_peers_total | gauge | 集群对等节点的总数 |
cluster_term | counter | 当前集群任期 |
cluster_commit | counter | 集群对等节点已知的最后提交(最终确定)操作的索引 |
cluster_pending_operations_total | gauge | 集群对等节点的待处理操作总数 |
cluster_voter | gauge | 集群对等节点是投票者还是学习者。1 - 投票者 |
遥测端点
Qdrant 还提供了一个 /telemetry
端点,提供有关数据库当前状态的信息,包括向量数量、分片数量以及其他有用信息。你可以在 API 参考中找到此端点的完整文档。
Kubernetes 健康检查端点
从 v1.5.0 起可用
Qdrant 公开三个端点,即 /healthz
、/livez
和 /readyz
,用于指示 Qdrant 服务器的当前状态。
这些端点目前提供最基本的状回应,如果 Qdrant 已启动并准备好使用,则返回 HTTP 200。
无论是否配置了 API 密钥,这些端点始终可访问。
你可以在此处阅读有关 Kubernetes 健康检查端点的更多信息。