监控与遥测

Qdrant 以 Prometheus/OpenMetrics 格式公开其指标,因此你可以轻松地将其与兼容的工具集成,并使用自己的监控系统监控 Qdrant。你可以使用 /metrics 端点并将其配置为抓取目标。

指标端点:http://localhost:6333/metrics

使用 Prometheus 和 Grafana 配置与 Qdrant 的集成非常简单,请参考这里

监控多节点集群

从多节点 Qdrant 集群抓取指标时,从每个节点单独抓取非常重要,而不是使用负载均衡的 URL。否则,你的指标在每次抓取后可能会出现不一致。

在 Qdrant Cloud 中监控

Qdrant Cloud 提供了开源版本中没有的额外指标和遥测。更多信息请参见 Qdrant Cloud 监控

公开的指标

有两个可用的端点

  • /metrics 是底层 Qdrant 数据库节点的直接端点。

  • /sys_metrics 是 Qdrant 云服务专属的端点,提供关于集群的额外操作和基础设施指标,如 CPU、内存和磁盘利用率、集合指标以及负载均衡器遥测。更多信息请参见 Qdrant Cloud 监控

节点指标 /metrics

每个 Qdrant 服务器将公开以下指标。

名称类型含义
app_infogauge关于 Qdrant 服务器的信息
app_status_recovery_modegaugeQdrant 当前是否在恢复模式下启动
collections_totalgauge集合总数
collections_vector_totalgauge所有集合中的向量总数
collections_full_totalgauge完整集合的数量
collections_aggregated_totalgauge聚合集合的数量
rest_responses_totalcounter通过 REST API 的响应总数
rest_responses_fail_totalcounter通过 REST API 失败的响应总数
rest_responses_avg_duration_secondsgaugeREST API 的平均响应时长(秒)
rest_responses_min_duration_secondsgaugeREST API 的最小响应时长(秒)
rest_responses_max_duration_secondsgaugeREST API 的最大响应时长(秒)
grpc_responses_totalcounter通过 gRPC API 的响应总数
grpc_responses_fail_totalcounter通过 REST API 失败的响应总数
grpc_responses_avg_duration_secondsgaugegRPC API 的平均响应时长(秒)
grpc_responses_min_duration_secondsgaugegRPC API 的最小响应时长(秒)
grpc_responses_max_duration_secondsgaugegRPC API 的最大响应时长(秒)
cluster_enabledgauge是否启用集群支持。1 - 是
memory_active_bytesgauge应用程序分配的活跃页面总字节数。参考
memory_allocated_bytesgauge应用程序分配的总字节数。参考
memory_metadata_bytesgauge分配器元数据占用的总字节数。参考
memory_resident_bytesgauge物理驻留数据页面映射的最大字节数。参考
memory_retained_bytesgauge虚拟内存映射的总字节数。参考
collection_hardware_metric_cpugauge集合的 CPU 测量

集群相关指标

还有一些指标仅在分布式模式下公开。

名称类型含义
cluster_peers_totalgauge集群对等节点的总数
cluster_termcounter当前集群任期
cluster_commitcounter集群对等节点已知的最后提交(最终确定)操作的索引
cluster_pending_operations_totalgauge集群对等节点的待处理操作总数
cluster_votergauge集群对等节点是投票者还是学习者。1 - 投票者

遥测端点

Qdrant 还提供了一个 /telemetry 端点,提供有关数据库当前状态的信息,包括向量数量、分片数量以及其他有用信息。你可以在 API 参考中找到此端点的完整文档。

Kubernetes 健康检查端点

从 v1.5.0 起可用

Qdrant 公开三个端点,即 /healthz/livez/readyz,用于指示 Qdrant 服务器的当前状态。

这些端点目前提供最基本的状回应,如果 Qdrant 已启动并准备好使用,则返回 HTTP 200。

无论是否配置了 API 密钥,这些端点始终可访问。

你可以在此处阅读有关 Kubernetes 健康检查端点的更多信息。

此页面是否有用?

感谢你的反馈! 🙏

很抱歉听到这个。😔 你可以在 GitHub 上编辑此页面,或者创建一个 GitHub issue。