Lyzr 如何利用 Qdrant 大幅提升 AI 代理性能

Daniel Azoulai

2025 年 4 月 15 日

How Lyzr Supercharged AI Agent Performance with Qdrant

主页
/
博客
/
Lyzr 如何利用 Qdrant 大幅提升 AI 代理性能

本页内容

Lyzr 如何利用 Qdrant 大幅提升 AI 代理性能

How Lyzr Supercharged AI Agent Performance with Qdrant

智能代理扩展：Lyzr 如何利用 Qdrant 大幅提升性能

随着 AI 代理变得越来越强大和普及，其背后的基础设施必须不断发展，以应对日益增长的并发性、低延迟需求和不断增长的知识库。在 Lyzr 代理工作室，有超过 100 个代理部署在各个行业中，这些挑战迅速且大规模地出现。

当他们现有的向量数据库基础设施开始承受不住压力时，工程团队需要一个解决方案，它不仅能跟上，还能加速他们前进。

以下是他们如何重新思考其技术栈并采用 Qdrant 作为快速、可扩展代理性能的基础。

早期技术栈选择的扩展限制

Lyzr-architecture

Lyzr 的架构使用了 Weaviate，并对 Pinecone 进行了额外的基准测试。最初，这种设置对于开发和受控测试来说还不错。系统管理着大约 1,500 个向量条目，少量代理以稳定的模式发出适度的查询负载。

初始设置

参数	详情
部署类型	单节点或小集群（Weaviate 和其他向量数据库）
嵌入模型	Sentence-transformer（768 维度）
并发代理	10 到 20 个知识搜索代理
每个代理的查询速率	每分钟 5-10 次查询
流量模式	稳定，无明显高峰

在这些条件下，两个数据库都表现良好。查询延迟在 80 到 150 毫秒之间。索引操作在几个小时内完成。整体性能可预测且稳定。

但随着平台扩展——拥有更大的语料库、更复杂的工作流程和显著增加的并发性——这些系统开始出现故障。

增长带来延迟、超时和资源瓶颈

一旦知识库超过 2,500 个条目，并且实时代理并发量超过 100，平台就开始吃力。

查询延迟增加了近 4 倍，达到 300-500 毫秒。在高峰使用期间，代理有时会因等待向量结果而超时，这影响了下游的决策逻辑。索引操作也变慢了，消耗了过多的 CPU 和内存，并在数据更新期间造成了瓶颈。

这些问题在生产环境中造成了真正的摩擦，并明确表明需要一个更具可扩展性、更高性能的向量数据库。

替代向量数据库的评估

随着数据量和代理并发性的增长，Lyzr 需要一个更具可扩展性和效率的向量数据库。

他们需要能够处理更重负载、同时保持快速响应时间并降低运营开销的解决方案。他们根据以下标准评估了替代方案：

标准	重点领域	对系统的影响
可扩展性与分布式计算	横向扩展、集群	支持不断增长的数据集和高代理并发
索引性能	摄取速度、更新效率	减少停机时间并实现更快的批量数据更新
查询延迟和吞吐量	负载下的搜索响应	确保代理保持快速、实时的响应
一致性与可靠性	处理并发和故障	避免高峰使用期间的超时和查询失败
资源效率	CPU、内存和存储使用	在扩展工作负载的同时优化基础设施成本
基准测试结果	真实世界负载模拟	验证在 >1,000 QPM 负载下持续性能

Qdrant 将查询速度提升 >90%，索引速度提高 2 倍，并降低了 30% 的基础设施成本。

这种转变是通过 Qdrant 实现的，Qdrant 迅速超越了所有关键指标的预期。

使用 Qdrant，查询延迟降至仅 20-50 毫秒，比 Weaviate 和 Pinecone 提高了 >90%。即使有数百个并发代理每分钟生成超过 1,000 个查询，性能仍然保持一致。

索引操作显著改善。大型数据集的摄取时间 快了 2 倍，系统完成这些操作所需的计算和内存资源显著减少。这使得团队能够将基础设施成本降低约 30%。

Qdrant 还表现出更高的一致性。虽然 Weaviate 和 Pinecone 在扩展时都遇到了性能下降，但 Qdrant 在每分钟 1,000+ 次查询下保持稳定，支持 100 多个并发代理，没有出现延迟峰值或速度下降。最值得注意的是，Lyzr 在分布式代理之间保持了 每秒超过 250 次查询的吞吐量，而没有影响速度或稳定性。

指标	Weaviate	Pinecone	Qdrant
100 个代理下的平均查询延迟 (ms)	300-500	250-450	20-50 (P99)
索引时间 (2,500+ 条目)	~3	~2.5	~1.5
查询吞吐量 (QPS)	~80	~100	>250
资源利用率 (CPU/内存)	高	中高	中低
横向可扩展性	中等	中等	高度可扩展

Qdrant 基于 HNSW 的索引允许系统处理实时更新，无需停机或重新索引，消除了之前设置中最大的摩擦源之一。

案例聚焦：NTT Data 提高检索准确性

为 NTT Data 构建的一个部署专注于自动化 IT 变更请求工作流。该代理最初在 Azure 中的 Cosmos DB 上运行。虽然集成很顺利，但向量搜索性能有限。索引精度不足，并且随着数据量的增长，系统难以显示相关结果。

迁移到 Qdrant 后，差异立竿见影。检索准确性显著提高，即使对于长尾查询也是如此。系统在并发负载下保持了高响应性，并且横向扩展变得更简单——确保随着项目需求的演变，性能保持一致。

NTT Architecture

案例聚焦：NPD 支持代理实现准确、低延迟的检索

另一个例子涉及 NPD，它在六个网站上部署了面向客户的代理。这些代理的任务是回答产品问题，并根据动态的、全站范围的知识库引导用户到正确的 URL。

Qdrant 的向量搜索实现了数千个条目之间的准确、低延迟检索。即使在用户流量不断增加的情况下，平台仍能提供一致的性能，消除了以前解决方案中出现的延迟峰值。

NPD Architecture

总结

Lyzr 的经验教训很明确：生产级 AI 平台需要生产级向量数据库。

Qdrant 满足了这一要求。它使 Lyzr 能够显著降低延迟、扩展查询吞吐量、简化数据摄取并降低基础设施成本，同时在大规模部署中保持系统稳定性。

随着 AI 生态系统的发展，向量数据库的性能将越来越决定代理本身的性能。有了 Qdrant，Lyzr 获得了所需的基础设施，即使在真实世界的生产负载下，也能使其代理保持快速、智能和可靠。

想看看 Lyzr 代理工作室和 Qdrant 如何在您的技术栈中发挥作用吗？
探索 Lyzr 代理工作室或了解更多关于 Qdrant 的信息。

Lyzr 如何利用 Qdrant 大幅提升 AI 代理性能

Lyzr 如何利用 Qdrant 大幅提升 AI 代理性能

智能代理扩展：Lyzr 如何利用 Qdrant 大幅提升性能

早期技术栈选择的扩展限制

初始设置

增长带来延迟、超时和资源瓶颈

替代向量数据库的评估

Qdrant 将查询速度提升 >90%，索引速度提高 2 倍，并降低了 30% 的基础设施成本。

案例聚焦：NTT Data 提高检索准确性

案例聚焦：NPD 支持代理实现准确、低延迟的检索

总结

免费开始使用 Qdrant