Garden 如何使用 Qdrant 扩展专利情报
Daniel Azoulai
·2025 年 5 月 9 日

Garden 利用 Qdrant 的可过滤向量搜索加速专利情报处理
一个多世纪以来,专利诉讼一直是一项缓慢、依靠人力的业务。分析师逐页阅读——有时甚至数万页——寻找能够证明侵权或无效的关键段落。总部位于纽约的初创公司 Garden 着手改变这一状况,他们将大规模人工智能应用于全球整个专利库(超过 2 亿项专利),并结合数 TB 的真实世界数据。
联合创始人 Justin Mack 解释说:“我们的客户需要在几秒钟内(而不是几天)比较数百万种可能的专利-产品配对。”“这意味着向量搜索必须能够处理庞大的数据集并提供精细过滤。”
一个让简单向量搜索失效的数据集
每项专利可达 100 多页,并且由于几十年的修订,包含约 2,000 个元数据字段:管辖范围、授权日期、族 ID、权利要求依赖关系等等。Garden 将每项专利分解成具有语义意义的块,生成“数亿”向量。同样的管道还会摄取真实世界的产品数据,用于与专利进行比较。
工程需求很快超出了 Garden 的第一个解决方案——一个完全托管的向量服务。他们已有数十 GB 的数据,每月花费约 5,000 美元。而且由于缺乏原生的可过滤 HNSW,Garden 不得不为每个国家、日期范围和技术标签的组合建立单独的索引。最后,由于基础设施缺乏可见性,故障排除变得缓慢且昂贵。
第二次迁移到自托管的开源替代方案降低了成本,但也带来了新的痛点:一个两人团队需要进行随叫随到的操作,需要在工作时间进行升级,而且——关键是——仍然存在同样的过滤限制。
发现 Qdrant
当 Garden 发现 Qdrant 关于可过滤 HNSW 的博客文章时,团队意识到他们无需附加定制的分片逻辑,就能获得他们想要的搜索语义。
Mack 说:“可过滤 HNSW 是决定因素,但 Qdrant Cloud 的 托管的 Rust 底层架构使其最终确定。我们保留了源代码级的透明度,同时卸载了全天候的运营工作。”
标量量化(8 位)将热向量保存在 RAM 中,而较冷的、全精度嵌入则存储在磁盘上——非常适合 Garden 读密集、突发性的工作负载。
SLA 支持的亚 100 毫秒延迟即使在用户一次点击触发数千次查询时,也能满足 Garden 的产品目标。
按使用量付费的定价使 Garden 能够以与过去存储一小部分语料库大致相同的成本存储 10 倍的数据。
实践中的迁移
Garden 之前已将所有向量存储在 Google Cloud Storage 中。一个周末的脚本化 ETL 将嵌入数据推送到 Qdrant Cloud。由于 Qdrant 的摄取 API 与流行的开源约定一致,团队只修改了现有迁移脚本的几行代码。最繁重的工作——在 2,000 个 GPU 组成的临时集群上对 2 亿项专利进行基于 GPU 的嵌入——已于数月前完成。
业务影响
关键绩效指标 (KPI) | 使用 Qdrant 之前 | 使用 Qdrant 之后 |
---|---|---|
可寻址专利语料库 | 约 2000 万 | 2 亿+ |
管理的向量数据 | 数千万 | 数亿 |
典型查询延迟 | 250 – 400 毫秒 | 小于 100 毫秒 P95 |
每 GB 存储成本 | 基准 | 约低 10 倍 |
新收入来源 | 0 | 完整的侵权分析产品 |
可过滤的 HNSW 不仅加快了现有工作流程,还开辟了一条全新的业务线——高置信度侵权检测。客户现在只需点击一个按钮,即可在几分钟内收到权利要求比对质量的分析。对于一些企业来说,这意味着获得七位数或更高金额的许可收入,或者对专利流氓进行决定性的辩护。
展望未来
随着 Garden 客户群的增长,每秒查询数 (QPS) 的要求将比数据量增长得更快。同时,Garden 计划对每项专利进行更深入的丰富——将冗长的描述分解成向量索引可以利用的结构化事实。
Mack 指出:“我们再也不用考虑向量层了。Qdrant 让我们能够专注于客户付费购买的知识产权洞察。”