0

&AI 如何使用 Qdrant 扩展全球法律检索

Daniel Azoulai

·

2025年7月15日

How &AI scaled global legal retrieval with Qdrant

Bento Box

&AI 如何使用 Qdrant 扩展全球专利检索

&AI 的使命是重新定义专利诉讼。他们的平台通过智能现有技术检索、权利要求分析图表和自动化诉讼支持,帮助法律专业人士使专利失效。为了大规模实现这一目标,CTO 兼联合创始人 Herbie Turner 需要一个向量数据库,该数据库能够在大规模文档中实现快速、准确的检索,而不会增加 DevOps 的复杂性。这就是 Qdrant 的用武之地。

专利诉讼是一场高风险的游戏。当一家公司因专利侵权而被起诉时,最好的辩护往往是使专利完全失效。这意味着要证明该想法在专利授予之前已公开披露。找到这种“现有技术”需要筛选包含特定领域技术语言的庞大多语言文档语料库。

传统上,这通过外包搜索公司或律师在多个数据库中运行布尔查询来完成。这耗时、昂贵,并且严重依赖人类直觉。Turner 和联合创始人 Caleb Harris 看到了一个机会,即利用现代 AI 工具和大型语言模型 (LLM) 来重新定义问题。

“我们不是生成法律文本,律师们理所当然地不信任法律文本,而是将一切都围绕检索展开,”Turner 说。“如果我们将结果建立在真实文档的基础上,幻觉风险就会降到最低。”

从一开始,&AI 就将专利无效和图表制作视为语义检索问题。他们使用 OpenAI 的嵌入模型,将结构化和非结构化专利数据转换为密集的向量表示。

architecture &AI 的检索架构堆栈

但规模是巨大的。他们的完整语料库包括来自国际专利局和其他来源的数亿份文档,导致超过 2500 亿个标记。摄取、嵌入和搜索如此大量的数据需要一个强大、云原生的向量搜索解决方案。

“我们需要扩展到公开未进行基准测试的向量数量,”Turner 说。“Qdrant 是唯一一个开箱即用就能处理这种负载的——而且不需要专门的 DevOps 工程师。”

Turner 在之前的创业公司中使用过 Qdrant,他欣赏其高性能和强大的基于 Rust 的架构。但 Qdrant 主张明确的文档和内置的开发者工具才是最终决定因素。

“我非常赞成明确的文档,”Turner 说。“不要让我自己去弄清楚如何优化所有东西。Qdrant 会告诉你正确的做法;它就是有效。”
—— Herbie Turner,&AI 首席技术官兼联合创始人

从嘈杂的 PDF 到结构化向量

为了支持全球规模,&AI 使用了 Reducto,这是一种针对准确性进行优化的基于 AI 的 PDF 解析服务,用于处理跨越数十年和司法管辖区的专利数据。由此产生的结构化数据通过 OpenAI 的嵌入 API 转换为密集向量,然后索引到 Qdrant 中。

专利格式随着时间和地区的变化而变化,因此即使是清理和标准化数据也带来了挑战。&AI 构建了一个预处理管道,其中包括 OCR、标准化、元数据提取和负载结构化。

他们选择了 Qdrant 中的标量量化,以加快检索速度,同时保持高精度。二进制量化的初步实验显示召回率下降太多,迫使 &AI 检索数万个候选词才能达到其质量标准。标量量化是最佳选择。

语义而非生成

&AI 没有依赖 LLM 生成法律输出,而是将其任务视为检索问题。一切,包括现有技术检索、无效图表、权利要求比较,都被视为排名和基础问题。

“我们首先进行广泛搜索以获取候选词,然后使用元数据过滤、权利要求解释分析和上下文特定重排序来优化结果,”Turner 说。

Qdrant 的可过滤 HNSW、有效负载字段索引和多租户支持使这成为可能。公共专利搜索在全球范围内运行,而特定于公司的法律数据则存储在独立的租户空间中。

“内置多租户功能非常重要,”Turner 说。“它让我们能够向公司提供强大的数据隐私保证,而无需搭建单独的基础设施。”

扩展基础设施,而非人员

通过使用 Qdrant Cloud,&AI 避免了管理 DevOps 或自行托管大规模向量集群的需要。即使扩展到超过 10 亿个向量,Qdrant 的托管基础设施也能提供快速搜索和低内存使用。

“专利诉讼涉及巨大利益,一个结果可能影响价值数十亿美元的案件,”Turner 说。“准确性是首要任务,Qdrant 让我们可以在不牺牲成本或性能的情况下对此进行优化。”

Qdrant 对负载过滤器多租户和量化的支持使 &AI 能够进行深度优化。他们的 AI 专利代理人 Andy 使用自然语言指导律师完成专利分析任务,大大缩短了达到结果所需的时间。

“借助 Qdrant,我们扩展到了十亿个向量,仍然能在亚秒级延迟内响应。这使我们能够为过去需要数小时才能完成的工作流程提供支持,现在只需几分钟。”

开启新市场和新工作流程

&AI 搜索全球专利语料库的能力为新的司法管辖区和法律用例打开了大门。它还让他们有信心向客户提供强有力的保证:是的,我们正在查看*所有内容*。

他们的语义优先检索引擎也催生了新产品,如实时无效检查和交互式权利要求可视化。有了在 Qdrant 中奠定基础、结构化和索引的数据,团队继续快速构建。

展望未来

&AI 已经在开发 Andy 的下一个版本,扩展自然语言功能并增加专利工作流程的自动化。随着 Qdrant 即将推出的推理功能以及对混合和多模态搜索的支持,Turner 看到了更深入集成的空间。

“我们希望停留在应用层。如果 Qdrant 能继续减轻我们的基础设施复杂性,我们很乐意继续在其基础上构建。”

随着法律 AI 的成熟,&AI 的检索优先方法——以及 Qdrant 的基础设施支持——正在帮助为 AI 中风险最高的领域之一带来清晰度和信任。

免费开始使用 Qdrant

开始使用