FAZ 如何利用 Qdrant 激活 75 年的期刊内容

曼努埃尔·迈耶

2025 年 7 月 3 日

How FAZ unlocked 75 years of journalism with Qdrant

主页
/
博客
/
FAZ 如何利用 Qdrant 激活 75 年的期刊内容

本页内容

FAZ 如何使用 Qdrant 构建混合搜索引擎以激活 75 年的期刊内容

《法兰克福汇报》(FAZ) 是德国主要的全国性报纸，几十年来积累了丰富的期刊内容档案，可追溯到 1949 年。FAZ 档案长期以来一直致力于通过基于关键词和索引的搜索引擎，让内部和外部客户能够访问和搜索其长达 75 年的丰富藏品。因此，他们立即认识到新的 AI 驱动搜索技术是以前所未有的方式激活综合档案潜力，并系统性地解决传统搜索方法局限性的机会。他们最终采用的解决方案是深思熟虑的技术协调——Qdrant 是其核心。

这项工作由一个跨职能团队推动

Jens Peter Kutz，档案 AI 项目负责人，负责语义搜索和索引工作。
Hans Peter Troetscher，数据管理和应用部门负责人，负责系统架构和整体愿景。
René Weber，IT 系统管理员，专注于 FAZ Azure 环境中的部署和编排挑战。

挑战：将档案转变为研究引擎

FAZ 的档案包含数千万篇文章——从现代数字内容到 OCR 扫描的历史文档。编辑和研究人员需要一种方法，超越简单的关键词匹配，从档案中发掘更深层次的洞察。新的搜索体验需要理解含义，支持结构化过滤器，并在严格的基础设施限制内运行。

团队着手构建一个语义搜索平台作为第一步。早期实验使用 Azure OpenAI 的 text-embedding-3-large 模型嵌入文章段落，从而生成内容的高维向量表示。嵌入是按段落进行的，以确保相关性和粒度。团队还测试了系统对包含扫描来源 OCR 错误的回溯数字化内容的性能。

为什么 Qdrant 是合适的选择

从一开始，FAZ 就有具体的技术和组织需求

解决方案必须在他们自己的 Azure Kubernetes 服务 (AKS) 环境中运行。
它必须支持每个段落的复杂、无模式的元数据负载。
它必须支持对已更正或撤销发布的文章进行实时更新和删除。
而且，尽管数据不断更新，它仍需要在大规模下提供亚秒级性能。

Qdrant 满足了所有要求。其混合云部署模型赋予 FAZ 对基础设施和隐私的完全控制。将每个向量与丰富的元数据相关联的能力——包括作者、日期和文章类型等 60 多个字段——至关重要。凭借对标量量化、HNSW 索引和快速 upsert 的原生支持，Qdrant 可以跟上实时新闻编辑室的日常需求。

开发者体验是另一个重大胜利。正如 Jens Peter Kutz 所解释的，“文档结构清晰，极其有用——尤其是在学习全新堆栈时。”

元数据：智能搜索的支柱

Qdrant 对 FAZ 最强大的功能之一是它能够处理丰富的元数据负载。每个嵌入的段落都与以下字段相关联：

出版日期
作者和版块
文章类型（例如，社论、采访）
字数
来源类型（例如，印刷版与在线版）
索引元数据和提取置信度

这些负载允许用户按时间范围、作者、部分甚至文章长度过滤结果。FAZ 构建了一个 UI，让用户可以手动应用这些过滤器——或者通过 GPT-4 从自然语言提示中推断出来。

Qdrant 处理 60 多个负载字段和频繁更新的能力对于 FAZ 的工作流程至关重要，因为文章需要不断更新，有时还需要删除，尤其是线上内容比印刷文章更具动态性。该系统需要管理日常更新，因为新内容发布和现有文章被修改。

此外，FAZ 通过检索相邻的上下文向量（例如，前一个和后一个段落）来丰富用户体验，以生成流畅且可解释的答案。这种上下文拼接在查询时动态计算。

大规模性能

当前系统索引了过去几十年超过 1400 万个向量，目标是覆盖整个档案的 40-5000 万个向量。摄取操作每天进行，因为新的出版物被嵌入和索引。FAZ 使用量化来优化内存使用，并最大限度地提高搜索和更新管道的吞吐量。

内部测试的基准测试结果显示，Qdrant 在全档案相似性搜索中始终提供 <1 秒的响应时间——尽管应用了复杂的负载过滤器，并为每个结果返回了丰富、带注释的元数据。

Python 中的自定义摄取脚本与 OpenAI 的嵌入服务和 Qdrant 的 API 集成，处理从嵌入到负载组装和索引的所有内容。

AI 驱动新闻业的基础

FAZ 已经建立了一个强大的搜索系统，使七十多年的新闻内容对于现代编辑工作流程而言，既可访问又相关。通过将 Azure OpenAI 的语义嵌入与 Qdrant 的元数据感知向量搜索相结合，他们开发了一个既理解语言又理解结构的混合解决方案。该系统提供快速、相关的结果，并带有突出显示的上下文和相似度分数，使记者能够比以往任何时候都更直观地探索他们的档案。

凭借已经索引的数百万个向量以及扩展到整个档案的持续计划，FAZ 不仅为档案搜索树立了新的基准，而且还为下一代功能奠定了基础，这些功能将进一步提高精度、灵活性和编辑控制。

下一步：构建混合搜索

初始系统侧重于密集向量相似性以支持自然语言查询。用户可能会问“为什么通货膨胀正在上升？”，然后收到从几十年来 FAZ 新闻报道中语义相关文章中提取的答案段落。这种语义优先的方法是故意的。FAZ 团队选择首先构建一个纯粹的语义搜索引擎，以更好地了解其功能、优势和局限性。

随着团队积累了语义搜索引擎的经验，他们开始看到扩展其功能的机会。虽然密集向量检索对于探索性和抽象查询效果很好，但团队未来的增强功能将侧重于支持涉及搜索确切名称、日期或出版物引用的工作流程。这些用例为补充语义搜索与基于关键词的检索和结构化过滤提供了明确的机会，从而为平台带来更高的精度和控制。

为了满足这些需求，FAZ 现在正在规划其平台的下一阶段：一种结合了语义和符号检索优势的混合搜索架构。

新系统结合了

用于广泛语义理解的密集向量嵌入
使用 Qdrant 对混合搜索的本地支持的稀疏向量（例如 BM25 类）
结构化元数据过滤（作者、版块、日期范围）
通过 GPT-4 进行查询解释以实现自动过滤器设置和查询路由

“我们不仅仅是构建一个搜索工具，我们还在构建一个搜索解释器。而 Qdrant 是该架构中的核心节点。”Hans Peter Troetscher 说。

这一方向有望为记者和研究人员提供一种搜索体验，将语义理解与精确控制相结合，支持对数十年内容的直观探索和精确检索。