0

用于研究的 Qdrant:ETH 和斯坦福 MIRIAD 数据集背后的故事

Evgeniya Sukhodolskaya & Daniel Azoulai

·

2025 年 7 月 23 日

Qdrant for Research: The Story Behind ETH & Stanford’s MIRIAD Dataset

今年夏天,苏黎世联邦理工学院 (ETH Zurich) 和斯坦福大学的研究人员发布了 MIRIAD,这是一个包含 580 万个医学问答对的开源数据集,每个问答对都基于同行评审的文献。

如此规模的数据集有潜力成为解决医疗领域缺乏结构化、内容丰富、高质量数据的终极解决方案。它是显著减少医疗人工智能应用中幻觉的有力措施,旨在作为检索增强生成 (RAG) 的知识库和下游嵌入模型的来源。

对我们来说,最值得骄傲的时刻之一是意识到 Qdrant 是 MIRIAD 故事的一部分,为它的存储和 RAG 实验提供支持。
我们采访了 MIRIAD 的两位主要作者,郑琴月 (ETH)Salman Abdullah (斯坦福),以了解 MIRIAD 背后的动机,其作者如何看待它的未来,以及为什么 Qdrant 是研究团队的刻意选择。

为什么医疗 AI 需要 MIRIAD

大型语言模型(LLM)的幻觉在一般领域已经存在问题,而在医疗领域则事关生死。因此,为了减轻这些风险并使医疗人工智能应用可用,最有希望的方法似乎是利用结构化、有根据的知识来增强 LLM。

许多现代 RAG 和代理系统,包括医疗人工智能中使用的那些,通常依赖于原始的、非结构化数据,这些数据噪声大,与下游任务的对齐性差。很明显,医学与人工智能的交叉领域可以从包含长篇、上下文丰富的问答对的数据集中显著受益。
该领域所有现有数据集,如 MedQA-USMLE 或 PubMedQA,要么仅限于多项选择问答格式,要么专注于医学论文的狭窄部分,如摘要或结论,留下了令人担忧的知识空白。

MIRIAD 作者的目标是创建一个大规模数据集,该数据集是

  • 结构化且信息密集;
  • 全面,涵盖医学中不同领域,深度足够;
  • 有依据且值得信赖,以便每条信息都可以追溯到同行评审的论文。

并以一种能够同时支持临床医生和医疗人工智能工程师的方式组织医学知识。

MIRIAD 是如何创建的

MIRIAD 建立在 Semantic Scholar Open Research Corpus (S2ORC) 之上,目前利用了 900,000 篇医学论文的精选子集,并计划随着数据集的演变扩大覆盖范围。

数据集中的问答对是使用 GPT-3.5-Turbo 从固定大小的块中生成的,然后通过多阶段过滤管道确保所得数据集的质量,分三个阶段进行

  • 使用正则表达式进行自动化过滤
  • 使用基于 Mistral-7B 模型的分类器进行过滤,该模型在 GPT-4 标记的低质量示例上进行训练;
  • 人工专家标注,显示医学专家与 GPT-4 在以下方面具有高度一致性:92.3% 在基础性上,88.6% 在事实性上,78.4% 在相关性上

MIRIAD 背后的管道完整概述在此处以图形方式总结

Overview of the data generation pipeline of MIRIAD

MIRIAD 数据生成管道概述
来源:“MIRIAD:用数百万个医疗查询-响应对增强 LLM。”

Qdrant 在 MIRIAD 中的作用

Qdrant 是 MIRIAD RAG 实验幕后处理数百万个问答对检索的刻意选择。决定因素是 其易用性和文档的可读性速度和可扩展性,以及对研究人员特别有价值的,Qdrant 是开源的。

“对我们来说,我们需要处理数百万个数据点,而 Qdrant 的检索速度超快!” - 郑琴月

这些功能使研究人员能够专注于实验,而不是基础设施设置的困难。

成果

各种基准测试的结果清楚地表明,结构化、高质量的数据集可以显著提高 LLM 在高风险领域的可靠性。

增强 MIRIAD 提高了

  • 与非结构化 RAG 基线相比,在相同的源语料库和检索预算下,医疗问答基准测试的准确率提高了高达 6.7%
  • LLM 的医疗幻觉检测能力提高了 22 - 37 个百分点

最终的 MIRIAD 数据集包含 5,821,948 个问答对,每个问答对都链接到源段落和论文,涵盖 56 个医学主题

它在 HuggingFace 上开源,同时还有源代码和详细指南,用于完整的收集和基准测试复制,包括嵌入生成和索引到 Qdrant,以及 RAG 设置。

此外,为了使数据集不仅对医疗人工智能领域的工程师,而且对临床医生也可用,MIRIAD 的作者开发了 MIRIAD Atlas,这是一个基于 UMAP 降维嵌入的交互式地图(类似于如何在 Qdrant 的 WebUI 中可视化和研究数据集)。

展望未来

研究人员的目标是维护和扩展 MIRIAD,每年更新新的医学知识。还计划将 MIRIAD Atlas 迁移到 Qdrant,以全尺寸提供数据集,并增加对模型上下文协议 (MCP) 的支持。

然而,MIRIAD 主要旨在激励研究人员、临床医生和工程师构建更可靠、更具领域特定性的医疗人工智能系统。

“天空是极限” - 郑琴月

作者设想了诸如医疗问答代理、利用 MIRIAD 中的专业标签在不同学科之间进行路由的医疗学科探索器,或支持基于 RAG 应用程序的可解释性工具等应用。

Qdrant 在研究中

我们很高兴看到 Qdrant 帮助医疗人工智能前沿的研究人员取得成就,供他人借鉴!

通过减少工程开销,我们希望研究人员能够专注于推进其领域贡献。除了处理规模之外,我们还看到了 Qdrant 在研究中的其他令人兴奋的应用。例如,Qdrant 可以作为以下工具:

  • 基于语义相似性的大规模数据集去重;
  • 用于全面训练数据集的多样性采样。

正如 MIRIAD 的作者告诉我们的,“天空是极限”。
我们期待看到 Qdrant 在未来的研究进展中发挥越来越大的作用!

免费开始使用 Qdrant

开始使用