RAG 已死？向量数据库在向量搜索中的作用 | Qdrant

David Myriel

2024 年 2 月 27 日

Is RAG Dead? The Role of Vector Databases in Vector Search | Qdrant

RAG 已死？向量数据库在 AI 效率和向量搜索中的作用

当 Anthropic 推出了 100K token 的上下文窗口时，他们说：“向量搜索已死。大型语言模型（LLM）越来越准确，不再需要 RAG 了。”

Google 的 Gemini 1.5 现在提供 1000 万 token 的上下文窗口。他们的支持论文声称解决了准确性问题，即使应用了 Greg Kamradt 的 NIAH 方法。

结束了。RAG（检索增强生成）现在一定完全过时了。对吗？

不。

更大的上下文窗口永远不是解决方案。我再说一遍：永远不是。它们需要更多的计算资源，并导致处理时间变慢。

社区已经在对 Gemini 1.5 进行压力测试

RAG and Gemini 1.5

这不足为奇。大型语言模型需要大量的计算和内存才能运行。引用 Grant 的话说，仅运行这样一个模型“每次生成完成内容都会耗尽一个小煤矿”。而且，谁会等 30 秒才能得到响应呢？

上下文填充不是解决方案

依赖上下文成本高昂，并且在实际应用中并不能提高响应质量。基于向量搜索的检索提供更高的精确度。

如果你只依赖大型语言模型来完善检索和精确度，那你就做错了。

大的上下文窗口使得模型更难专注于相关信息。这增加了其响应中出现错误或幻觉的风险。

Google 发现 Gemini 1.5 在较短上下文长度下比 GPT-4 显著更准确，而在接近 1M token 时“召回率仅略有下降”。召回率仍然低于 0.8。

Gemini 1.5 Data

我们认为 60-80% 的准确率不够好。大型语言模型可能在其上下文窗口中检索到足够的关键事实，但它仍然会丢失高达 40% 的可用信息。

向量搜索的全部意义在于绕过这个过程，通过高效地选择应用程序生成最佳响应所需的信息。向量数据库保持计算负载低，查询响应快速。你完全不需要等待大型语言模型。

Qdrant 的基准测试结果强烈支持准确性和效率。我们建议你在决定仅使用大型语言模型之前考虑这些结果。查看我们的开源基准测试报告并亲自尝试这些测试。

复合系统中的向量搜索

人工智能的未来在于精心的系统工程。根据Zaharia 等人的研究，Databricks 的结果发现“60% 的大型语言模型应用使用了某种形式的 RAG，而 30% 使用了多步链。”

即使是 Gemini 1.5 也展示了复杂策略的必要性。查看Google 的 MMLU 基准测试，该模型被调用了 32 次才达到 90.0% 的准确率。这表明即使是基本的复合排列也优于单一模型。

作为检索系统，向量数据库完美契合复合系统的需求。将它们引入你的设计中，为大型语言模型提供了实现更优应用的可能。之所以更优，是因为它更快、更准确，并且运行成本低得多。

RAG 的主要优势在于，它允许大型语言模型从最新的内部和外部知识源中提取实时信息，使其更具动态性，更能适应新信息。- Oliver Molander，IMAGINAI 首席执行官

Qdrant 可扩展到企业级 RAG 场景

人们仍然不理解向量数据库的经济效益。为什么大型企业 AI 系统需要像Qdrant 这样的独立向量数据库？在我们看来，这是最重要的问题。假设大型语言模型完全不再受上下文阈值的困扰。

所有这些会花费多少钱？

如果你在企业环境中运行一个拥有数 PB 私有数据的 RAG 解决方案，你的计算账单将难以想象。假设每 1K 输入 token 花费 1 美分（这是当前的 GPT-4 Turbo 定价）。无论你在做什么，每深入 10 万 token，你将花费 1 美元。

每问一个问题就要花一块钱。

根据我们的估算，向量搜索查询至少比大型语言模型进行的查询便宜 1 亿倍。

反过来，使用向量数据库的唯一前期投资是索引（这需要更多计算）。在此步骤之后，其他一切都很轻松。一旦设置好，Qdrant 通过多租户和分片等功能轻松扩展。这使你可以扩大对向量检索过程的依赖，并最大限度地减少对计算密集型大型语言模型的使用。作为一种优化措施，Qdrant 是不可替代的。

HuggingFace 的 Julien Simon 说得最好

RAG 不是上下文大小有限的权宜之计。对于关键的企业用例，RAG 是利用高价值、专有的公司知识的方式，这些知识永远不会出现在用于训练大型语言模型的公共数据集中。目前，索引和查询这些知识的最佳位置是某种向量索引。此外，RAG 将大型语言模型降级为写作助手。由于内置知识变得不那么重要，一个不错的小型 7B 开源模型通常就能完成任务，而且成本只是大型通用模型的一小部分。

使用 Qdrant 的向量数据库获得卓越的准确性

随着大型语言模型继续需要巨大的计算能力，用户将需要利用向量搜索和RAG。

我们的客户每天都在提醒我们这一事实。作为产品，我们的向量数据库具有高度可扩展性且对商业友好。我们战略性地开发我们的功能，以遵循我们公司的 Unix 哲学。

我们希望 Qdrant 保持紧凑、高效且专注于特定目的。这个目的就是让我们的客户能够以他们认为合适的方式使用它。

当大型企业将其生成式 AI 投入生产时，他们需要在控制成本的同时，保持最佳的响应质量。Qdrant 拥有能够做到这一点的向量搜索解决方案。革新你的向量搜索能力，并开始体验 Qdrant 演示。

学习

学习