• 文章
  • RAG 已死?向量数据库在向量搜索中的作用 | Qdrant
返回 RAG & 生成式 AI

RAG 已死?向量数据库在向量搜索中的作用 | Qdrant

David Myriel

·

2024 年 2 月 27 日

Is RAG Dead? The Role of Vector Databases in Vector Search | Qdrant

RAG 已死?向量数据库在 AI 效率和向量搜索中的作用

当 Anthropic 推出了 100K token 的上下文窗口时,他们说:“向量搜索已死。大型语言模型(LLM)越来越准确,不再需要 RAG 了。

Google 的 Gemini 1.5 现在提供 1000 万 token 的上下文窗口。他们的支持论文声称解决了准确性问题,即使应用了 Greg Kamradt 的 NIAH 方法

结束了。RAG(检索增强生成)现在一定完全过时了。对吗?

不。

更大的上下文窗口永远不是解决方案。我再说一遍:永远不是。它们需要更多的计算资源,并导致处理时间变慢。

社区已经在对 Gemini 1.5 进行压力测试

RAG and Gemini 1.5

这不足为奇。大型语言模型需要大量的计算和内存才能运行。引用 Grant 的话说,仅运行这样一个模型“每次生成完成内容都会耗尽一个小煤矿”。而且,谁会等 30 秒才能得到响应呢?

上下文填充不是解决方案

依赖上下文成本高昂,并且在实际应用中并不能提高响应质量。基于向量搜索的检索提供更高的精确度。

如果你只依赖大型语言模型来完善检索和精确度,那你就做错了。

大的上下文窗口使得模型更难专注于相关信息。这增加了其响应中出现错误或幻觉的风险。

Google 发现 Gemini 1.5 在较短上下文长度下比 GPT-4 显著更准确,而在接近 1M token 时“召回率仅略有下降”。召回率仍然低于 0.8。

Gemini 1.5 Data

我们认为 60-80% 的准确率不够好。大型语言模型可能在其上下文窗口中检索到足够的关键事实,但它仍然会丢失高达 40% 的可用信息。

向量搜索的全部意义在于绕过这个过程,通过高效地选择应用程序生成最佳响应所需的信息。向量数据库保持计算负载低,查询响应快速。你完全不需要等待大型语言模型。

Qdrant 的基准测试结果强烈支持准确性和效率。我们建议你在决定仅使用大型语言模型之前考虑这些结果。查看我们的开源基准测试报告亲自尝试这些测试

复合系统中的向量搜索

人工智能的未来在于精心的系统工程。根据Zaharia 等人的研究,Databricks 的结果发现“60% 的大型语言模型应用使用了某种形式的 RAG,而 30% 使用了多步链。”

即使是 Gemini 1.5 也展示了复杂策略的必要性。查看Google 的 MMLU 基准测试,该模型被调用了 32 次才达到 90.0% 的准确率。这表明即使是基本的复合排列也优于单一模型。

作为检索系统,向量数据库完美契合复合系统的需求。将它们引入你的设计中,为大型语言模型提供了实现更优应用的可能。之所以更优,是因为它更快、更准确,并且运行成本低得多。

RAG 的主要优势在于,它允许大型语言模型从最新的内部和外部知识源中提取实时信息,使其更具动态性,更能适应新信息。- Oliver Molander,IMAGINAI 首席执行官

Qdrant 可扩展到企业级 RAG 场景

人们仍然不理解向量数据库的经济效益。为什么大型企业 AI 系统需要像Qdrant 这样的独立向量数据库?在我们看来,这是最重要的问题。假设大型语言模型完全不再受上下文阈值的困扰。

所有这些会花费多少钱?

如果你在企业环境中运行一个拥有数 PB 私有数据的 RAG 解决方案,你的计算账单将难以想象。假设每 1K 输入 token 花费 1 美分(这是当前的 GPT-4 Turbo 定价)。无论你在做什么,每深入 10 万 token,你将花费 1 美元。

每问一个问题就要花一块钱。

根据我们的估算,向量搜索查询至少比大型语言模型进行的查询便宜 1 亿倍。

反过来,使用向量数据库的唯一前期投资是索引(这需要更多计算)。在此步骤之后,其他一切都很轻松。一旦设置好,Qdrant 通过多租户和分片等功能轻松扩展。这使你可以扩大对向量检索过程的依赖,并最大限度地减少对计算密集型大型语言模型的使用。作为一种优化措施,Qdrant 是不可替代的。

HuggingFace 的 Julien Simon 说得最好

RAG 不是上下文大小有限的权宜之计。对于关键的企业用例,RAG 是利用高价值、专有的公司知识的方式,这些知识永远不会出现在用于训练大型语言模型的公共数据集中。目前,索引和查询这些知识的最佳位置是某种向量索引。此外,RAG 将大型语言模型降级为写作助手。由于内置知识变得不那么重要,一个不错的小型 7B 开源模型通常就能完成任务,而且成本只是大型通用模型的一小部分。

使用 Qdrant 的向量数据库获得卓越的准确性

随着大型语言模型继续需要巨大的计算能力,用户将需要利用向量搜索和RAG

我们的客户每天都在提醒我们这一事实。作为产品,我们的向量数据库具有高度可扩展性且对商业友好。我们战略性地开发我们的功能,以遵循我们公司的 Unix 哲学。

我们希望 Qdrant 保持紧凑、高效且专注于特定目的。这个目的就是让我们的客户能够以他们认为合适的方式使用它。

当大型企业将其生成式 AI 投入生产时,他们需要在控制成本的同时,保持最佳的响应质量。Qdrant 拥有能够做到这一点的向量搜索解决方案。革新你的向量搜索能力,并开始体验 Qdrant 演示

此页面是否有用?

感谢您的反馈! 🙏

听到这个消息我们很抱歉。😔 您可以在 GitHub 上编辑此页面,或创建一个 GitHub issue。