Qdrant Cloud 推理功能简介
Daniel Azoulai
·2025年7月15日

Qdrant Cloud 推理功能简介
今天,我们宣布推出 Qdrant Cloud 推理功能(在您的集群中开始使用)。借助 Qdrant Cloud 推理,用户可以通过单个 API 调用生成、存储和索引嵌入,将非结构化文本和图像转换为单一环境中的可搜索向量。将模型推理直接集成到 Qdrant Cloud 中,消除了对独立推理基础设施、手动管道和冗余数据传输的需求。
这简化了工作流程,加速了开发周期,并消除了开发人员不必要的网络跳转。通过单个 API 调用,您现在可以更快、更简单地嵌入、存储和索引您的数据。这加速了 RAG、多模态、混合搜索等应用程序的开发。
统一嵌入和搜索
传统上,构建应用程序数据管道意味着需要同时处理独立的嵌入服务和向量数据库,这带来了不必要的复杂性、延迟和网络成本。Qdrant Cloud 推理将所有功能整合到一个系统中。嵌入在您的集群网络内部生成,从而消除了外部 API 开销,从而降低了延迟并加快了响应时间。此外,您现在可以在一个地方跟踪向量数据库和推理成本。

多模态和混合搜索应用支持的模型
发布时,Qdrant Cloud 推理功能包含六个精选模型供您选择。您可以选择密集型模型,如用于快速语义匹配的 all-MiniLM-L6-v2,或用于更丰富理解的 mxbai/embed-large-v1;或稀疏型模型,如 splade-pp-en-v1 和 bm25(查看此混合搜索教程以了解其工作原理)。对于多模态工作负载,Qdrant 独特地支持 OpenAI CLIP 风格的文本和图像模型。
想要请求集成其他模型?您可以在 https://support.qdrant.io/ 进行操作。

每个模型每月可获得高达 500 万免费 Token,BM25 Token 无限
为了让上手更加轻松,我们为所有付费 Qdrant Cloud 用户提供每个文本模型 500 万免费 Token,图像模型 100 万,以及 bm25 的无限量免费 Token。只要您拥有付费的 Qdrant Cloud 集群,这些 Token 配额每月都会更新。这些每月免费的 Token 非常适合开发、测试,甚至在不增加成本的情况下运行初始生产工作负载。
付费账户自动启用推理
上手非常简单。对于版本 1.14.0 或更高版本的新付费集群,推理功能将自动启用。对于现有集群,只需在 Qdrant Cloud 控制台的集群详细信息页面上的推理选项卡中单击即可激活。您将看到如何使用我们的不同 Qdrant SDK 进行推理的示例。
立即开始嵌入
您现在可以通过登录 Qdrant Cloud,选择一个模型并直接嵌入您的数据来开始使用。无需额外 API。无需新工具。只需更快、更简单的 AI 应用程序开发。
如何通过一个 API 构建多模态搜索堆栈
嵌入、存储、搜索:Qdrant Cloud 推理实战指南
高级开发倡导者 Kacper Łukawski 主持了一场现场会议,展示了如何
- 使用预集成模型为文本或图像生成嵌入
- 在同一 Qdrant Cloud 环境中存储和搜索嵌入
- 仅通过一个 API 支持多模态(行业首创)和混合搜索
- 降低网络出口费用并简化您的 AI 堆栈
立即观看