Airbyte
Airbyte 是一个开源数据集成平台,可帮助您在不同系统之间复制数据。它拥有不断增长的连接器列表,可用于从多个来源摄取数据。构建数据管道对于管理 Qdrant 中的数据也至关重要,而 Airbyte 是实现此目的的绝佳工具。
Airbyte 可以负责从选定来源摄取数据,而 Qdrant 将帮助您在此基础上构建搜索引擎。数据可以以三种受支持的模式摄取到 Qdrant 中
- 完全刷新同步
- 增量 - 追加同步
- 增量 - 追加 + 去重
您可以在 Airbyte 文档中阅读有关这些模式的更多信息。
先决条件
在开始之前,请确保您拥有以下内容
将 Qdrant 设置为目标
一旦您拥有一个正在运行的 Airbyte 实例,您就可以直接在 UI 中将 Qdrant 设置为目标。Airbyte 的 Qdrant 目标与 Qdrant 中的单个集合连接。

文本处理
Airbyte 具有一些内置机制,可以将您的文本转换为嵌入。您可以选择在计算嵌入之前如何将字段分块,以及应该使用哪些字段来创建点有效负载。

嵌入
您可以选择用于计算嵌入的模型。目前,Airbyte 支持多种模型,包括 OpenAI 和 Cohere。

使用数据源中一些预计算的嵌入也是可能的。在这种情况下,您可以传递包含嵌入的字段名称及其维度。

Qdrant 连接详情
最后,我们可以配置目标 Qdrant 实例和集合。如果您使用内置身份验证机制,您可以在此处传递令牌。

一旦您确认创建目标,Airbyte 将测试指定的 Qdrant 集群是否可访问并可用作目标。
设置连接
Airbyte 将源和目标组合成一个称为连接的单一实体。一旦您配置了目标和源,您就可以在它们之间创建连接。无论您使用什么源,只要 Airbyte 支持它,就没有关系。这个过程非常简单,但取决于您使用的源。
