Airbyte

Airbyte是一个开源数据集成平台,可帮助您在不同系统之间复制数据。它拥有不断增长的连接器列表,可用于从多个来源摄取数据。构建数据管道对于管理Qdrant中的数据也至关重要,而Airbyte是实现此目标的出色工具。

Airbyte可以负责从选定的来源摄取数据,而Qdrant将帮助您在其基础上构建搜索引擎。数据可以摄取到Qdrant中有三种支持的模式

  • 完全刷新同步
  • 增量 - 追加同步
  • 增量 - 追加 + 去重

您可以在Airbyte文档中阅读更多关于这些模式的信息。

先决条件

在开始之前,请确保您已具备以下条件

  1. Airbyte实例,无论是开源版自管版还是云服务
  2. 正在运行的Qdrant实例。它必须可以从运行Airbyte的机器通过URL访问。您可以按照安装指南设置Qdrant。

将Qdrant设置为目标

一旦您有正在运行的Airbyte实例,就可以直接在UI中将Qdrant设置为目标。Airbyte的Qdrant目标与Qdrant中的单个集合连接。

Airbyte Qdrant destination

文本处理

Airbyte有一些内置机制可以将您的文本转换为嵌入。您可以选择在计算嵌入之前如何将字段分块,以及哪些字段应该用于创建点载荷(point payload)。

Processing settings

嵌入

您可以选择用于计算嵌入的模型。目前,Airbyte支持多种模型,包括OpenAI和Cohere。

Embeddings settings

也可以使用数据源中预先计算好的嵌入。在这种情况下,您可以传入包含嵌入的字段名及其维度。

Precomputed embeddings settings

Qdrant连接详情

最后,我们可以配置目标Qdrant实例和集合。如果您使用内置身份验证机制,可以在此处传入令牌。

Qdrant connection details

一旦您确认创建目标,Airbyte将测试指定的Qdrant集群是否可访问并可以用作目标。

设置连接

Airbyte将源和目标组合成一个称为连接的单一实体。配置好目标和源后,就可以在它们之间创建连接。无论您使用什么源,只要Airbyte支持即可。这个过程非常简单,但取决于您使用的源。

Airbyte connection

延伸阅读

此页面是否有用?

感谢您的反馈! 🙏

很抱歉听到您觉得没有帮助。😔 您可以在GitHub上编辑此页面,或创建一个GitHub Issue。