Sycamore

Sycamore 是一个由大型语言模型驱动的数据准备、处理和分析系统,适用于处理PDF、HTML、演示文稿等复杂非结构化文档。通过 Aryn,您可以为生成式人工智能(GenAI)和检索增强生成(RAG)应用程序准备数据,驱动高质量的文档处理工作流,并使用自然语言对大型文档集合进行分析。

您可以使用 Qdrant 连接器向 Qdrant 集合写入和读取文档。

写入 Qdrant

要在 Sycamore 中将 Docset 写入 Qdrant 集合,请使用 docset.write.qdrant(....) 函数。Qdrant 写入器接受以下参数:

  • client_params:传递给 Qdrant 客户端构造函数的参数。有关更多信息,请参阅客户端 API 参考
  • collection_params:传递给 qdrant_client.QdrantClient.create_collection 方法的参数。有关更多信息,请参阅客户端 API 参考
  • vector_name:Qdrant 集合中向量的名称。默认为 None
  • execute:添加此操作符时,执行管道并写入 Qdrant。如果为 False,将返回一个包含此写入计划的 DocSet。默认为 True
  • kwargs:要传递给底层执行引擎的关键字参数。
ds.write.qdrant(
    {
        "url": "https://:6333",
        "timeout": 50,
    },
    {
        "collection_name": "{collection_name}",
        "vectors_config": {
            "size": 384,
            "distance": "Cosine",
        },
    },
)

从 Qdrant 读取

要在 Sycamore 中从 Qdrant 集合读取 Docset,请使用 docset.read.qdrant(....) 函数。Qdrant 读取器接受以下参数:

  • client_params:传递给 Qdrant 客户端构造函数的参数。有关更多信息,请参阅客户端 API 参考
  • query_params:传递给 qdrant_client.QdrantClient.query_points 方法的参数。有关更多信息,请参阅客户端 API 参考
  • kwargs:要传递给底层执行引擎的关键字参数。
docs = ctx.read.qdrant(
    {
        "url": "https://xyz-example.eu-central.aws.cloud.qdrant.io:6333",
        "api_key": "<paste-your-api-key-here>",
    },
    {"collection_name": "{collection_name}", "limit": 100, "using": "{optional_vector_name}"},
).take_all()

📚 拓展阅读

此页面有用吗?

感谢您的反馈!🙏

很抱歉让您失望。😔 您可以在 GitHub 上编辑此页面,或创建一个 GitHub 问题。