Sycamore
Sycamore是一个由LLM驱动的数据准备、处理和分析系统,用于处理复杂的非结构化文档,如PDF、HTML、演示文稿等。借助Aryn,您可以为GenAI和RAG应用程序准备数据,支持高质量的文档处理工作流程,并使用自然语言对大型文档集合进行分析。
您可以使用Qdrant连接器向Qdrant集合写入文档以及从中读取文档。
写入Qdrant
要在Sycamore中将Docset写入Qdrant集合,请使用docset.write.qdrant(....)
函数。Qdrant写入器接受以下参数:
client_params
: 传递给Qdrant客户端构造函数的参数。有关更多信息,请参见客户端API参考。collection_params
: 传递给qdrant_client.QdrantClient.create_collection
方法的参数。有关更多信息,请参见客户端API参考。vector_name
: Qdrant集合中向量的名称。默认为None
。execute
: 在添加此操作符时执行管道并写入Qdrant。如果为False
,将返回一个包含此写入计划的DocSet
。默认为True
。kwargs
: 传递给底层执行引擎的关键字参数。
ds.write.qdrant(
{
"url": "http://localhost:6333",
"timeout": 50,
},
{
"collection_name": "{collection_name}",
"vectors_config": {
"size": 384,
"distance": "Cosine",
},
},
)
从Qdrant读取
要在Sycamore中从Qdrant集合读取Docset,请使用docset.read.qdrant(....)
函数。Qdrant读取器接受以下参数:
client_params
: 传递给Qdrant客户端构造函数的参数。有关更多信息,请参见客户端API参考。query_params
: 传递给qdrant_client.QdrantClient.query_points
方法的参数。有关更多信息,请参见客户端API参考。kwargs
: 传递给底层执行引擎的关键字参数。
docs = ctx.read.qdrant(
{
"url": "https://xyz-example.eu-central.aws.cloud.qdrant.io:6333",
"api_key": "<paste-your-api-key-here>",
},
{"collection_name": "{collection_name}", "limit": 100, "using": "{optional_vector_name}"},
).take_all()