与Unstructured.io集成
使用 Unstructured.io 和 Qdrant 处理文档并将其向量化。
你将学到什么
- 使用 Unstructured.io 进行文档处理
- 多格式文档摄取
- 结构化数据提取
- 自动化向量化管道
- 企业数据转换工作流
- VLM 驱动的文档理解
- 生产就绪的 ETL 管道
非结构化企业数据处理
Unstructured.io 解决了处理非结构化企业数据的关键挑战,这些数据通常占企业信息的 80%。该平台提供了一个可组合的解决方案,将 PDF、Word 文档、电子邮件和其他非结构化格式转换为针对 GenAI 计划优化的结构化输出,从而消除了自定义脚本和工具的复杂性。
核心架构
Unstructured.io 的企业级平台提供以下几个关键组件:
- VLM 分区器:使用 GPT-4o 视觉进行智能文档理解,识别布局、表格、图像和文本层次结构
- 智能分块器:采用
chunk_by_title策略保持语义连贯性,创建优化的分块用于嵌入 - 向量嵌入器:使用 OpenAI 的 text embedding 3 small 模型创建理解语义的嵌入
- 企业安全:具有企业安全和合规性的生产就绪、可扩展和可组合的管道
端到端工作流
完整的工作流展示了 AWS S3、Unstructured 和 Qdrant 之间的无缝集成
数据摄取:
- 原始内容存储在 AWS S3 存储桶中
- Unstructured 的 S3 连接器将文档拉入 SaaS 平台
- 支持多种文档格式(PDF、Word、电子邮件等)
文档处理:
- 使用 VLM 技术将文档分区为结构化元素
- 智能识别布局、表格、图像和文本层次结构
- 智能分块策略保留语义连贯性
向量生成:
- 使用 OpenAI 的 text embedding 3 small 模型嵌入分块文档
- 密集向量表示捕获语义意义
- 保留丰富的元数据,包括文档层次结构和元素分类
Qdrant 集成:
- Qdrant 连接器将处理后的数据存入向量数据库
- 由于分块,一个上传文件可能在 Qdrant 中产生 43 个点
- 元数据包括文档层次结构、元素分类和示例文本
主要功能
VLM 分区器功能:
- 智能文档布局识别
- 表格和图表提取,并保留上下文
- 图像理解和文本层次结构分析
- 多模态内容处理
智能分块策略:
chunk_by_title方法保持语义连贯性- 针对嵌入模型优化的分块大小
- 跨文档部分的上下文保留
- 分层文档结构维护
企业级处理:
- 生产就绪的可扩展性
- 企业安全和合规功能
- 自动化 ETL 管道管理
- 与自定义解决方案相比,降低了复杂性
实际应用
此架构支持各种企业用例
- 文档智能:法律文档、合同和报告的自动化处理
- 知识管理:企业范围的文档搜索和检索系统
- 合规性:用于法规要求的自动化文档分析
- RAG 应用:通过结构化文档理解增强 AI 应用的检索
资源
非结构化 Qdrant 目标:
用于将处理后的数据发送到 Qdrant 的官方 Unstructured 文档。了解 Qdrant Cloud 集成、集合设置和工作流配置。Qdrant 和 Unstructured 集成指南:
Unstructured.io 集成的官方 Qdrant 文档,涵盖文档处理管道的设置和最佳实践。
⭐ 表示您的支持! 在 Unstructured 的 GitHub 存储库上给它点赞:github.com/Unstructured-IO/unstructured