Calendar 第7天

与Unstructured.io集成

使用 Unstructured.io 和 Qdrant 处理文档并将其向量化。

你将学到什么

  • 使用 Unstructured.io 进行文档处理
  • 多格式文档摄取
  • 结构化数据提取
  • 自动化向量化管道
  • 企业数据转换工作流
  • VLM 驱动的文档理解
  • 生产就绪的 ETL 管道

非结构化企业数据处理

Unstructured.io 解决了处理非结构化企业数据的关键挑战,这些数据通常占企业信息的 80%。该平台提供了一个可组合的解决方案,将 PDF、Word 文档、电子邮件和其他非结构化格式转换为针对 GenAI 计划优化的结构化输出,从而消除了自定义脚本和工具的复杂性。

核心架构

Unstructured.io 的企业级平台提供以下几个关键组件:

  • VLM 分区器:使用 GPT-4o 视觉进行智能文档理解,识别布局、表格、图像和文本层次结构
  • 智能分块器:采用 chunk_by_title 策略保持语义连贯性,创建优化的分块用于嵌入
  • 向量嵌入器:使用 OpenAI 的 text embedding 3 small 模型创建理解语义的嵌入
  • 企业安全:具有企业安全和合规性的生产就绪、可扩展和可组合的管道

端到端工作流

完整的工作流展示了 AWS S3、Unstructured 和 Qdrant 之间的无缝集成

  1. 数据摄取:

    • 原始内容存储在 AWS S3 存储桶中
    • Unstructured 的 S3 连接器将文档拉入 SaaS 平台
    • 支持多种文档格式(PDF、Word、电子邮件等)
  2. 文档处理:

    • 使用 VLM 技术将文档分区为结构化元素
    • 智能识别布局、表格、图像和文本层次结构
    • 智能分块策略保留语义连贯性
  3. 向量生成:

    • 使用 OpenAI 的 text embedding 3 small 模型嵌入分块文档
    • 密集向量表示捕获语义意义
    • 保留丰富的元数据,包括文档层次结构和元素分类
  4. Qdrant 集成:

    • Qdrant 连接器将处理后的数据存入向量数据库
    • 由于分块,一个上传文件可能在 Qdrant 中产生 43 个点
    • 元数据包括文档层次结构、元素分类和示例文本

主要功能

VLM 分区器功能:

  • 智能文档布局识别
  • 表格和图表提取,并保留上下文
  • 图像理解和文本层次结构分析
  • 多模态内容处理

智能分块策略:

  • chunk_by_title 方法保持语义连贯性
  • 针对嵌入模型优化的分块大小
  • 跨文档部分的上下文保留
  • 分层文档结构维护

企业级处理:

  • 生产就绪的可扩展性
  • 企业安全和合规功能
  • 自动化 ETL 管道管理
  • 与自定义解决方案相比,降低了复杂性

实际应用

此架构支持各种企业用例

  • 文档智能:法律文档、合同和报告的自动化处理
  • 知识管理:企业范围的文档搜索和检索系统
  • 合规性:用于法规要求的自动化文档分析
  • RAG 应用:通过结构化文档理解增强 AI 应用的检索

资源

表示您的支持! 在 Unstructured 的 GitHub 存储库上给它点赞:github.com/Unstructured-IO/unstructured