什么是向量数据库？

Sabrina Aquino

2024 年 10 月 09 日

向量数据库简介

vector-database-architecture

我们每天生成的数百万 TB 数据中，大部分是非结构化数据。想想你随手拍的饭菜照片、工作中共享的 PDF 文件，或者你保存但可能永远不会听的播客。这些数据都无法整齐地排列成行和列。

非结构化数据缺乏严格的格式或模式，这使得传统数据库难以管理。然而，这些非结构化数据蕴藏着人工智能、机器学习和现代搜索引擎的巨大潜力。

向量数据库是一个专门系统，旨在高效处理高维向量数据。它擅长对这些数据进行索引、查询和检索，从而实现传统数据库难以执行的高级分析和相似性搜索。

传统数据库面临的挑战

几十年来，传统的OLTP和OLAP数据库一直是数据存储的支柱。它们擅长管理具有明确模式的结构化数据，例如姓名、地址、电话号码和购买历史。

但是，当数据无法轻松分类时，比如 PDF 文件中的内容，事情就会变得复杂。

您总是可以将 PDF 文件存储为原始数据，可能还附带一些元数据。然而，数据库仍然无法理解文档中的内容、对其进行分类，甚至无法搜索其中包含的信息。

此外，这不仅仅适用于 PDF 文档。想想您每天生成的大量文本、音频和图像数据。如果数据库无法理解这些数据的含义，您又如何搜索或查找数据中的关系呢？

向量数据库通过将非结构化数据表示为向量，使您能够理解其上下文或概念相似性，从而实现基于数据相似性的高级分析和检索。

何时使用向量数据库

不确定是应该使用向量数据库还是传统数据库？这张图表可能会有所帮助。

特征	OLTP 数据库	OLAP 数据库	向量数据库
数据结构	行和列	行和列	向量
数据类型	结构化	结构化/部分非结构化	Unstructured
查询方法	基于 SQL（事务查询）	基于 SQL（聚合、分析查询）	向量搜索（基于相似性）
存储重点	基于模式，针对更新优化	基于模式，针对读取优化	上下文和语义
性能	针对高容量事务优化	针对复杂分析查询优化	针对非结构化数据检索优化
用例	库存、订单处理、CRM	商业智能、数据仓库	相似性搜索、推荐、RAG、异常检测等。

什么是向量？

vector-database-vector

当机器需要处理非结构化数据（图像、文本或音频文件）时，它首先必须将数据转换成它可以处理的格式：向量。

向量是一种数据的数值表示，可以捕捉数据的上下文和语义。

当您处理非结构化数据时，传统数据库难以理解其含义。然而，向量可以将数据转换为机器可以处理的东西。例如，从文本生成的向量可以表示单词之间的关系和含义，使机器能够比较和理解它们的上下文。

向量数据库中定义向量有三个关键要素：ID、维度和有效载荷。这些组件协同工作，有效地表示系统中的向量。它们共同构成一个点，这是向量数据库中存储和检索的核心数据单元。

这些部分中的每一个都在向量的存储、检索和解释方式中发挥着重要作用。让我们看看如何。

1. ID：向量的唯一标识符

就像在关系数据库中一样，向量数据库中的每个向量都会获得一个唯一的 ID。将其视为向量的姓名标签，一个主键，确保以后可以轻松找到该向量。当向量添加到数据库时，ID 会自动创建。

虽然 ID 本身在相似性搜索中不起作用（相似性搜索作用于向量的数值数据），但它对于将向量与其对应的“真实世界”数据（无论是文档、图像还是声音文件）相关联至关重要。

执行搜索并找到相似向量后，将返回它们的 ID。然后可以使用这些 ID 来获取与结果相关的附加详细信息或元数据。

2. 维度：数据的核心表示

每个向量的核心是一组数字，它们共同构成了数据在多维空间中的表示。

从文本到向量：它是如何工作的？

这些数字由嵌入模型（例如深度学习算法）生成，并捕获数据中的基本模式或关系。这就是为什么在提及这些模型的输出时，嵌入一词经常与向量互换使用。

例如，为了表示文本数据，嵌入将封装语言的细微差别，例如其维度内的语义和上下文。

Creation of a vector based on a sentence with an embedding model

因此，当比较两个相似的句子时，它们的嵌入将非常相似，因为它们具有相似的语言元素。

Comparison of the embeddings of 2 similar sentences

这就是嵌入的魅力。数据的复杂性被提炼成可以在多维空间中进行比较的东西。

3. 有效载荷：用元数据添加上下文

有时，您需要的不仅仅是数字来完全理解或完善搜索。虽然维度捕捉了数据的本质，但有效载荷包含用于结构化信息的元数据。

它可以是文本数据，如描述、标签、类别，也可以是日期或价格等数值。当您想根据未直接编码在向量中的标准来过滤或排名搜索结果时，这些额外的信息至关重要。

当您需要应用额外的筛选器或排序条件时，此元数据非常宝贵。

例如，如果您正在搜索狗的图片，向量会帮助数据库找到视觉上相似的图片。但假设您只想要显示在去年拍摄的图片，或者标记为“度假”的图片。

有效载荷可以通过忽略不符合查询向量筛选条件的向量来帮助您缩小这些结果。如果您想全面了解 Qdrant 中筛选的工作原理，请查看我们的完整筛选指南。

向量数据库的架构

向量数据库由多个不同的实体和关系组成。让我们了解一下这里发生的事情：向量数据库架构图

集合

集合本质上是一组向量（或“点”），它们根据相似性或特定任务进行逻辑分组。集合中的每个向量都具有相同的维度，并且可以使用单个指标进行比较。除非必要，否则避免创建多个集合；相反，考虑使用分片技术进行跨节点扩展或使用多租户在同一基础设施中处理不同的用例。

距离度量

这些指标定义了向量之间相似性的计算方式。距离指标的选择是在创建集合时做出的，正确的选择取决于您正在使用的数据类型以及向量的创建方式。以下是三种最常见的距离指标

欧几里得距离：直线路径。它就像测量空间中两点之间的物理距离。当实际距离（如空间数据）很重要时，选择此项。
余弦相似度：这与角度有关，与长度无关。它衡量两个向量指向同一方向的程度，因此它非常适用于文本或文档，当您更关心含义而不是大小。例如，如果两件事是相似的、相反的或不相关的

点积：这着眼于两个向量对齐的程度。它在推荐系统中很受欢迎，您对两个事物“相互同意”的程度感兴趣。

基于 RAM 和 Memmap 存储

默认情况下，Qdrant 将向量存储在 RAM 中，为能够舒适地放入内存的数据集提供极快的访问速度。但是，当您的数据集超过 RAM 容量时，Qdrant 提供 Memmap 作为替代方案。

Memmap 允许您将向量存储在磁盘上，但如果内存足够，仍可以通过将数据直接映射到内存中来高效访问它们。要启用它，您只需在创建集合时设置"on_disk": true：

from qdrant_client import QdrantClient, models

client = QdrantClient(url='https://:6333')

client.create_collection(
    collection_name="{collection_name}",
    vectors_config=models.VectorParams(
        size=768, distance=models.Distance.COSINE, on_disk=True
    ),
)

有关hnsw_config.on_disk或memmap_threshold等其他配置，请参阅 Qdrant 文档中的存储。

SDK

Qdrant 提供了一系列 SDK。您可以使用您最熟悉的编程语言，无论您是使用Python、Go、Rust、Javascript/Typescript、C#或Java进行编码。

向量数据库的核心功能

vector-database-functions

当您想到传统数据库时，操作都很熟悉：您创建、读取、更新和删除记录。这些都是基础。你猜怎么着？在许多方面，向量数据库的工作方式相同，但操作被转换为向量的复杂性。

1. 索引：HNSW 索引和向 Qdrant 发送数据

索引向量就像在传统数据库中创建条目一样。但对于向量数据库来说，这一步非常重要。向量需要以一种使其以后易于搜索的方式进行索引。

HNSW（Hierarchical Navigable Small World）是一种强大的索引算法，大多数向量数据库都依赖它来组织向量以实现快速高效的搜索。

它构建了一个多层图，其中每个向量是一个节点，连接表示相似性。上层连接广泛相似的向量，而下层连接密切相关的向量，使搜索随着深入而逐步细化。

当您运行搜索时，HNSW 从顶部开始，通过在层之间跳转快速缩小搜索范围。它在深入时只关注相关向量，每一步都细化搜索。

1.1 有效载荷索引

在 Qdrant 中，索引是模块化的。您可以为向量和有效载荷独立配置索引。有效载荷索引负责优化基于元数据的筛选。每个有效载荷索引都针对特定字段构建，并允许您根据特定条件快速筛选向量。

您需要为您想要搜索的每个字段构建有效载荷索引。这里的魔力在于组合：HNSW 找到相似的向量，而有效载荷索引确保只有符合您条件的向量才能通过。了解更多关于 Qdrant 的可筛选 HNSW以及为什么这样构建它。

将全文搜索与基于向量的搜索相结合，为您提供了更多的多功能性。您可以在同一查询中同时搜索概念上相似的文档，同时确保存在特定关键字。

2. 搜索：近似最近邻 (ANN) 搜索

相似性搜索允许您按含义搜索。通过这种方式，您可以进行诸如寻找能唤起相同情绪的相似歌曲、寻找符合您艺术愿景的图像，甚至探索文本中的情感模式等搜索。

它的工作原理是，当用户查询数据库时，该查询也被转换为一个向量。该算法快速识别图中可能包含最接近查询向量的向量的区域。

Approximate Nearest Neighbors (ANN) Search Graph

然后搜索向下移动，逐渐缩小到更密切相关和相关的向量。一旦在底层识别出最接近的向量，这些点就会转换回实际数据，代表您的得分最高的文档。

以下是此过程的总体概述

3. 更新向量：实时和批量调整

数据不是静态的，向量也不是。保持向量最新对于维护搜索相关性至关重要。

向量更新不总是需要立即发生，但当它们发生时，Qdrant 通过简单的 API 调用高效处理实时修改

client.upsert(
    collection_name='product_collection',
    points=[PointStruct(id=product_id, vector=new_vector, payload=new_payload)]
)

对于大规模更改，例如模型更新后重新索引向量，批量更新允许您在不影响搜索性能的情况下在一个操作中更新多个向量

batch_of_updates = [
    PointStruct(id=product_id_1, vector=updated_vector_1, payload=new_payload_1),
    PointStruct(id=product_id_2, vector=updated_vector_2, payload=new_payload_2),
    # Add more points...
]

client.upsert(
    collection_name='product_collection',
    points=batch_of_updates
)

4. 删除向量：管理过期和重复数据

高效的向量管理是保持搜索准确和数据库精简的关键。删除代表过期或不相关数据（例如过期产品、旧新闻文章或存档配置文件）的向量有助于保持性能和相关性。

在 Qdrant 中，删除向量很简单，只需要指定向量 ID 即可

client.delete(
    collection_name='data_collection',
    points_selector=[point_id_1, point_id_2]
)

您可以使用删除功能删除过期数据、清理重复项，并通过在设定时间后自动删除向量来管理向量的生命周期，以保持数据集的相关性和重点。

密集向量与稀疏向量

vector-database-dense-sparse

既然您了解了向量是什么以及它们是如何创建的，那么让我们进一步了解您可以使用的两种可能的向量类型：密集向量或稀疏向量。两者之间的主要区别在于

1. 密集向量

密集向量，顾名思义，信息密集。向量中的每个元素都对数据的语义意义、关系和细微差别做出贡献。这句话的密集向量表示可能如下所示

每个数字都带有权重。它们共同传达了句子的整体含义，并且更适合识别上下文相似的项目，即使单词不完全匹配。

2. 稀疏向量

稀疏向量的操作方式不同。它们只关注要点。在大多数稀疏向量中，大量元素为零。当某个特征或标记存在时，它会被标记；否则为零。

在图中，您可以看到一个句子“I love Vector Similarity”，通过标记化分解为“i”、“love”、“vector”等标记。每个标记都从一个大型词汇表中分配一个唯一的ID。例如，“i”变为193，“vector”变为15012。

稀疏向量用于精确匹配和基于特定标记的识别。右侧的值，例如193: 0.04和9182: 0.12，是每个标记的分数或权重，显示了每个标记在上下文中的相关性或重要性。最终结果是稀疏向量

{
   193: 0.04,
   9182: 0.12,
   15012: 0.73,
   6731: 0.69,
   454: 0.21
}

向量空间中的其他一切都被假定为零。

稀疏向量非常适合关键词搜索或元数据过滤等任务，在这些任务中，您需要检查特定标记是否存在，而无需捕获完整的含义或上下文。它们适用于数据本身内的精确匹配，而不是依赖于外部元数据（由有效载荷过滤处理）。

混合搜索的优势

vector-database-get-started

有时仅靠上下文是不够的。有时您也需要精确度。当您需要根据数据背后的上下文或含义检索结果时，密集向量非常出色。当您还需要关键字或特定属性匹配时，稀疏向量很有用。

通过混合搜索，您无需在两者之间做出选择，而是可以使用两者来获得更相关和更筛选的搜索结果。

为了实现这种平衡，Qdrant 使用归一化和融合技术来混合来自多种搜索方法的结果。一种常见的方法是倒数排名融合 (RRF)，其中合并来自不同方法的结果，对两种方法都排名靠前的项目赋予更高的重要性。这确保了最佳候选者，无论是通过密集向量还是稀疏向量识别，都出现在结果的顶部。

Qdrant 通过归一化和融合过程结合密集向量和稀疏向量结果。

如何在 Qdrant 中使用混合搜索

Qdrant 通过其查询 API 使实现混合搜索变得容易。以下是您如何在自己的项目中实现它

混合查询示例：假设一位研究人员正在寻找有关 NLP 的论文，但论文内容中必须明确提及“transformers”

search_query = {
    "vector": query_vector,  # Dense vector for semantic search
    "filter": {  # Filtering for specific terms
        "must": [
            {"key": "text", "match": "transformers"}  # Exact keyword match in the paper
        ]
    }
}

在此查询中，密集向量搜索查找与 NLP 广泛主题相关的论文，而稀疏向量过滤确保论文明确提及“transformers”。

这只是一个简单的例子，您可以使用它做更多的事情。请参阅我们关于混合搜索的完整文章指南，以了解幕后发生的事情以及构建混合搜索系统的所有可能性。

量化：获取快 40 倍的结果

vector-database-architecture

随着向量数据集的增大，搜索它的计算需求也随之增加。

量化向量更小，更容易比较。使用像二进制量化这样的方法，您可以看到搜索速度提高多达 40 倍，内存使用量减少 32 倍。当处理大型数据集或需要低延迟结果时，这些改进可能是决定性的。

它的工作原理是将高维向量（通常每个维度使用4 字节）转换为二进制表示，每个维度仅使用1 位。大于零的值变为“1”，其余值变为“0”。

量化会降低数据精度，是的，这确实会导致一些精度损失。但是，对于二进制量化，OpenAI 嵌入以仅 5% 的精度损失实现了这种性能改进。如果您应用过采样和重新评分等技术，这种损失可以进一步降低。

然而，二进制量化并不是唯一的可用选项。像标量量化和乘积量化等技术也是优化向量压缩的流行替代方案。

您可以在创建新集合时使用quantization_config参数设置您选择的量化方法

client.create_collection(
    collection_name="{collection_name}",
    vectors_config=models.VectorParams(
        size=1536,  
        distance=models.Distance.COSINE
    ),

    # Choose your preferred quantization method
    quantization_config=models.BinaryQuantization(  
        binary=models.BinaryQuantizationConfig(
            always_ram=True,  # Store the quantized vectors in RAM for faster access
        ),
    ),
)

您可以通过在vectors_config中设置on_disk=True来将原始向量存储在磁盘上以节省 RAM 空间，同时将量化向量保存在 RAM 中以实现更快访问

我们建议查看我们的向量量化指南，以获取方法和优化特定用例性能的技巧的完整分类。

分布式部署

在考虑扩展时，要考虑的关键因素是容错性、负载均衡和可用性。一个节点，无论多么强大，都只能为您提供有限的帮助。最终，您需要将工作负载分散到多台机器上，以确保系统保持快速和稳定。

分片：跨节点分发数据

在分布式 Qdrant 集群中，数据被分割成更小的单元，称为分片，它们分布在不同的节点上。这有助于平衡负载并确保查询可以并行处理。

每个集合（一组相关的数据点）可以分成不重叠的子集，然后由不同的节点管理。

Distributed vector database with sharding and Raft consensus

Raft 共识确保所有节点保持同步并对数据具有一致的视图。每个节点都知道每个分片在哪里，并且 Raft 确保所有节点都同步。如果一个节点失败，其他节点知道丢失数据的位置并可以接管。

默认情况下，Qdrant 系统中的分片数量与集群中的节点数量匹配。但如果您需要更多控制，可以在创建集合时手动选择shard_number。

client.create_collection(
    collection_name="{collection_name}",
    vectors_config=models.VectorParams(size=300, distance=models.Distance.COSINE),
    shard_number=4, # Custom number of shards
)

分片主要有两种类型

自动分片：点（向量）使用一致性哈希自动分布到分片中。每个分片包含数据的不重叠子集。
用户定义分片：指定点的分布方式，从而更好地控制数据组织，尤其适用于多租户等用例，其中每个租户（用户、客户端或组织）都有自己的独立数据。

每个分片都分为段。它们是分片内较小的存储单元，存储向量及其相关有效载荷（元数据）的子集。当执行查询时，它仅针对相关段，并并行处理它们。

Segments act as smaller storage units within a shard

复制：高可用性和数据完整性

您不想让单个故障导致系统崩溃，对吗？复制在不同节点之间保留相同数据的多个副本，以确保高可用性。

在 Qdrant 中，副本集管理这些分片副本跨不同节点。如果一个副本不可用，其他副本会接管并保持系统运行。数据是本地还是远程主要取决于您如何配置集群。

当发出查询时，如果相关数据存储在本地，则本地分片处理该操作。如果数据在远程分片上，则通过 gRPC 检索。

您可以使用replication_factor控制所需的副本数量。例如，创建具有 4 个分片和复制因子为 2 的集合将导致在集群中分布 8 个物理分片

client.create_collection(
    collection_name="{collection_name}",
    vectors_config=models.VectorParams(size=300, distance=models.Distance.COSINE),
    shard_number=4,
    replication_factor=2, 
)

我们建议将分片和复制结合使用，这样您的数据既可以分散在节点上，又可以复制以确保可用性。

有关用户定义分片、节点故障恢复和一致性保证等功能的更多详细信息，请参阅我们的分布式部署指南。

多租户：多租户架构的数据隔离

vector-database-get-started

分片有效地将数据分布在节点之间，而复制则保证了冗余和容错。但是，当您有多个客户端或用户组，并且需要将他们的数据隔离在同一基础设施中时，会发生什么？

多租户允许您将不同租户（用户、客户端或组织）的数据隔离在单个集群中。您不是为租户 1和租户 2创建单独的集合，而是将他们的数据存储在同一个集合中，但用group_id标记每个向量以识别它属于哪个租户。

Multitenancy dividing data between 2 tenants

在后端，Qdrant 可以将租户 1的数据存储在位于加拿大（可能出于 GDPR 等合规原因）的分片 1 中，而租户 2的数据存储在位于德国的分片 2 中。数据将物理分离，但仍在同一基础设施中。

为了实现这一点，您在 upsert 操作期间使用租户特定的group_id标记每个向量

client.upsert(
    collection_name="tenant_data",
    points=[models.PointStruct(
        id=2, 
        payload={"group_id": "tenant_1"}, 
        vector=[0.1, 0.9, 0.1]
    )],
    shard_key_selector="canada"
)

每个租户的数据保持隔离，同时仍受益于共享基础设施。优化数据隐私、遵守当地法规和可扩展性，而无需为每个租户创建过多的集合或维护单独的集群。

如果您想了解更多关于在 Qdrant 中使用多租户设置的信息，您可以查看我们的多租户和自定义分片专用指南。

数据安全和访问控制

向量数据库中常见的安全风险是嵌入反演攻击的可能性，攻击者可能从嵌入中重建原始数据。您可以使用多层保护来保护您的实例，这在将向量数据库投入生产之前非常重要。

对于更简单的用例中的快速安全性，您可以使用 API 密钥身份验证。要启用它，请在配置或环境变量中设置 API 密钥。

service:
  api_key: your_secret_api_key_here
  enable_tls: true  # Make sure to enable TLS to protect the API key from being exposed

设置完成后，请记住在所有请求中包含 API 密钥

from qdrant_client import QdrantClient

client = QdrantClient(
    url="https://:6333",
    api_key="your_secret_api_key_here"
)

在更高级的设置中，Qdrant 使用 JWT（JSON Web Tokens）来强制执行基于角色的访问控制 (RBAC)。

RBAC 定义角色并分配权限，而 JWT 安全地将这些角色编码到令牌中。每个请求都会根据用户的 JWT 进行验证，确保他们只能根据其分配的权限访问或修改数据。

您可以通过 Qdrant Web UI 轻松设置访问令牌并安全访问敏感数据：

Qdrant Web UI for generating a new access token.

默认情况下，Qdrant 实例是不安全的，因此在投入生产之前配置安全措施非常重要。要了解有关如何为您的 Qdrant 实例配置安全性以及其他高级选项的更多信息，请查看官方 Qdrant 安全文档。

是时候进行实验了

正如我们在本文中看到的那样，向量数据库绝不仅仅是我们传统意义上的数据库。它开辟了一个充满可能性的世界，从高级相似性搜索到允许同时以上下文和精确度检索内容的混合搜索。

但是，没有比实践更好的学习方式了。尝试构建一个语义搜索引擎或从零开始部署一个混合搜索服务。您会意识到利用向量的方式有无数种。

用例	工作原理	示例
相似性搜索	使用向量距离查找相似数据点	查找相似的产品图片，根据主题检索文档，发现相关主题
异常检测	根据向量空间中的偏差识别异常值	检测银行中异常的用户行为，发现不规则模式
推荐系统	使用向量嵌入学习和建模用户偏好	个性化电影或音乐推荐，电子商务产品建议
RAG（检索增强生成）	结合向量搜索与大型语言模型 (LLM)，提供与上下文相关的答案	客户支持，自动生成文档摘要，研究报告
多模态搜索	在单个查询中搜索不同类型的数据，如文本、图像和音频。	搜索带描述和图片的商品，根据音频或文本检索图片
语音和音频识别	使用向量表示识别和检索音频内容	语音转文本，语音控制智能设备，识别和分类声音
知识图谱增强	使用向量将非结构化数据链接到知识图谱中的概念	将研究论文链接到相关研究，将客户评论连接到产品功能，按创新趋势组织专利

您还可以观看我们的视频教程，开始使用 Qdrant 从示例数据集中生成语义搜索结果和推荐。

呼！希望您发现这里的一些概念有用。如果您有任何问题，请随时发送到我们的Discord 社区，我们的团队将非常乐意为您提供帮助！

记住，不要迷失在向量空间中！🚀

文章