当前位置：首页 > 学习笔记 > 正文内容

向量数据库实战完全指南：从入门到精通

廖万里2个月前 (03-20)学习笔记20

向量数据库是 AI 时代的核心基础设施，它让计算机能够"理解"语义相似性，支撑起 RAG、推荐系统、图像搜索等关键应用。本文将从概念到实战，全面掌握向量数据库技术。

一、什么是向量数据库

传统数据库存储的是结构化数据（数字、文本、日期），查询方式是精确匹配。但现实世界中，很多问题需要"相似性"搜索而非精确匹配：

用户输入"如何学习Python"，要找到语义相近的教程，而非只匹配关键词
上传一张图片，要找到视觉相似的其他图片
听了一段音乐，要推荐风格相近的歌曲

向量数据库就是为解决这类问题而生的。它将数据转换为高维向量，通过计算向量之间的距离来衡量相似性。

1.1 向量嵌入

向量嵌入是将文本、图像、音频等数据转换为数值向量的过程。这个过程通常由嵌入模型完成：

# 使用 OpenAI 的嵌入模型将文本转换为向量
import openai

def get_embedding(text, model="text-embedding-3-small"):
    """
    将文本转换为向量
    参数:
        text: 输入文本
        model: 嵌入模型名称
    返回:
        1536维的向量列表
    """
    response = openai.embeddings.create(
        input=text,
        model=model
    )
    return response.data[0].embedding

# 示例：将句子转换为向量
text = "Python是一门优雅的编程语言"
vector = get_embedding(text)
print(f"向量维度: {len(vector)}")  # 输出: 向量维度: 1536
print(f"向量前5个值: {vector[:5]}")

1.2 相似度计算

向量之间最常用的相似度计算方法是余弦相似度：

import numpy as np

def cosine_similarity(vec1, vec2):
    """
    计算两个向量的余弦相似度
    值范围: [-1, 1]，值越大表示越相似
    """
    # 转换为numpy数组
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    
    # 计算点积和模长
    dot_product = np.dot(vec1, vec2)
    norm = np.linalg.norm(vec1) * np.linalg.norm(vec2)
    
    return dot_product / norm

# 示例
vec_a = [1, 2, 3]
vec_b = [1, 2, 3.1]
similarity = cosine_similarity(vec_a, vec_b)
print(f"相似度: {similarity:.4f}")  # 接近1表示非常相似

二、主流向量数据库对比

当前市场上有多种向量数据库方案，各有特点：

数据库	类型	特点	适用场景
Milvus	开源	高性能、分布式、功能丰富	大规模生产环境
Pinecone	云服务	零运维、易上手	快速原型、中小项目
Chroma	开源	轻量级、Python原生	本地开发、学习
Weaviate	开源	内置向量化、GraphQL	语义搜索
Qdrant	开源	Rust编写、高性能	性能敏感场景

2.1 Milvus：生产级首选

Milvus 是目前最成熟的开源向量数据库，支持分布式部署、多种索引类型、丰富的查询功能。

# Milvus 基本使用
from pymilvus import connections, Collection, FieldSchema, CollectionSchema, DataType

# 连接到 Milvus 服务
connections.connect(
    alias="default",
    host="localhost",
    port="19530"
)

# 定义集合结构
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=512),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1536)
]

schema = CollectionSchema(fields=fields, description="文档向量集合")

# 创建集合
collection = Collection(name="documents", schema=schema)

# 创建索引（加速查询）
index_params = {
    "metric_type": "COSINE",  # 余弦相似度
    "index_type": "IVF_FLAT", # 索引类型
    "params": {"nlist": 128}
}
collection.create_index(field_name="embedding", index_params=index_params)

print("Milvus集合创建成功!")

2.2 Pinecone：云端零运维

Pinecone 是全托管的向量数据库服务，无需关心基础设施，API 简洁优雅。

import pinecone

# 初始化 Pinecone
pinecone.init(
    api_key="your-api-key",
    environment="us-east-1-aws"
)

# 创建索引
pinecone.create_index(
    name="documents",
    dimension=1536,  # 向量维度
    metric="cosine"  # 相似度度量
)

# 连接索引
index = pinecone.Index("documents")

# 插入向量
index.upsert([
    ("doc1", [0.1, 0.2, 0.3], {"title": "Python教程"}),
    ("doc2", [0.4, 0.5, 0.6], {"title": "Java入门"})
])

# 查询相似向量
query_vector = [0.1, 0.2, 0.35]
results = index.query(
    vector=query_vector,
    top_k=5,
    include_metadata=True
)

print(f"找到 {len(results.matches)} 个相似结果")

2.3 Chroma：轻量级首选

Chroma 是最易上手的向量数据库，专为 Python 开发者设计，适合本地开发和原型验证。

import chromadb

# 创建客户端（数据存储在本地）
client = chromadb.Client()

# 创建集合
collection = client.create_collection("documents")

# 添加文档（Chroma 会自动生成嵌入向量）
collection.add(
    documents=[
        "Python是一门优雅的编程语言",
        "Java是企业级开发的首选",
        "JavaScript是网页开发的核心"
    ],
    metadatas=[
        {"source": "tutorial"},
        {"source": "guide"},
        {"source": "course"}
    ],
    ids=["doc1", "doc2", "doc3"]
)

# 查询相似文档
results = collection.query(
    query_texts=["如何学习编程"],
    n_results=2
)

print(f"最相似的文档: {results[\"documents\"][0]}")

三、实战案例：构建语义搜索引擎

下面我们用 Milvus + OpenAI 构建一个完整的语义搜索引擎，实现文档的智能检索。

3.1 环境准备

# 安装依赖
pip install pymilvus openai python-dotenv

# 启动 Milvus（使用 Docker）
docker run -d --name milvus \
  -p 19530:19530 \
  -p 9091:9091 \
  milvusdb/milvus:latest standalone

3.2 完整代码实现

"""
语义搜索引擎完整实现
功能：将文档向量化存储，支持语义相似度搜索
"""
import os
from typing import List, Dict
import openai
from pymilvus import (
    connections, Collection, FieldSchema, 
    CollectionSchema, DataType, utility
)

class SemanticSearchEngine:
    """语义搜索引擎类"""
    
    def __init__(self, collection_name: str = "semantic_docs"):
        """
        初始化搜索引擎
        参数:
            collection_name: Milvus集合名称
        """
        self.collection_name = collection_name
        self.dimension = 1536  # OpenAI embedding 维度
        
        # 连接 Milvus
        connections.connect("default", host="localhost", port="19530")
        
        # 初始化集合
        self._init_collection()
    
    def _init_collection(self):
        """初始化或加载Milvus集合"""
        # 如果集合已存在，直接加载
        if utility.has_collection(self.collection_name):
            self.collection = Collection(self.collection_name)
            self.collection.load()
            return
        
        # 创建新集合
        fields = [
            FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
            FieldSchema(name="doc_id", dtype=DataType.VARCHAR, max_length=64),
            FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=512),
            FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=4096),
            FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=self.dimension)
        ]
        
        schema = CollectionSchema(fields=fields, description="语义文档集合")
        self.collection = Collection(name=self.collection_name, schema=schema)
        
        # 创建向量索引
        index_params = {
            "metric_type": "COSINE",
            "index_type": "IVF_FLAT",
            "params": {"nlist": 128}
        }
        self.collection.create_index("embedding", index_params)
        self.collection.load()
    
    def get_embedding(self, text: str) -> List[float]:
        """
        获取文本的向量嵌入
        参数:
            text: 输入文本
        返回:
            向量列表
        """
        response = openai.embeddings.create(
            input=text,
            model="text-embedding-3-small"
        )
        return response.data[0].embedding
    
    def add_document(self, doc_id: str, title: str, content: str):
        """
        添加单个文档到搜索引擎
        参数:
            doc_id: 文档唯一ID
            title: 文档标题
            content: 文档内容
        """
        # 生成向量（使用标题+内容）
        text_to_embed = f"{title}
{content}"
        embedding = self.get_embedding(text_to_embed)
        
        # 插入数据
        self.collection.insert([
            [doc_id],
            [title],
            [content],
            [embedding]
        ])
        
        # 刷新以确保数据可查询
        self.collection.flush()
    
    def add_documents_batch(self, documents: List[Dict]):
        """
        批量添加文档
        参数:
            documents: 文档列表，每个文档包含 doc_id, title, content
        """
        doc_ids = []
        titles = []
        contents = []
        embeddings = []
        
        for doc in documents:
            doc_ids.append(doc["doc_id"])
            titles.append(doc["title"])
            contents.append(doc["content"])
            
            # 批量生成向量
            text = f"{doc[\"title\"]}
{doc[\"content\"]}"
            embeddings.append(self.get_embedding(text))
        
        # 批量插入
        self.collection.insert([doc_ids, titles, contents, embeddings])
        self.collection.flush()
    
    def search(self, query: str, top_k: int = 5) -> List[Dict]:
        """
        语义搜索
        参数:
            query: 查询文本
            top_k: 返回结果数量
        返回:
            相似文档列表
        """
        # 将查询转换为向量
        query_embedding = self.get_embedding(query)
        
        # 执行向量搜索
        results = self.collection.search(
            data=[query_embedding],
            anns_field="embedding",
            param={"metric_type": "COSINE", "params": {"nprobe": 16}},
            limit=top_k,
            output_fields=["doc_id", "title", "content"]
        )
        
        # 格式化结果
        search_results = []
        for hits in results:
            for hit in hits:
                search_results.append({
                    "doc_id": hit.entity.get("doc_id"),
                    "title": hit.entity.get("title"),
                    "content": hit.entity.get("content"),
                    "score": hit.score  # 相似度分数
                })
        
        return search_results

# 使用示例
if __name__ == "__main__":
    # 初始化搜索引擎
    engine = SemanticSearchEngine()
    
    # 添加文档
    documents = [
        {
            "doc_id": "py_001",
            "title": "Python异步编程入门",
            "content": "Python的asyncio库提供了强大的异步编程支持。通过async/await语法，可以轻松编写高效的异步代码。"
        },
        {
            "doc_id": "py_002",
            "title": "Python列表推导式详解",
            "content": "列表推导式是Python的特色语法，可以用一行代码创建列表，简洁高效。"
        },
        {
            "doc_id": "ai_001",
            "title": "大语言模型原理",
            "content": "大语言模型基于Transformer架构，通过海量文本训练，具备强大的语言理解和生成能力。"
        }
    ]
    
    engine.add_documents_batch(documents)
    
    # 语义搜索
    results = engine.search("如何写高效的Python代码")
    
    print("搜索结果:")
    for i, result in enumerate(results, 1):
        print(f"
{i}. {result[\"title\"]}")
        print(f"   相似度: {result[\"score\"]:.4f}")
        print(f"   内容: {result[\"content\"][:50]}...")

四、性能优化最佳实践

4.1 索引选择

不同的索引类型适合不同场景：

FLAT：精确搜索，适合小数据集（<10万）
IVF_FLAT：平衡精度和速度，适合中等数据集
HNSW：高性能近似搜索，适合大规模实时查询
IVF_PQ：高压缩比，适合海量数据存储

4.2 向量维度选择

# 不同嵌入模型的维度对比
embedding_models = {
    "text-embedding-3-small": 1536,   # OpenAI，性价比高
    "text-embedding-3-large": 3072,   # OpenAI，精度更高
    "text-embedding-ada-002": 1536,   # OpenAI旧版
    "bge-large-zh": 1024,             # 中文开源模型
    "bge-small-zh": 512               # 轻量级中文模型
}

# 选择建议：
# 1. 维度越高，精度越好，但存储和计算成本越大
# 2. 对于中文场景，bge系列效果更佳
# 3. 实时性要求高时，选择小维度模型

4.3 批量处理优化

# 批量生成向量，减少API调用次数
def batch_get_embeddings(texts: List[str], batch_size: int = 100) -> List[List[float]]:
    """
    批量生成向量嵌入
    参数:
        texts: 文本列表
        batch_size: 每批处理数量
    返回:
        向量列表
    """
    all_embeddings = []
    
    for i in range(0, len(texts), batch_size):
        batch = texts[i:i + batch_size]
        
        response = openai.embeddings.create(
            input=batch,
            model="text-embedding-3-small"
        )
        
        batch_embeddings = [item.embedding for item in response.data]
        all_embeddings.extend(batch_embeddings)
    
    return all_embeddings

五、常见应用场景

5.1 RAG 知识库

RAG（检索增强生成）是当前最热门的AI应用模式。向量数据库作为知识库的核心组件，实现文档的智能检索。

# RAG 流程简化示例
def rag_query(question: str, collection) -> str:
    """
    RAG问答流程
    """
    # 1. 检索相关文档
    query_embedding = get_embedding(question)
    results = collection.search(
        data=[query_embedding],
        anns_field="embedding",
        limit=3
    )
    
    # 2. 构建上下文
    context = "
".join([hit.content for hit in results[0]])
    
    # 3. 调用LLM生成答案
    response = openai.chat.completions.create(
        model="gpt-4",
        messages=[
            {"role": "system", "content": "基于以下知识回答问题"},
            {"role": "user", "content": f"知识：{context}
问题：{question}"}
        ]
    )
    
    return response.choices[0].message.content