当前位置：首页 > AI > 正文内容

RAG实战完全指南：从零搭建企业级智能问答系统

廖万里2个月前 (03-17)AI14

在 AI 应用开发浪潮中，RAG（检索增强生成）技术正成为企业落地智能问答系统的首选方案。本文将带你从零开始，手把手搭建一个基于 RAG 架构的企业级智能问答系统，涵盖知识库构建、向量检索、LLM 生成等核心模块，并提供完整的代码实现。

一、核心概念

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将信息检索与文本生成相结合的技术架构。它通过在生成答案前先检索相关知识，解决了大语言模型的知识截止问题和幻觉问题，特别适合构建基于私有知识库的问答系统。

1.1 为什么需要 RAG？

传统的大语言模型存在三大痛点：

知识截止问题：模型的训练数据有截止日期，无法获取最新信息
幻觉问题：模型可能生成看似合理但实际上是错误的信息
私有数据问题：企业内部的私有知识无法被模型学习

RAG 通过引入外部知识库，让模型在回答问题前先检索相关信息，基于检索到的内容生成答案，有效解决了上述问题。

1.2 RAG 的工作流程

RAG 系统包含两个核心阶段：

离线索引阶段：

文档加载：从各种数据源加载知识库文档
文本切分：将长文档切分成适合检索的小块
向量化：使用嵌入模型将文本转换为向量
存储索引：将向量存入向量数据库（如 FAISS）

在线推理阶段：

用户提问：接收用户输入的问题
问题向量化：将问题转换为向量
相似度检索：在向量库中搜索最相关的文档块
上下文构建：将检索结果与问题组合成提示词
答案生成：LLM 基于上下文生成最终答案

二、技术选型与环境准备

2.1 核心技术栈

本项目的核心技术栈包括：

嵌入模型：sentence-transformers/all-MiniLM-L6-v2（384 维向量，速度快效果好）
向量数据库：FAISS（Meta 开源的高效相似度搜索库）
生成模型：Phi-3-mini-4k-instruct（微软轻量级开源模型，3.8B 参数）
开发框架：LangChain + Transformers

2.2 环境配置

创建项目目录并安装依赖：

# 创建项目目录
mkdir rag-qa-system
cd rag-qa-system

# 创建虚拟环境
python -m venv venv
source venv/bin/activate  # Linux/Mac

# 安装依赖
pip install transformers>=4.35.0
pip install sentence-transformers>=2.2.2
pip install faiss-cpu>=1.7.4
pip install langchain>=0.1.0
pip install torch>=2.0.0
pip install pypdf>=3.17.0

三、核心模块实现

3.1 知识库管理模块

知识库管理模块负责文档的加载、切分和预处理：

import os
from typing import List, Dict

class KnowledgeBase:
    """本地知识库管理类"""
    
    def __init__(self, chunk_size: int = 500, chunk_overlap: int = 50):
        self.chunk_size = chunk_size
        self.chunk_overlap = chunk_overlap
        self.documents = []
    
    def load_markdown_file(self, file_path: str) -> str:
        """加载 Markdown 文件内容"""
        with open(file_path, 'r', encoding='utf-8') as f:
            return f.read()
    
    def split_text_into_chunks(self, text: str, source: str = "") -> List[Dict]:
        """智能切分文本为小块"""
        chunks = []
        start = 0
        text_length = len(text)
        
        while start < text_length:
            end = start + self.chunk_size
            
            # 寻找最佳切分点（句号、问号、换行等）
            if end < text_length:
                for delimiter in ['。', '！', '？', '

', '. ']:
                    pos = text.rfind(delimiter, start, end)
                    if pos != -1:
                        end = pos + len(delimiter)
                        break
            
            chunk_text = text[start:end].strip()
            if chunk_text:
                chunks.append({
                    'content': chunk_text,
                    'metadata': {
                        'source': source,
                        'start': start,
                        'end': end
                    }
                })
            
            start = end - self.chunk_overlap
        
        return chunks

这个模块的关键在于智能文本切分策略：优先在句子边界处切分，避免截断句子，同时保留文本块之间的重叠，确保上下文连贯性。

3.2 向量存储与检索模块

向量存储模块负责将文本转换为向量并构建 FAISS 索引：

import numpy as np
import faiss
from sentence_transformers import SentenceTransformer

class VectorStore:
    """向量存储和检索类"""
    
    def __init__(self, model_name: str = 'sentence-transformers/all-MiniLM-L6-v2'):
        """初始化向量存储"""
        print(f"正在加载嵌入模型: {model_name}")
        self.embedding_model = SentenceTransformer(model_name)
        self.dimension = self.embedding_model.get_sentence_embedding_dimension()
        self.index = None
        self.documents = []
    
    def build_index(self, documents: List[Dict]) -> None:
        """为文档构建 FAISS 索引"""
        self.documents = documents
        print(f"正在为 {len(documents)} 个文档块生成嵌入向量...")
        
        texts = [doc['content'] for doc in documents]
        embeddings = self.embedding_model.encode(
            texts,
            show_progress_bar=True,
            convert_to_numpy=True
        )
        
        self.index = faiss.IndexFlatL2(self.dimension)
        self.index.add(embeddings.astype('float32'))
        
        print(f"索引构建完成，向量维度: {self.dimension}")
    
    def search(self, query: str, top_k: int = 3) -> List[Dict]:
        """搜索与查询最相似的文档"""
        query_vector = self.embedding_model.encode(
            [query],
            convert_to_numpy=True
        ).astype('float32')
        
        distances, indices = self.index.search(query_vector, top_k)
        
        results = []
        for i, (distance, idx) in enumerate(zip(distances[0], indices[0])):
            if idx < len(self.documents):
                result = self.documents[idx].copy()
                result['score'] = 1 / (1 + distance)
                result['rank'] = i + 1
                results.append(result)
        
        return results

3.3 LLM 答案生成模块

LLM 模块负责基于检索到的上下文生成答案：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

class LLMGenerator:
    """LLM 答案生成器"""
    
    def __init__(self, model_name: str = 'microsoft/Phi-3-mini-4k-instruct'):
        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'
        
        self.tokenizer = AutoTokenizer.from_pretrained(
            model_name, trust_remote_code=True
        )
        self.model = AutoModelForCausalLM.from_pretrained(
            model_name,
            torch_dtype=torch.float16 if self.device == 'cuda' else torch.float32,
            device_map='auto',
            trust_remote_code=True
        )
    
    def generate_answer(self, query: str, context_docs: List[Dict]) -> str:
        """基于上下文生成答案"""
        context_text = "

".join([
            f"[参考信息 {i+1}]
{doc['content']}"
            for i, doc in enumerate(context_docs)
        ])
        
        prompt = f"""你是一个专业的智能客服助手。请根据以下参考信息回答用户的问题。

参考信息：
{context_text}

用户问题：{query}

请基于参考信息给出准确、简洁、友好的回答。如果参考信息中没有相关内容，请礼貌告知用户。

回答："""
        
        inputs = self.tokenizer(
            prompt, return_tensors='pt', truncation=True, max_length=2048
        ).to(self.device)
        
        with torch.no_grad():
            outputs = self.model.generate(
                **inputs,
                max_new_tokens=256,
                temperature=0.7,
                top_p=0.9,
                repetition_penalty=1.1
            )
        
        answer = self.tokenizer.decode(
            outputs[0][inputs['input_ids'].shape[1]:],
            skip_special_tokens=True
        )
        
        return answer.strip()

四、系统集成与测试

4.1 主系统集成

将所有模块组合成完整的问答系统：

class QASystem:
    """智能问答系统主类"""
    
    def __init__(self, knowledge_dir: str = './knowledge'):
        # 初始化组件
        self.kb = KnowledgeBase(chunk_size=500, chunk_overlap=50)
        self.vector_store = VectorStore()
        self.llm = LLMGenerator()
        
        # 构建索引
        self.kb.load_directory(knowledge_dir)
        documents = self.kb.get_documents()
        self.vector_store.build_index(documents)
    
    def ask(self, query: str, top_k: int = 3) -> Dict:
        """处理用户问题"""
        # 向量检索
        retrieved_docs = self.vector_store.search(query, top_k=top_k)
        
        # 生成答案
        answer = self.llm.generate_answer(query, retrieved_docs)
        
        return {
            'query': query,
            'answer': answer,
            'sources': retrieved_docs
        }

4.2 实际测试案例

创建一个示例知识库进行测试：

# 创建示例知识库
os.makedirs('./knowledge', exist_ok=True)

sample_md = """# 公司员工手册

## 密码重置流程

如果员工忘记了系统登录密码，可以按照以下步骤进行重置：

1. 访问公司内部系统登录页面
2. 点击"忘记密码"链接
3. 输入员工邮箱地址
4. 查收邮箱中的重置链接
5. 点击链接设置新密码

如遇到问题，请联系 IT 部门热线：400-123-4567
"""

with open('./knowledge/员工手册.md', 'w', encoding='utf-8') as f:
    f.write(sample_md)

# 初始化并运行系统
qa_system = QASystem()
result = qa_system.ask("我忘记密码了怎么办？")
print(result['answer'])

五、性能优化与生产部署

5.1 性能优化策略

1. 嵌入模型优化

对于中文场景，推荐使用更强大的嵌入模型：

# 使用中文优化模型
vector_store = VectorStore(
    model_name='BAAI/bge-large-zh-v1.5'  # 中文向量模型
)

2. 检索策略优化

查询重写：将用户问题转换为更适合检索的形式
重排序：使用 Reranker 对检索结果重新打分
混合检索：结合关键词检索和向量检索

3. 缓存机制

对高频问题实现缓存，减少重复计算：

from functools import lru_cache

@lru_cache(maxsize=100)
def cached_query(query: str):
    return qa_system.ask(query)

5.2 生产环境部署

使用 FastAPI 提供 Web API：

from fastapi import FastAPI
from pydantic import BaseModel

app = FastAPI(title="RAG 智能问答 API")

qa_system = QASystem()

class QueryRequest(BaseModel):
    question: str
    top_k: int = 3

@app.post("/ask")
async def ask_question(request: QueryRequest):
    result = qa_system.ask(request.question, request.top_k)
    return {"answer": result['answer'], "sources": result['sources']}

@app.get("/health")
async def health_check():
    return {"status": "healthy"}